+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Ошибка ввода/вывода., Proxmox Виртуальная Среда

larsb

Guest

12.12.2024 12:58:00

Привет, ребята, у нас какие-то странные проблемы с автономным Proxmox-сервером.
- ВМ 1 работает без проблем
- ВМ 2 "работает", но недоступна через RDP
- Веб-интерфейс Proxmox тоже недоступен. При входе с валидными учетными данными возникает ошибка "неверный пароль". Те же самые учетные данные работают при входе через SSH. В логах ошибок написано: "не удалось записать файл статуса lrm - не удалось открыть файл '/etc/pve/nodes/pve/lrm_status.tmp.1774' - ошибка ввода/вывода" – так что причина в ошибках: не удалось записать файл статуса lrm, не удалось открыть файл '/etc/pve/nodes/pve/ Input/output error. Мы даже не можем выполнить touch /etc/pve/testfile - та же ошибка (ошибка ввода/вывода). У нас была такая же проблема некоторое время назад, когда мы перераспределили ВМ, то есть мы выделили 2 ТБ виртуальному диску, но реально осталось только 1,8 ТБ на ZFS. Интересный опыт, кстати – Proxmox полностью остановился со всеми ВМ, мы не могли использовать сервер несколько дней, потому что пришлось восстанавливать резервные копии на второй машине, а потом переустанавливать систему с нуля :\ Тот факт, что можно перераспределить ВМ – очень плохо, IMHO. Это никогда было невозможно с VMWare, Xen или Hyper-V! Но это уже другая история….

Теперь, вернемся к нашей проблеме. Если перезагрузить весь Proxmox, мы можем ненадолго получить доступ к GUI и второй ВМ. Через несколько часов / полдня проблема возникает снова.

# zfs list
NAME USED AVAIL REFER MOUNTPOINT
rpool 3.73T 325G 166K /rpool
rpool/ROOT 868G 325G 153K /rpool/ROOT
rpool/ROOT/pve-1 868G 325G 868G /
rpool/data 2.88T 325G 153K /rpool/data
rpool/data/vm-100-disk-0 310G 325G 310G -
rpool/data/vm-100-disk-1 985G 325G 985G -
rpool/data/vm-101-disk-0 303G 325G 303G -
rpool/data/vm-101-disk-1 1.32T 325G 1.32T -
rpool/var-lib-vz 204K 325G 204K /var/lib/vz

# zpool list
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
rpool 5.22T 4.67T 567G - - 19% 89% 1.00x ONLINE -

# zpool status -v
pool: rpool
state: ONLINE
scan: scrub repaired 0B in 00:42:56 with 0 errors on Sun Dec 8 01:06:57 2024
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717623-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717626-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717625-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717622-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717631-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717630-part3 ONLINE 0 0 0
errors: No known data errors

Когда пытаемся "df -h" или "df -i", места, кажется, достаточно. Когда переходим в /etc/pve, я в Fuse-окружении, как обычно, но там ничего сделать не могу:
root@pve:/etc# df -h .
Filesystem Size Used Avail Use% Mounted on
rpool/ROOT/pve-1 1.2T 869G 325G 73% /

root@pve:/etc# cd /etc/pve
root@pve:/etc/pve# df -h .
Filesystem Size Used Avail Use% Mounted on
/dev/fuse 128M 16K 128M 1% /etc/pve

root@pve:/etc/pve# touch small-file
touch: cannot touch 'small-file': Input/output error

Какие идеи, как это могло случиться?

larsb

Guest

03.01.2025 08:28:00

Конечно, ты прав. Но, кажется, у нас это уже было: root@pve:/# journalctl -b -u pve-cluster
Ноя 24 21:02:10 pve systemd[1]: Запуск pve-cluster.service - Файловая система кластера Proxmox VE...
Ноя 24 21:02:10 pve pmxcfs[1620]: [main] notice: resolved node name 'pve' to '10.195.195.220' для адреса IP узла по умолчанию
Ноя 24 21:02:10 pve pmxcfs[1620]: [main] notice: resolved node name 'pve' to '10.195.195.220' для адреса IP узла по умолчанию
Ноя 24 21:02:11 pve systemd[1]: Запущен pve-cluster.service - Файловая система кластера Proxmox VE.
Ноя 25 00:35:57 pve pmxcfs[1640]: [database] crit: commit transaction failed: database or disk is full
Ноя 25 00:35:57 pve pmxcfs[1640]: [database] crit: rollback transaction failed: cannot rollback - no transaction is active
- так что с 25 ноября диск или база данных объявлены "полными". Но какой именно диск? Какая база данных? Я знаю такие проблемы только из SQL- и/или Exchange-баз данных, где необходимо время от времени очищать журналы транзакций.

waltar Guest	#3 0 03.01.2025 08:46:00 Это база данных sqlite pve: /var/lib/pve-cluster/config.db, и файловая система "/" была заполнена.

larsb

Guest

03.01.2025 18:14:00

Привет, waltar, я, может, и дурак, но я хотя бы *стараюсь* разобраться в системе и инфраструктуре сервера – но в этой ситуации я в полной растерянности :\ root@pve:/# du -sch /var/lib/pve-cluster/config.db 20K /var/lib/pve-cluster/config.db root@pve:/var/lib/pve-cluster# df -h . Filesystem Size Used Avail Use% Mounted on rpool/ROOT/pve-1 1.2T 869G 325G 73% / root@pve:/var/lib/pve-cluster# df -h / Filesystem Size Used Avail Use% Mounted on rpool/ROOT/pve-1 1.2T 869G 325G 73% / = Почему говорит "диск заполнен", когда база данных всего 20 килобайт, а точка монтирования /- имеет объем в 1.2 терабайта, и примерно 27 процентов свободного места?? И журнал pve-cluster не менялся с 25 ноября… это нормально для Proxmox?!

waltar Guest	#5 0 04.01.2025 09:05:00 Может, там какая-то задача резервного копирования (pve/pbs) забила /tmp, и из-за этого в БД стали вылезать ошибки, что она полная?!

larsb

Guest

03.01.2025 08:16:00

Спасибо вам обоим за ваши комментарии, и извините за поздний ответ :\ Хотел бы начать с резервирования места для rootfs. На данный момент, у нас:

root@pve:/# df -h

udev 32G 0 32G 0% /dev
tmpfs 6.3G 2.5M 6.3G 1% /run
rpool/ROOT/pve-1 1.2T 869G 325G 73% /
tmpfs 32G 37M 32G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
efivarfs 512K 84K 424K 17% /sys/firmware/efi/efivars
rpool/var-lib-vz 325G 256K 325G 1% /var/lib/vz
rpool 325G 256K 325G 1% /rpool
rpool/ROOT 325G 256K 325G 1% /rpool/ROOT
rpool/data 325G 256K 325G 1% /rpool/data
/dev/fuse 128M 16K 128M 1% /etc/pve
/dev/sdg1 3.6T 28K 3.4T 1% /mnt/usb
tmpfs 6.3G 0 6.3G 0% /run/user/1000

Пока что, по моему скромному мнению, загрузка не 100%. Но у нас всё ещё есть странная проблема: мы не можем войти через GUI ("Login failed", хотя учетные данные верны) и мы не можем запустить второй VM :\ Как я уже говорил, если перезагрузить Proxmox, то на короткое время возможно войти через GUI и получить доступ ко второму VM. Но через день или около того всё снова повторяется: только одна VM работает, а Proxmox доступен только через SSH.

LnxBil Guest	#7 0 03.01.2025 08:23:00 Во-первых, это НЕ нормально, но без нормальных сообщений об ошибках мы даже не можем догадаться, что происходит.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры