Привет, ребята, у нас какие-то странные проблемы с автономным Proxmox-сервером.
- ВМ 1 работает без проблем
- ВМ 2 "работает", но недоступна через RDP
- Веб-интерфейс Proxmox тоже недоступен. При входе с валидными учетными данными возникает ошибка "неверный пароль". Те же самые учетные данные работают при входе через SSH. В логах ошибок написано: "не удалось записать файл статуса lrm - не удалось открыть файл '/etc/pve/nodes/pve/lrm_status.tmp.1774' - ошибка ввода/вывода" – так что причина в ошибках: не удалось записать файл статуса lrm, не удалось открыть файл '/etc/pve/nodes/pve/ Input/output error. Мы даже не можем выполнить touch /etc/pve/testfile - та же ошибка (ошибка ввода/вывода). У нас была такая же проблема некоторое время назад, когда мы перераспределили ВМ, то есть мы выделили 2 ТБ виртуальному диску, но реально осталось только 1,8 ТБ на ZFS. Интересный опыт, кстати – Proxmox полностью остановился со всеми ВМ, мы не могли использовать сервер несколько дней, потому что пришлось восстанавливать резервные копии на второй машине, а потом переустанавливать систему с нуля :\ Тот факт, что можно перераспределить ВМ – очень плохо, IMHO. Это никогда было невозможно с VMWare, Xen или Hyper-V! Но это уже другая история….
Теперь, вернемся к нашей проблеме. Если перезагрузить весь Proxmox, мы можем ненадолго получить доступ к GUI и второй ВМ. Через несколько часов / полдня проблема возникает снова.
# zfs list
NAME USED AVAIL REFER MOUNTPOINT
rpool 3.73T 325G 166K /rpool
rpool/ROOT 868G 325G 153K /rpool/ROOT
rpool/ROOT/pve-1 868G 325G 868G /
rpool/data 2.88T 325G 153K /rpool/data
rpool/data/vm-100-disk-0 310G 325G 310G -
rpool/data/vm-100-disk-1 985G 325G 985G -
rpool/data/vm-101-disk-0 303G 325G 303G -
rpool/data/vm-101-disk-1 1.32T 325G 1.32T -
rpool/var-lib-vz 204K 325G 204K /var/lib/vz
# zpool list
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
rpool 5.22T 4.67T 567G - - 19% 89% 1.00x ONLINE -
# zpool status -v
pool: rpool
state: ONLINE
scan: scrub repaired 0B in 00:42:56 with 0 errors on Sun Dec 8 01:06:57 2024
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717623-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717626-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717625-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717622-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717631-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717630-part3 ONLINE 0 0 0
errors: No known data errors
Когда пытаемся "df -h" или "df -i", места, кажется, достаточно. Когда переходим в /etc/pve, я в Fuse-окружении, как обычно, но там ничего сделать не могу:
root@pve:/etc# df -h .
Filesystem Size Used Avail Use% Mounted on
rpool/ROOT/pve-1 1.2T 869G 325G 73% /
root@pve:/etc# cd /etc/pve
root@pve:/etc/pve# df -h .
Filesystem Size Used Avail Use% Mounted on
/dev/fuse 128M 16K 128M 1% /etc/pve
root@pve:/etc/pve# touch small-file
touch: cannot touch 'small-file': Input/output error
Какие идеи, как это могло случиться?
- ВМ 1 работает без проблем
- ВМ 2 "работает", но недоступна через RDP
- Веб-интерфейс Proxmox тоже недоступен. При входе с валидными учетными данными возникает ошибка "неверный пароль". Те же самые учетные данные работают при входе через SSH. В логах ошибок написано: "не удалось записать файл статуса lrm - не удалось открыть файл '/etc/pve/nodes/pve/lrm_status.tmp.1774' - ошибка ввода/вывода" – так что причина в ошибках: не удалось записать файл статуса lrm, не удалось открыть файл '/etc/pve/nodes/pve/ Input/output error. Мы даже не можем выполнить touch /etc/pve/testfile - та же ошибка (ошибка ввода/вывода). У нас была такая же проблема некоторое время назад, когда мы перераспределили ВМ, то есть мы выделили 2 ТБ виртуальному диску, но реально осталось только 1,8 ТБ на ZFS. Интересный опыт, кстати – Proxmox полностью остановился со всеми ВМ, мы не могли использовать сервер несколько дней, потому что пришлось восстанавливать резервные копии на второй машине, а потом переустанавливать систему с нуля :\ Тот факт, что можно перераспределить ВМ – очень плохо, IMHO. Это никогда было невозможно с VMWare, Xen или Hyper-V! Но это уже другая история….
Теперь, вернемся к нашей проблеме. Если перезагрузить весь Proxmox, мы можем ненадолго получить доступ к GUI и второй ВМ. Через несколько часов / полдня проблема возникает снова.
# zfs list
NAME USED AVAIL REFER MOUNTPOINT
rpool 3.73T 325G 166K /rpool
rpool/ROOT 868G 325G 153K /rpool/ROOT
rpool/ROOT/pve-1 868G 325G 868G /
rpool/data 2.88T 325G 153K /rpool/data
rpool/data/vm-100-disk-0 310G 325G 310G -
rpool/data/vm-100-disk-1 985G 325G 985G -
rpool/data/vm-101-disk-0 303G 325G 303G -
rpool/data/vm-101-disk-1 1.32T 325G 1.32T -
rpool/var-lib-vz 204K 325G 204K /var/lib/vz
# zpool list
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
rpool 5.22T 4.67T 567G - - 19% 89% 1.00x ONLINE -
# zpool status -v
pool: rpool
state: ONLINE
scan: scrub repaired 0B in 00:42:56 with 0 errors on Sun Dec 8 01:06:57 2024
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717623-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717626-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717625-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717622-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717631-part3 ONLINE 0 0 0
ata-SAMSUNG_MZ7L3960HCJR-00A07_S662NN0W717630-part3 ONLINE 0 0 0
errors: No known data errors
Когда пытаемся "df -h" или "df -i", места, кажется, достаточно. Когда переходим в /etc/pve, я в Fuse-окружении, как обычно, но там ничего сделать не могу:
root@pve:/etc# df -h .
Filesystem Size Used Avail Use% Mounted on
rpool/ROOT/pve-1 1.2T 869G 325G 73% /
root@pve:/etc# cd /etc/pve
root@pve:/etc/pve# df -h .
Filesystem Size Used Avail Use% Mounted on
/dev/fuse 128M 16K 128M 1% /etc/pve
root@pve:/etc/pve# touch small-file
touch: cannot touch 'small-file': Input/output error
Какие идеи, как это могло случиться?
