Привет! Вчера у меня возникла проблема с одной из моих pve-машин. В системе мониторинга Zabbix я увидел, что pve-хост не отвечает, и начал выяснять, что не так. Залогинившись в KVM IPMI, я увидел стандартный экран входа в pve, но он был полностью не отвечал и завис – даже курсор не мигал. Сочетание клавиш CTRL + ALT + DEL тоже не сработало. Это произошло уже 2 раза с интервалом в ~2 часа. Я обновился до версии 8.4.1, и все проблемы, похоже, устранены – он стабильно работает около 12 часов. Я видел еще одну тему с похожей проблемой и добавил строку Code: GRUB_CMDLINE_LINUX_DEFAULT="quiet pci=assign-busses apicmaintimer idle=poll reboot=cold,hard" в GRUB, но это не помогло. Важные моменты:
1. Я сталкивался с этой проблемой на других серверах с той же конфигурацией оборудования несколько раз, диски в порядке, оперативная память не показывает никаких ошибок чтения/записи, процессор и материнская плата тоже в норме.
2. На том же сервере, где возникали проблемы, я установил Debian 12 и работал с ним около 48 часов, чтобы проверить, возникнут ли там проблемы – он был абсолютно стабильным.
3. У меня есть еще 5 машин с такой же конфигурацией и разными версиями pve в кластере. Они полностью в порядке (версии ядра: 6.8.12-5 | 6.8.12-9 | 6.5.11-8 | 6.8.4-2 | 6.5.11-8) ни на одной из них не наблюдается таких сбоев. Даже несмотря на то, что пока выглядит стабильно – что могло быть причиной? У кого-нибудь есть какие-нибудь предположения? К сожалению, я забыл получить версии пакетов из состояния до обновления. Но я поищу их в логах.
Спецификации тестовой платформы, на которой возникала проблема:
MOBO: X470D4U
CPU: AMD Ryzen 7 5800X
RAM: 128GB - протестирована без ошибок в memtest
Текущая версия pve-manager после обновления - стабильна, примерно +/- 12 часов 2025-04-22 00:00:10 pve-manager/8.4.1/2a5fa54a8503f96d
Предыдущая версия pve-manager после обновления - периодически зависала 2025-04-21 15:57:10 pve-manager/8.3.0/c1689ccb1065a83b
Текущая версия ядра после обновления - стабильна, примерно +/- 12 часов 2025-04-22 00:00:10 Linux 6.8.12-9-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-9 (2025-03-16T19:18Z)
Предыдущая версия ядра после обновления - периодически зависала 2025-04-21 15:57:10 Linux 6.8.12-4-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-4 (2024-11-06T15:04Z)
1. Я сталкивался с этой проблемой на других серверах с той же конфигурацией оборудования несколько раз, диски в порядке, оперативная память не показывает никаких ошибок чтения/записи, процессор и материнская плата тоже в норме.
2. На том же сервере, где возникали проблемы, я установил Debian 12 и работал с ним около 48 часов, чтобы проверить, возникнут ли там проблемы – он был абсолютно стабильным.
3. У меня есть еще 5 машин с такой же конфигурацией и разными версиями pve в кластере. Они полностью в порядке (версии ядра: 6.8.12-5 | 6.8.12-9 | 6.5.11-8 | 6.8.4-2 | 6.5.11-8) ни на одной из них не наблюдается таких сбоев. Даже несмотря на то, что пока выглядит стабильно – что могло быть причиной? У кого-нибудь есть какие-нибудь предположения? К сожалению, я забыл получить версии пакетов из состояния до обновления. Но я поищу их в логах.
Спецификации тестовой платформы, на которой возникала проблема:
MOBO: X470D4U
CPU: AMD Ryzen 7 5800X
RAM: 128GB - протестирована без ошибок в memtest
Текущая версия pve-manager после обновления - стабильна, примерно +/- 12 часов 2025-04-22 00:00:10 pve-manager/8.4.1/2a5fa54a8503f96d
Предыдущая версия pve-manager после обновления - периодически зависала 2025-04-21 15:57:10 pve-manager/8.3.0/c1689ccb1065a83b
Текущая версия ядра после обновления - стабильна, примерно +/- 12 часов 2025-04-22 00:00:10 Linux 6.8.12-9-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-9 (2025-03-16T19:18Z)
Предыдущая версия ядра после обновления - периодически зависала 2025-04-21 15:57:10 Linux 6.8.12-4-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-4 (2024-11-06T15:04Z)
