Всем привет! Это мой первый пост. У меня есть кластер PVE из 3 нод, который работает отлично, за одним единственным исключением: ВМ иногда начинают странно себя вести. Что я имею в виду под "странно"? - Потеря IP-адреса (и сетевого трафика) - Прекращается любая активность на дисках - Загрузка CPU доходит до 25% и остается на этом значении (см. вложение).
Потенциальные причины:
* PVE-хосты ничего не пишут в логи относительно этого события.
* В логах самой ВМ тоже нет информации о событии, потому что, по сути, похоже, что хранилище было отсоединено от машины, так что нет возможности что-либо записать.
* Это происходит с любым бэкендом, который я пробовал (Ceph, ZFS, локальный LVM на EXT4).
* Это абсолютно рандомно: может произойти дважды за неделю, а может раз в 3 месяца.
* Все затронутые ВМ основаны на Debian 12 (различные версии, это происходит с 6+ месяцев, в последний раз на этой неделе, и я обновляю ОС примерно раз в месяц).
* Я начал кластер, кажется, с 8.2.x (возможно, даже 8.1.x), но обновление до более новых версий никогда не помогало, сейчас я на 8.3.2.
* В кластере используются смешанные ноды: #1 EPYC Rome, #2 XEON Scalable Gen. 2, #3 Xeon 22xx, и это происходит с ВМ на всех них...
Мой вопрос — это не столько просьба помочь разобраться в этом, сколько общий вопрос, чтобы понять, является ли это чем-то известным? Происходит ли это только у меня, или другие сталкивались с подобной проблемой? Потому что, на мой взгляд, это достаточно ощутимая проблема…
Потенциальные причины:
* PVE-хосты ничего не пишут в логи относительно этого события.
* В логах самой ВМ тоже нет информации о событии, потому что, по сути, похоже, что хранилище было отсоединено от машины, так что нет возможности что-либо записать.
* Это происходит с любым бэкендом, который я пробовал (Ceph, ZFS, локальный LVM на EXT4).
* Это абсолютно рандомно: может произойти дважды за неделю, а может раз в 3 месяца.
* Все затронутые ВМ основаны на Debian 12 (различные версии, это происходит с 6+ месяцев, в последний раз на этой неделе, и я обновляю ОС примерно раз в месяц).
* Я начал кластер, кажется, с 8.2.x (возможно, даже 8.1.x), но обновление до более новых версий никогда не помогало, сейчас я на 8.3.2.
* В кластере используются смешанные ноды: #1 EPYC Rome, #2 XEON Scalable Gen. 2, #3 Xeon 22xx, и это происходит с ВМ на всех них...
Мой вопрос — это не столько просьба помочь разобраться в этом, сколько общий вопрос, чтобы понять, является ли это чем-то известным? Происходит ли это только у меня, или другие сталкивались с подобной проблемой? Потому что, на мой взгляд, это достаточно ощутимая проблема…
