Привет всем, в прошлую пятницу у нас произошла серьёзная проблема с кластером Proxmox. Во время обслуживания одного из узлов, этот узел неожиданно сам по себе получил кворум, что спровоцировало перезапуск ВМ HA. В итоге, на разных узлах одновременно заработало несколько экземпляров одних и тех же ВМ, что привело к повреждению данных. Сейчас мы пытаемся понять, как и почему Corosync определил, что этот единственный узел имеет кворум. Я приложил соответствующие логи Corosync по этому инциденту. Что нам известно на данный момент: Corosync пытался связаться с другими членами кластера, поэтому, полагаем, узлы правильно указаны в конфигурации Corosync. Сетевые/heartbeat-интерфейсы "дергались" – но только на узле, находящемся на обслуживании. Все остальные узлы оставались стабильными и были доступны друг для друга. В 12:51:28 логи Corosync сообщают: Мы будем очень признательны за любые идеи или советы от сообщества по следующим вопросам: Что могло привести к тому, что Corosync ложно предположил наличие кворума на одном узле? Как предотвратить такую ситуацию в будущем? Заранее спасибо за помощь! С уважением, Julian.
Проблемы с Proxmox - один узел неожиданно стал кворумом сам по себе., Proxmox Виртуальная Среда
|
02.06.2025 12:44:00
|
|
|
|
|
|
02.06.2025 13:26:00
Что показывает команда pvecm status?
|
|
|
|
|
|
03.06.2025 10:35:00
Привет, пожалуйста, проверь историю команд оболочки примерно на момент сообщения, то есть 30 мая в 12:51:28.
|
|
|
|
|
|
03.06.2025 11:08:00
К сожалению, у нас нет истории с указанием времени. Может, подскажете, на что стоит обратить внимание?
|
|
|
|
|
|
03.06.2025 11:43:00
Кажется, кто-то запустил "pvecm expected 1"...
|
|
|
|
|
|
03.06.2025 13:18:00
Прикрепил логи с 12:35 до 12:55 за тот день для всех 15 нод. Proxmox-02-gpu был еще одним затронутым хостом.
|
|
|
|
|
|
03.06.2025 15:01:00
Спасибо за ваш отзыв, похоже, нам не удастся выяснить первопричину этой проблемы.
|
|
|
|
|
Читают тему
