После развертывания нашего нового кластера всё шло хорошо, но у нас возникла проблема: кластер самопроизвольно перезагружался дважды за две недели, причем без каких-либо уведомлений об ошибках или ограждения проблемного узла. Все логи указывают на истечение времени ожидания сторожевого таймера (watchdog timer) в нашем трёхузловом кластере, что приводит к полной перезагрузке всех трёх узлов. Мы в замешательстве, потому что в системных логах для узлов 1–3 нет соответствующих записей. Прикрепляю логи для pve2, они практически идентичны логам для всех трёх узлов. На стороне сети не было потери соединения на портах — каждый узел подключен через LACP с двумя 10-гигабитными каналами в выделенную нетегированную VLAN. Первое сообщение о повторной передаче Corosync появилось в 10:32:18, и с этого момента всё пошло не так. К 11:23:52 проблемы усугубились, пока машина не перезагрузилась в 13:37:20. Логи подключения root от Veeam. Наш коммутатор, обрабатывающий трафик Corosync, — это коммутатор Mikrotik, я также проверил конфигурацию LACP. Прикрепляю соответствующий файл журнала. Спасибо за помощь!
[TOTEM] Список повторной передачи ... приводит к неожиданной перезагрузке всего кластера HA., Proxmox Виртуальная Среда
|
06.06.2025 04:01:00
|
|
|
|
|
|
11.06.2025 09:14:00
Идеально было бы, если бы у вас было два физических интерфейса, выделенные для трафика Corosync (1G достаточно — важна в основном задержка).
|
|
|
|
|
|
11.06.2025 09:49:00
там есть все подробности, включая то, как перенастроить кластер.
|
|
|
|
|
|
06.06.2025 09:49:00
Похоже, ссылка у тебя шалит... Corosync сеть отдельная? Можешь рассказать поподробнее о конфигурации твоей сети?
|
|
|
|
|
|
11.06.2025 17:54:00
У нас кластер из 3 узлов. Но полезно знать!
|
|
|
|
|
|
11.06.2025 22:26:00
Спасибо за информацию, изучу это и свяжусь с тобой, если возникнут какие-то проблемы!
|
||||
|
|
|
|||
Читают тему

Что мне кажется таким странным, так это то, что повторные передачи происходят на всех 3 узлах почти одновременно. И если порт "машет" (flapping), не должна ли резервная ссылка LACP взять на себя неисправную? Даже в этом случае не должно ли это привести к исключению узла из кластера (fencing) вместо срабатывания сторожевого таймера во всем кластере?