У меня есть кластер Proxmox из 3 нод, настроен с HA и репликацией ZFS. Всё автоматически бэкапится, репликация настроена для всех VM, и всё работает, как и ожидалось… в основном. То есть, если выдернуть шнур питания из одной ноды, VM'ы в итоге мигрируют. Если я выключаю одну, всё мигрирует, всё кажется работающим, как надо.
Но одна нода в частности (назовём её NodeB) немного менее надёжная и иногда жёстко зависает. Остальные 2 ноды помечают её как либо offline, либо unknown, но все VM, которые работали на NodeB, остаются там, то есть полностью offline и недоступны.
NodeB имеет Intel vPro, поэтому я могу войти в неё (часто экран просто жёстко завис и полностью не отвечает) и могу перезагрузить её, что возвращает её в онлайн, но это полностью упускает из виду аспект 'Высокой Доступности', если VM'ы недоступны до тех пор, пока я этого не сделаю.
Что ещё я могу сделать здесь, чтобы повысить надёжность? Если сервис Proxmox не отвечает, я хочу, чтобы он был помечен как down и всё мигрировало. Я могу смириться с тем, что нода выходит из строя раз в несколько месяцев, но не могу смириться с тем, что приходится ждать, пока кто-то сообщит об offline VM, чтобы осознать и вмешаться вручную.
Какие механизмы использует Proxmox, чтобы определить, действительно ли нода мертва или нет? Может ли физический интерфейс (который будет работать для vPro) вызывать зависание и не считать его действительно down? Пытается ли он опрашивать сервис Proxmox? Это простой ping?
Но одна нода в частности (назовём её NodeB) немного менее надёжная и иногда жёстко зависает. Остальные 2 ноды помечают её как либо offline, либо unknown, но все VM, которые работали на NodeB, остаются там, то есть полностью offline и недоступны.
NodeB имеет Intel vPro, поэтому я могу войти в неё (часто экран просто жёстко завис и полностью не отвечает) и могу перезагрузить её, что возвращает её в онлайн, но это полностью упускает из виду аспект 'Высокой Доступности', если VM'ы недоступны до тех пор, пока я этого не сделаю.
Что ещё я могу сделать здесь, чтобы повысить надёжность? Если сервис Proxmox не отвечает, я хочу, чтобы он был помечен как down и всё мигрировало. Я могу смириться с тем, что нода выходит из строя раз в несколько месяцев, но не могу смириться с тем, что приходится ждать, пока кто-то сообщит об offline VM, чтобы осознать и вмешаться вручную.
Какие механизмы использует Proxmox, чтобы определить, действительно ли нода мертва или нет? Может ли физический интерфейс (который будет работать для vPro) вызывать зависание и не считать его действительно down? Пытается ли он опрашивать сервис Proxmox? Это простой ping?
