Нигде в официальной документации PVE не указано, но corosync поддерживает last_man_standing, и при использовании с HA рекомендуется также установить wait_for_all. Я нашел несколько предыдущих обсуждений, но они не касались HA. Теперь я понимаю, что официальный рекомендуемый способ в PVE – просто использовать qdevice, но это не решает конкретные ситуации, например, когда нужно максимально увеличить время автономной работы, имея каскадный сбой узлов, оставляя только 3, с небольшим количеством основных служб HA, которые не будут перегружать их. Мой вопрос в том, кто-нибудь запускал это в продакшене или хотя бы в течение достаточно длительного периода на достаточно большом кластере (10+) для проверки каких-либо аномалий при выходе узлов из строя и их последующем перезапуске и их влияния на HA стек в PVE? Заметьте: поскольку ребалансировка может привести к парному количеству узлов, я думаю, лучше также установить auto_tie_breaker, но это не должно влиять на два вышеперечисленных пункта.
HA & last_man_standing + wait_for_all, Proxmox Виртуальная Среда
|
02.01.2024 16:42:00
|
|
|
|
|
|
22.02.2024 17:50:00
Проблема была не в сочетании LMS + WFA, а в том, что ATB тоже был там одновременно.
|
|
|
|
|
Читают тему
