Привет. У нас кластер из 25 нод – 5 в одном дата-центре, 20 в другом. Оба дата-центра напрямую соединены 4x100G оптоволокном (это один и тот же дом, разные этажи). Мы провели какое-то обслуживание (я спрашивал о нем в другой ветке) – нужно переключиться с каких-то временных коммутаторов (без избыточности) на HA-пару новых коммутаторов. Сначала мы подготовили HA-пару и подключили тестовый сервер, установили Proxmox и подключили его к нашему кластеру… все работает как ожидалось. Потом мы взяли один сервер, отключили один кабель от старых коммутаторов и подключили 2 кабеля от новых коммутаторов. Сервер вроде работает, но примерно через 4 минуты все упало… некоторые серверы перезагрузились сами, некоторые нет. Когда мы отключаем сервер, все стабилизируется. Потом мы снова и снова проверяли конфигурацию новых коммутаторов, исправили некоторые моменты и подготовились лучше к простою (см. ссылку на другую ветку выше). Сегодня мы наконец-то перенесли 19/20 серверов на новые коммутаторы. Оба кабеля подключены, все работает как ожидалось, ЗА ИСКЛЮЧЕНИЕМ того самого сервера, который мы пытались подключить раньше. Старые коммутаторы полностью отключены. Потом мы попробовали подключить этот проблемный сервер. Снова – первые несколько минут все выглядит хорошо. Потом в веб-интерфейсе PVE один сервер серо выходит, потом другой сервер... и потом все серверы. Думаю, если бы мы не остановили LRM+CRM, все бы вылетело. У меня совершенно нет представления, что искать. Логи на коммутаторах показывают только, что порты отключены, логи на узлах PVE показывают отключенные узлы и потом перезагрузку. Что и ожидается, когда узлы случайным образом отключаются. Как может случиться, что подключение всего одного сервера убивает весь кластер? У всех нод "одинаковая" конфигурация – мы используем ansible для настройки. Вот часть нашего `/etc/network/interfaces` на случай, если это поможет лучше понять нашу сетевую архитектуру (порты на коммутаторах настроены как транковые порты с разрешенными необходимыми VLAN):
Code: auto eno1np0
iface eno1np0 inet manual
auto eno2np1
iface eno2np1 inet manual
auto bond0
iface bond0 inet manual
bond-slaves eno1np0 eno2np1
bond-miimon 100
bond-mode 802.3ad
auto bond0.701
iface bond0.701 inet manual
auto vmbr701
iface vmbr701 inet manual
bridge-ports bond0.701
bridge-stp off
bridge-fd 0
auto bond0.703
iface bond0.703 inet manual
auto vmbr703
iface vmbr703 inet manual
address 10.2.102.251/26
gateway 10.2.102.193
bridge-ports bond0.703
bridge-stp off
bridge-fd 0
Code: auto eno1np0
iface eno1np0 inet manual
auto eno2np1
iface eno2np1 inet manual
auto bond0
iface bond0 inet manual
bond-slaves eno1np0 eno2np1
bond-miimon 100
bond-mode 802.3ad
auto bond0.701
iface bond0.701 inet manual
auto vmbr701
iface vmbr701 inet manual
bridge-ports bond0.701
bridge-stp off
bridge-fd 0
auto bond0.703
iface bond0.703 inet manual
auto vmbr703
iface vmbr703 inet manual
address 10.2.102.251/26
gateway 10.2.102.193
bridge-ports bond0.703
bridge-stp off
bridge-fd 0
