Всем привет! Я столкнулся с проблемами во время тестирования обновления версии 6.3-4 в тестовом окружении, и этой теме я посвящаю обсуждение именно обновлению corosync. Согласно логам corosync причины были неясны даже с отладкой: на момент, когда система находилась в состоянии перед: 33 онлайн-узла в кластере и 2 недоступных (выключенных) узла. Все узлы имеют идентичные версии proxmox-ve: 6.3-1 (работающий ядро: 5.4.78-2-pve) corosync: 3.0.4-pve1 libcorosync-common4: 3.0.4-pve1, конфигурация с устаревшим bindnetaddr в разделе интерфейса: Код: logging {
debug: off
timestamp: on
to_syslog: yes
}
nodelist {
node {
name: vmm01
nodeid: 1
quorum_votes: 1
ring0_addr: 10.192.220.20
}
...
node {
name: vmm35
nodeid: 34
quorum_votes: 1
ring0_addr: 10.192.220.54
}
}
quorum {
provider: corosync_votequorum
}
totem {
cluster_name: cluster1
config_version: 47
interface {
ringnumber: 0
bindnetaddr: 10.192.220.0
}
ip_version: ipv4
join: 500
knet_compression_model: zlib
max_messages: 12
merge: 600
netmtu: 1300
secauth: on
send_join: 250
token: 100000
version: 2
window_size: 30
} сценарий тестирования обновления: 2 узла получили apt update && apt dist-upgrade. Установлены PVE 6.3-4 и corosync 3.1.0. Corosync не запустился на обоих узлах с последующими логами: 26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Встроенные функции Corosync: dbus мониторинг watchdog systemd xmlconf snmp pie relro bindnow
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] В разделе интерфейса bindnetaddr используется совместно с nodelist. Будет использоваться nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Пожалуйста, перенесите файл конфигурации в nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [TOTEM ] Инициализация транспорта (Kronosnet).
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: основной процесс завершился, код=killed, статус=11/SEGV
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: Не удалось, результат 'signal'.
26 фев 20:11:48 vmm06 systemd[1]: Не удалось запустить Corosync Cluster Engine. Я решил удалить bindnetaddr из конфигурации. Это удалось для работающих узлов с версией 3.0.4 и это помогло запустить corosync на одном тестовом узле с версией 3.1.0, но на другом узле corosync все еще не запускался. Я прикрепляю логи с неработающего узла с corosync 3.1.0 с отладкой. Весь кластер успешно функционирует с версии pve 5. Можете подсказать, куда копать дальше? Узлы идентичны по сетевым настройкам, числу интерфейсов, однако оборудование немного отличается.
debug: off
timestamp: on
to_syslog: yes
}
nodelist {
node {
name: vmm01
nodeid: 1
quorum_votes: 1
ring0_addr: 10.192.220.20
}
...
node {
name: vmm35
nodeid: 34
quorum_votes: 1
ring0_addr: 10.192.220.54
}
}
quorum {
provider: corosync_votequorum
}
totem {
cluster_name: cluster1
config_version: 47
interface {
ringnumber: 0
bindnetaddr: 10.192.220.0
}
ip_version: ipv4
join: 500
knet_compression_model: zlib
max_messages: 12
merge: 600
netmtu: 1300
secauth: on
send_join: 250
token: 100000
version: 2
window_size: 30
} сценарий тестирования обновления: 2 узла получили apt update && apt dist-upgrade. Установлены PVE 6.3-4 и corosync 3.1.0. Corosync не запустился на обоих узлах с последующими логами: 26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Встроенные функции Corosync: dbus мониторинг watchdog systemd xmlconf snmp pie relro bindnow
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] В разделе интерфейса bindnetaddr используется совместно с nodelist. Будет использоваться nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Пожалуйста, перенесите файл конфигурации в nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [TOTEM ] Инициализация транспорта (Kronosnet).
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: основной процесс завершился, код=killed, статус=11/SEGV
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: Не удалось, результат 'signal'.
26 фев 20:11:48 vmm06 systemd[1]: Не удалось запустить Corosync Cluster Engine. Я решил удалить bindnetaddr из конфигурации. Это удалось для работающих узлов с версией 3.0.4 и это помогло запустить corosync на одном тестовом узле с версией 3.1.0, но на другом узле corosync все еще не запускался. Я прикрепляю логи с неработающего узла с corosync 3.1.0 с отладкой. Весь кластер успешно функционирует с версии pve 5. Можете подсказать, куда копать дальше? Узлы идентичны по сетевым настройкам, числу интерфейсов, однако оборудование немного отличается.
