+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

[SOLVED] Ошибка при запуске 6.3-4 и Corosync 3.1.0, Proxmox Виртуальная Среда

Anton G

Guest

28.02.2021 08:29:00

Всем привет! Я столкнулся с проблемами во время тестирования обновления версии 6.3-4 в тестовом окружении, и этой теме я посвящаю обсуждение именно обновлению corosync. Согласно логам corosync причины были неясны даже с отладкой: на момент, когда система находилась в состоянии перед: 33 онлайн-узла в кластере и 2 недоступных (выключенных) узла. Все узлы имеют идентичные версии proxmox-ve: 6.3-1 (работающий ядро: 5.4.78-2-pve) corosync: 3.0.4-pve1 libcorosync-common4: 3.0.4-pve1, конфигурация с устаревшим bindnetaddr в разделе интерфейса: Код: logging {
debug: off
timestamp: on
to_syslog: yes
}

nodelist {
node {
name: vmm01
nodeid: 1
quorum_votes: 1
ring0_addr: 10.192.220.20
}
...
node {
name: vmm35
nodeid: 34
quorum_votes: 1
ring0_addr: 10.192.220.54
}
}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: cluster1
config_version: 47
interface {
ringnumber: 0
bindnetaddr: 10.192.220.0
}
ip_version: ipv4
join: 500
knet_compression_model: zlib
max_messages: 12
merge: 600
netmtu: 1300
secauth: on
send_join: 250
token: 100000
version: 2
window_size: 30
} сценарий тестирования обновления: 2 узла получили apt update && apt dist-upgrade. Установлены PVE 6.3-4 и corosync 3.1.0. Corosync не запустился на обоих узлах с последующими логами: 26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Встроенные функции Corosync: dbus мониторинг watchdog systemd xmlconf snmp pie relro bindnow
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] В разделе интерфейса bindnetaddr используется совместно с nodelist. Будет использоваться nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [MAIN ] Пожалуйста, перенесите файл конфигурации в nodelist.
26 фев 20:11:48 vmm06 corosync[1638201]: [TOTEM ] Инициализация транспорта (Kronosnet).
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: основной процесс завершился, код=killed, статус=11/SEGV
26 фев 20:11:48 vmm06 systemd[1]: corosync.service: Не удалось, результат 'signal'.
26 фев 20:11:48 vmm06 systemd[1]: Не удалось запустить Corosync Cluster Engine. Я решил удалить bindnetaddr из конфигурации. Это удалось для работающих узлов с версией 3.0.4 и это помогло запустить corosync на одном тестовом узле с версией 3.1.0, но на другом узле corosync все еще не запускался. Я прикрепляю логи с неработающего узла с corosync 3.1.0 с отладкой. Весь кластер успешно функционирует с версии pve 5. Можете подсказать, куда копать дальше? Узлы идентичны по сетевым настройкам, числу интерфейсов, однако оборудование немного отличается.

Anton G

Guest

03.04.2021 09:52:00

Привет, народ. Извините за задержку. Я вернулся к этому обновлению и немного поиграл с ним. Я выбрал тот же хост из этой темы (vmm06) и обновил все пакеты. Corosync был успешно обновлен с 3.0.4 до 3.1 и запущен. Я выполнил перезагрузку, и он начал падать. Я собрал дамп памяти и прикрепил его. Также прикрепил системный журнал на то время. Настройки сети прикреплены. @fabian - нет, там были все строки логов с включенным отладочным режимом.

Anton G Guest	#3 0 03.04.2021 09:53:00 Corosync coredump

fabian Guest	#4 0 07.04.2021 09:23:00 corosync 3.1.2 теперь доступен на pvetest с исправлением ошибки. Вы также можете отключить сжатие knet как временное решение, проблема/сбой должны затрагивать только те настройки, где оно включено.

Anton G Guest	#5 0 07.04.2021 09:30:00 Спасибо, уже протестировал отключение сжатия, и это сработало. @fabian

fabian Guest	#6 0 06.04.2021 10:10:00 Похоже, ты наткнулся на https://github.com/corosync/corosync/issues/630 - исправление уже доступно и будет интегрировано после проверки его верхним уровнем.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры