+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Весь кластер ушёл в оффлайн., Proxmox Виртуальная Среда

Donovan Hoare

Guest

22.04.2025 11:04:00

Приветствую! Как видите по скриншоту ниже. Я использую версию 8.3.5. Это происходило уже дважды. Сегодня утром мне пришлось перезагрузить хост p8. После этого сервер не поднялся в кластере. Сначала в его слоте был красный крестик, а потом все узлы перешли в это состояние. Я не могу управлять машинами. Перезагрузил только один из девяти узлов. В прошлый раз это произошло, когда я перезагрузил узел p3. Единственный способ запустить всё онлайн — перезагрузить все узлы одновременно. Но если я перезагружу один позже, это снова произойдёт. Это началось после обновления одного узла до версии 8.3.5. После этого я обновил все узлы до 8.3.5.

ДОБАВЛЕНО: При этом сами ВМ остаются онлайн. Я использую выделенные интерфейсы для VM-сети. Сети Ceph и управления работают на собственных оптоволоконных интерфейсах. Для каждой используется выделенное оптоволокно на 10 Гбит/с. Для каждой я использую Ceph и ZFS на хостах.

Подскажите, пожалуйста:
а) Почему это происходит?
б) Как это исправить без перезагрузки всего кластера?

ДОБАВЛЕНО: Я выполнил команду systemctl status и вот что получил:

```
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:06 SAST; 2h 15min ago
Process: 1623 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1626 (pmxcfs)
Tasks: 10 (limit: 232010)
Memory: 68.7M
CPU: 8.556s
CGroup: /system.slice/pve-cluster.service
└─1626 /usr/bin/pmxcfs

Apr 22 11:43:33 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 80
Apr 22 11:43:34 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 90
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 100
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retried 100 times
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] crit: cpg_send_message failed: 6
Apr 22 11:43:36 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 10
Apr 22 11:43:37 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 20
Apr 22 11:43:38 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 30
Apr 22 11:43:39 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 40
Apr 22 11:43:40 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 50

● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:07 SAST; 2h 15min ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1691 (corosync)
Tasks: 9 (limit: 232010)
Memory: 3.9G
CPU: 1h 53min 5.992s
CGroup: /system.slice/corosync.service
└─1691 /usr/sbin/corosync -f

Apr 22 11:41:57 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: e f 11 20 2e 2f 30 31 32 1f 43 49 4a
Apr 22 11:42:01 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 32 58 5e 6d 72 73 74 75
Apr 22 11:42:06 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
Apr 22 11:42:39 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 6 7 8 9 b c d e f 10 11 1a 1b 1c 1d 1e 1f 20 2>
Apr 22 11:42:40 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b d e f 11 20 2f 30 31 1f 43 49 4a
Apr 22 11:42:45 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5663 ms
Apr 22 11:42:47 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: f 11 58 5e 6d 72 73 74 75
Apr 22 11:42:52 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 82 83 89
Apr 22 11:42:58 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b5 b4
Apr 22 11:43:19 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
```

bbgeek17

Guest

22.04.2025 14:40:00

В целом, поиск неисправностей в стабильности кластера требует сопоставления записей журналов со всех узлов, предшествующих и происходящих во время события. Сеть зачастую является причиной или значительной частью той нестабильности, которую вы описали. Лучший путь, конечно, — открыть тикет в Proxmox GmbH. Если это невозможно, то хотя бы предоставьте: a) сетевую информацию (ip a, ip route и т.д.) b) конфигурацию кластера (pvecm status) c) записи journalctl, начиная непосредственно перед событием, со всех узлов d) версию PVE со всех узлов, или, как минимум, подтверждение того, что версии на всех узлах одинаковы. Это всего лишь топ-4, скорее всего, есть и другие, которые сейчас не приходят в голову.

Cheers, Blockbridge: ультра-низкая задержка общего хранилища на базе NVMe для Proxmox — https://www.blockbridge.com/proxmox

Donovan Hoare Guest	#3 0 24.04.2025 06:45:00 Обновил весь кластер до 8.4.1. На этих выходных перезагружу один узел и посмотрю, повторится ли это. Если да, выложу как можно больше информации.

aaron Guest	#4 0 24.04.2025 09:16:00 Проверь, какие сети используются Corosync (коммуникация кластера Proxmox VE) (/etc/pve/corosync.conf). В идеале у тебя должно быть больше одной, и одна из них должна быть выделена исключительно для Corosync (физическая сеть, 1 Гбит вполне достаточно). Если у тебя только одна Corosync-сеть и с ней проблемы, то вполне вероятно, что ты будешь видеть что-то вроде твоих проблем. Или у тебя определено хранилище, которое зависает? Например, сетевая папка, которая перестала отвечать? Это тоже может объяснить, почему все узлы отображаются серыми: служба, обновляющая статус, может застрять, ожидая что-то, что не отвечает.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры