Приветствую! Как видите по скриншоту ниже. Я использую версию 8.3.5. Это происходило уже дважды. Сегодня утром мне пришлось перезагрузить хост p8. После этого сервер не поднялся в кластере. Сначала в его слоте был красный крестик, а потом все узлы перешли в это состояние. Я не могу управлять машинами. Перезагрузил только один из девяти узлов. В прошлый раз это произошло, когда я перезагрузил узел p3. Единственный способ запустить всё онлайн — перезагрузить все узлы одновременно. Но если я перезагружу один позже, это снова произойдёт. Это началось после обновления одного узла до версии 8.3.5. После этого я обновил все узлы до 8.3.5.
ДОБАВЛЕНО: При этом сами ВМ остаются онлайн. Я использую выделенные интерфейсы для VM-сети. Сети Ceph и управления работают на собственных оптоволоконных интерфейсах. Для каждой используется выделенное оптоволокно на 10 Гбит/с. Для каждой я использую Ceph и ZFS на хостах.
Подскажите, пожалуйста:
а) Почему это происходит?
б) Как это исправить без перезагрузки всего кластера?

ДОБАВЛЕНО: Я выполнил команду systemctl status и вот что получил:
```
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:06 SAST; 2h 15min ago
Process: 1623 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1626 (pmxcfs)
Tasks: 10 (limit: 232010)
Memory: 68.7M
CPU: 8.556s
CGroup: /system.slice/pve-cluster.service
└─1626 /usr/bin/pmxcfs
Apr 22 11:43:33 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 80
Apr 22 11:43:34 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 90
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 100
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retried 100 times
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] crit: cpg_send_message failed: 6
Apr 22 11:43:36 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 10
Apr 22 11:43:37 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 20
Apr 22 11:43:38 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 30
Apr 22 11:43:39 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 40
Apr 22 11:43:40 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 50
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:07 SAST; 2h 15min ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1691 (corosync)
Tasks: 9 (limit: 232010)
Memory: 3.9G
CPU: 1h 53min 5.992s
CGroup: /system.slice/corosync.service
└─1691 /usr/sbin/corosync -f
Apr 22 11:41:57 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: e f 11 20 2e 2f 30 31 32 1f 43 49 4a
Apr 22 11:42:01 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 32 58 5e 6d 72 73 74 75
Apr 22 11:42:06 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
Apr 22 11:42:39 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 6 7 8 9 b c d e f 10 11 1a 1b 1c 1d 1e 1f 20 2>
Apr 22 11:42:40 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b d e f 11 20 2f 30 31 1f 43 49 4a
Apr 22 11:42:45 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5663 ms
Apr 22 11:42:47 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: f 11 58 5e 6d 72 73 74 75
Apr 22 11:42:52 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 82 83 89
Apr 22 11:42:58 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b5 b4
Apr 22 11:43:19 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
```
ДОБАВЛЕНО: При этом сами ВМ остаются онлайн. Я использую выделенные интерфейсы для VM-сети. Сети Ceph и управления работают на собственных оптоволоконных интерфейсах. Для каждой используется выделенное оптоволокно на 10 Гбит/с. Для каждой я использую Ceph и ZFS на хостах.
Подскажите, пожалуйста:
а) Почему это происходит?
б) Как это исправить без перезагрузки всего кластера?

ДОБАВЛЕНО: Я выполнил команду systemctl status и вот что получил:
```
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:06 SAST; 2h 15min ago
Process: 1623 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1626 (pmxcfs)
Tasks: 10 (limit: 232010)
Memory: 68.7M
CPU: 8.556s
CGroup: /system.slice/pve-cluster.service
└─1626 /usr/bin/pmxcfs
Apr 22 11:43:33 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 80
Apr 22 11:43:34 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 90
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 100
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retried 100 times
Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] crit: cpg_send_message failed: 6
Apr 22 11:43:36 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 10
Apr 22 11:43:37 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 20
Apr 22 11:43:38 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 30
Apr 22 11:43:39 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 40
Apr 22 11:43:40 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 50
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; preset: enabled)
Active: active (running) since Tue 2025-04-22 09:28:07 SAST; 2h 15min ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1691 (corosync)
Tasks: 9 (limit: 232010)
Memory: 3.9G
CPU: 1h 53min 5.992s
CGroup: /system.slice/corosync.service
└─1691 /usr/sbin/corosync -f
Apr 22 11:41:57 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: e f 11 20 2e 2f 30 31 32 1f 43 49 4a
Apr 22 11:42:01 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 32 58 5e 6d 72 73 74 75
Apr 22 11:42:06 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
Apr 22 11:42:39 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 6 7 8 9 b c d e f 10 11 1a 1b 1c 1d 1e 1f 20 2>
Apr 22 11:42:40 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b d e f 11 20 2f 30 31 1f 43 49 4a
Apr 22 11:42:45 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5663 ms
Apr 22 11:42:47 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: f 11 58 5e 6d 72 73 74 75
Apr 22 11:42:52 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 82 83 89
Apr 22 11:42:58 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b5 b4
Apr 22 11:43:19 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
```
