Привет, у меня кластер из 4 узлов на PVE 7.4.16 с Ceph 17.2.6. Когда я пытаюсь перезагрузить один из узлов, ВМ останавливаются, и я не могу перезагрузить/запустить/сбросить/остановить, пока все OSD не станут активными и исправными, потому что OSD Ceph в деградированном состоянии. Неважно, установлен флаг noout или нет. У Ceph 3 монитора и 3 менеджера работают (узлы с ВМ), 4-й узел не содержит ВМ, только Ceph. В syslog нет ошибок, только в журнале монитора Ceph отображается следующее: 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.715+0300 7f88f4bae000 -1 mgr[py] Модуль pg_autoscaler не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.810+0300 7f88f4bae000 -1 mgr[py] Модуль status не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.892+0300 7f88f4bae000 -1 mgr[py] Модуль osd_support не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.106+0300 7f88f4bae000 -1 mgr[py] Модуль alerts не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.443+0300 7f88f4bae000 -1 mgr[py] Модуль telegraf не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.583+0300 7f88f4bae000 -1 mgr[py] Модуль selftest не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.816+0300 7f88f4bae000 -1 mgr[py] Модуль prometheus не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.968+0300 7f88f4bae000 -1 mgr[py] Модуль test_orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.140+0300 7f88f4bae000 -1 mgr[py] Модуль telemetry не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.208+0300 7f88f4bae000 -1 mgr[py] Модуль progress не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.416+0300 7f88f4bae000 -1 mgr[py] Модуль orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.484+0300 7f88f4bae000 -1 mgr[py] Модуль influx не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.556+0300 7f88f4bae000 -1 mgr[py] Модуль devicehealth не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.788+0300 7f88f4bae000 -1 mgr[py] Модуль balancer не имеет члена NOTIFY_TYPES 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.218+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 279750) UID: 0 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.238+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 279751) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.210+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 1221089) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.226+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 1221090) UID: 0 Может быть, в кластере отсутствует какая-то конфигурация?
Виртуальные машины остановлены из-за сбоя узла., Proxmox Виртуальная Среда
|
20.09.2023 07:42:00
|
|
|
|
|
|
23.08.2024 12:01:00
Ну что, кто-нибудь мыслишки имеет?
|
||||
|
|
|
|||
Читают тему

ceph -s скриншот, затем кластер в состоянии предупреждения: 
ceph log показывает это, когда я выключил один узел: Code: 2024-08-22T14:38:33.409966+0300 mgr.pve05 (mgr.35494109) 11409260 : cluster [DBG] pgmap v11413349: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 2.9 MiB/s rd, 2.5 MiB/s wr, 393 op/s