+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Виртуальные машины остановлены из-за сбоя узла., Proxmox Виртуальная Среда

Kilbukas

Guest

20.09.2023 07:42:00

Привет, у меня кластер из 4 узлов на PVE 7.4.16 с Ceph 17.2.6. Когда я пытаюсь перезагрузить один из узлов, ВМ останавливаются, и я не могу перезагрузить/запустить/сбросить/остановить, пока все OSD не станут активными и исправными, потому что OSD Ceph в деградированном состоянии. Неважно, установлен флаг noout или нет. У Ceph 3 монитора и 3 менеджера работают (узлы с ВМ), 4-й узел не содержит ВМ, только Ceph. В syslog нет ошибок, только в журнале монитора Ceph отображается следующее: 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.715+0300 7f88f4bae000 -1 mgr[py] Модуль pg_autoscaler не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.810+0300 7f88f4bae000 -1 mgr[py] Модуль status не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.892+0300 7f88f4bae000 -1 mgr[py] Модуль osd_support не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.106+0300 7f88f4bae000 -1 mgr[py] Модуль alerts не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.443+0300 7f88f4bae000 -1 mgr[py] Модуль telegraf не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.583+0300 7f88f4bae000 -1 mgr[py] Модуль selftest не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.816+0300 7f88f4bae000 -1 mgr[py] Модуль prometheus не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.968+0300 7f88f4bae000 -1 mgr[py] Модуль test_orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.140+0300 7f88f4bae000 -1 mgr[py] Модуль telemetry не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.208+0300 7f88f4bae000 -1 mgr[py] Модуль progress не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.416+0300 7f88f4bae000 -1 mgr[py] Модуль orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.484+0300 7f88f4bae000 -1 mgr[py] Модуль influx не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.556+0300 7f88f4bae000 -1 mgr[py] Модуль devicehealth не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.788+0300 7f88f4bae000 -1 mgr[py] Модуль balancer не имеет члена NOTIFY_TYPES 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.218+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 279750) UID: 0 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.238+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 279751) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.210+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 1221089) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.226+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 1221090) UID: 0 Может быть, в кластере отсутствует какая-то конфигурация?

Kilbukas

Guest

22.08.2024 11:37:00

Привет, вернулся к моей проблеме. Сегодня я провел тест с выключением одного нода, и снова произошла остановка ВМ. HA перенесла ВМ на работающий нод, но ВМ остановилась, консоль Proxmox VM не отвечает. Ошибка консоли:

ceph -s скриншот, затем кластер в состоянии предупреждения:

UdoB

Guest

22.08.2024 13:54:00

Это просто предупреждение и не должно влиять на работающие VM и их администрирование. (Ну, разве что сетевая производительность может ухудшиться, в зависимости от вашей сетевой конфигурации...) Как обстоят дела с PVE кластером в плане Quorum? Что показывает pvecm status?

Kilbukas

Guest

22.08.2024 14:11:00

pvecm status (показывает 4 хоста, но на pve06 нет ceph-конфига или запущенных VM, просто вшит в кластер):

Code: Cluster information
-------------------
Имя: elmclu1
Версия конфига: 4
Транспорт: knet
Безопасная аутентификация: on

Quorum information
------------------
Дата: Чт, 22 авг 2024 15:06:51
Поставщик Quorum: corosync_votequorum
Ноды: 4
ID ноды: 0x00000001
ID кольца: 1.a2
Кворум: Да

Votequorum information
----------------------
Ожидаемые голоса: 4
Наивысшее ожидаемое: 4
Общее количество голосов: 4
Кворум: 3
Флаги: Кворум

Membership information
----------------------
Nodeid Голоса Имя
0x00000001 1 10.10.81.50 (local)
0x00000002 1 10.10.81.60
0x00000003 1 10.10.81.20
0x00000004 1 10.10.81.10

Kilbukas

Guest

22.08.2024 14:15:00

Также протестировал ещё раз с 512 PG:

ceph log показывает это, когда я выключил один узел: Code: 2024-08-22T14:38:33.409966+0300 mgr.pve05 (mgr.35494109) 11409260 : cluster [DBG] pgmap v11413349: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 2.9 MiB/s rd, 2.5 MiB/s wr, 393 op/s
2024-08-22T14:38:35.411185+0300 mgr.pve05 (mgr.35494109) 11409261 : cluster [DBG] pgmap v11413350: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 1.8 MiB/s rd, 1.7 MiB/s wr, 224 op/s
2024-08-22T14:38:37.412049+0300 mgr.pve05 (mgr.35494109) 11409262 : cluster [DBG] pgmap v11413351: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 785 KiB/s rd, 674 KiB/s wr, 118 op/s
2024-08-22T14:38:37.815758+0300 mon.pve05 (mon.2) 3671794 : cluster [INF] mon.pve05 calling monitor election
2024-08-22T14:38:37.824768+0300 mon.pve-02-prod (mon.0) 2908600 : cluster [INF] mon.pve-02-prod calling monitor election
2024-08-22T14:38:42.900003+0300 mon.pve-02-prod (mon.0) 2908611 : cluster [DBG] osd.18 reported immediately failed by osd.14
2024-08-22T14:38:42.900046+0300 mon.pve-02-prod (mon.0) 2908612 : cluster [DBG] osd.18 failed (root=default,host=pve-01-prod) (connection refused reported by osd.12)
2024-08-22T14:38:42.900099+0300 mon.pve-02-prod (mon.0) 2908613 : cluster [DBG] osd.18 reported immediately failed by osd.12
2024-08-22T14:38:42.900148+0300 mon.pve-02-prod (mon.0) 2908614 : cluster [DBG] osd.18 reported immediately failed by osd.12
2024-08-22T14:38:42.900201+0300 mon.pve-02-prod (mon.0) 2908615 : cluster [DBG] osd.18 reported immediately failed by osd.11
2024-08-22T14:38:42.900258+0300 mon.pve-02-prod (mon.0) 2908616 : cluster [DBG] osd.18 reported immediately failed by osd.13
2024-08-22T14:38:42.900303+0300 mon.pve-02-prod (mon.0) 2908617 : cluster [DBG] osd.18 reported immediately failed by osd.13
2024-08-22T14:38:42.900347+0300 mon.pve-02-prod (mon.0) 2908618 : cluster [DBG] osd.18 reported immediately failed by osd.11
2024-08-22T14:38:42.900497+0300 mon.pve-02-prod (mon.0) 2908619 : cluster [DBG] osd.18 reported immediately failed by osd.14
2024-08-22T14:38:42.900549+0300 mon.pve-02-prod (mon.0) 2908620 : cluster [DBG] osd.18 reported immediately failed by osd.13
2024-08-22T14:38:42.900593+0300 mon.pve-02-prod (mon.0) 2908621 : cluster [DBG] osd.18 reported immediately failed by osd.11

services:
mon: 3 daemons, quorum pve-02-prod,pve05 (age 9m), out of quorum: pve-01-prod
mgr: pve05(active, since 8M), standbys: pve-02-prod
osd: 12 osds: 8 up (since 9m), 12 in (since 3h)

data:
pools: 2 pools, 513 pgs
objects: 1.48M objects, 5.5 TiB
usage: 11 TiB used, 10 TiB / 21 TiB avail
pgs: 66.082% pgs not active
977725/2960882 objects degraded (33.021%)
339 undersized+degraded+peered
174 active+clean
И ceph -s показывает и ребалансировка не активна: Code: cluster:
id: c391ba66-3e41-48c6-9ceb-80006929796a
health: HEALTH_WARN
1/3 mons down, quorum pve-02-prod,pve05
4 osds down
1 host (4 osds) down
Reduced data availability: 339 pgs inactive
Degraded data redundancy: 977725/2960882 objects degraded (33.021%), 339 pgs degraded, 339 pgs undersized

Kilbukas Guest	#6 0 23.08.2024 12:01:00 Ну что, кто-нибудь мыслишки имеет?

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры