Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Виртуальные машины остановлены из-за сбоя узла.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Виртуальные машины остановлены из-за сбоя узла., Proxmox Виртуальная Среда
     
    Kilbukas
    Guest
    #1
    0
    20.09.2023 07:42:00
    Привет, у меня кластер из 4 узлов на PVE 7.4.16 с Ceph 17.2.6. Когда я пытаюсь перезагрузить один из узлов, ВМ останавливаются, и я не могу перезагрузить/запустить/сбросить/остановить, пока все OSD не станут активными и исправными, потому что OSD Ceph в деградированном состоянии. Неважно, установлен флаг noout или нет. У Ceph 3 монитора и 3 менеджера работают (узлы с ВМ), 4-й узел не содержит ВМ, только Ceph. В syslog нет ошибок, только в журнале монитора Ceph отображается следующее: 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.715+0300 7f88f4bae000 -1 mgr[py] Модуль pg_autoscaler не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.810+0300 7f88f4bae000 -1 mgr[py] Модуль status не имеет члена NOTIFY_TYPES 17.09 17:08:41 pve ceph-mgr[1578]: 2023-09-17T17:08:41.892+0300 7f88f4bae000 -1 mgr[py] Модуль osd_support не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.106+0300 7f88f4bae000 -1 mgr[py] Модуль alerts не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.443+0300 7f88f4bae000 -1 mgr[py] Модуль telegraf не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.583+0300 7f88f4bae000 -1 mgr[py] Модуль selftest не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.816+0300 7f88f4bae000 -1 mgr[py] Модуль prometheus не имеет члена NOTIFY_TYPES 17.09 17:08:42 pve ceph-mgr[1578]: 2023-09-17T17:08:42.968+0300 7f88f4bae000 -1 mgr[py] Модуль test_orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.140+0300 7f88f4bae000 -1 mgr[py] Модуль telemetry не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.208+0300 7f88f4bae000 -1 mgr[py] Модуль progress не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.416+0300 7f88f4bae000 -1 mgr[py] Модуль orchestrator не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.484+0300 7f88f4bae000 -1 mgr[py] Модуль influx не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.556+0300 7f88f4bae000 -1 mgr[py] Модуль devicehealth не имеет члена NOTIFY_TYPES 17.09 17:08:43 pve ceph-mgr[1578]: 2023-09-17T17:08:43.788+0300 7f88f4bae000 -1 mgr[py] Модуль balancer не имеет члена NOTIFY_TYPES 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.218+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 279750) UID: 0 18.09 00:00:57 pve ceph-mgr[1578]: 2023-09-18T00:00:57.238+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 279751) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.210+0300 7f88f0b48700 -1 получено сообщение: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 1221089) UID: 0 19.09 00:00:57 pve ceph-mgr[1578]: 2023-09-19T00:00:57.226+0300 7f88f0b48700 -1 получено сообщение: Hangup от (PID: 1221090) UID: 0 Может быть, в кластере отсутствует какая-то конфигурация?
     
     
     
    Kilbukas
    Guest
    #2
    0
    22.08.2024 11:37:00
    Привет, вернулся к моей проблеме. Сегодня я провел тест с выключением одного нода, и снова произошла остановка ВМ. HA перенесла ВМ на работающий нод, но ВМ остановилась, консоль Proxmox VM не отвечает. Ошибка консоли: ceph -s скриншот, затем кластер в состоянии предупреждения:
     
     
     
    UdoB
    Guest
    #3
    0
    22.08.2024 13:54:00
    Это просто предупреждение и не должно влиять на работающие VM и их администрирование. (Ну, разве что сетевая производительность может ухудшиться, в зависимости от вашей сетевой конфигурации...) Как обстоят дела с PVE кластером в плане Quorum? Что показывает pvecm status?
     
     
     
    Kilbukas
    Guest
    #4
    0
    22.08.2024 14:11:00
    pvecm status (показывает 4 хоста, но на pve06 нет ceph-конфига или запущенных VM, просто вшит в кластер):

    Code: Cluster information
    -------------------
    Имя:             elmclu1
    Версия конфига:   4
    Транспорт:        knet
    Безопасная аутентификация:  on

    Quorum information
    ------------------
    Дата:             Чт, 22 авг 2024 15:06:51
    Поставщик Quorum:  corosync_votequorum
    Ноды:            4
    ID ноды:          0x00000001
    ID кольца:          1.a2
    Кворум:           Да

    Votequorum information
    ----------------------
    Ожидаемые голоса:   4
    Наивысшее ожидаемое: 4
    Общее количество голосов:      4
    Кворум:           3
    Флаги:            Кворум

    Membership information
    ----------------------
       Nodeid      Голоса Имя
    0x00000001          1 10.10.81.50 (local)
    0x00000002          1 10.10.81.60
    0x00000003          1 10.10.81.20
    0x00000004          1 10.10.81.10
     
     
     
    Kilbukas
    Guest
    #5
    0
    22.08.2024 14:15:00
    Также протестировал ещё раз с 512 PG: ceph log показывает это, когда я выключил один узел: Code: 2024-08-22T14:38:33.409966+0300 mgr.pve05 (mgr.35494109) 11409260 : cluster [DBG] pgmap v11413349: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 2.9 MiB/s rd, 2.5 MiB/s wr, 393 op/s
    2024-08-22T14:38:35.411185+0300 mgr.pve05 (mgr.35494109) 11409261 : cluster [DBG] pgmap v11413350: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 1.8 MiB/s rd, 1.7 MiB/s wr, 224 op/s
    2024-08-22T14:38:37.412049+0300 mgr.pve05 (mgr.35494109) 11409262 : cluster [DBG] pgmap v11413351: 513 pgs: 513 active+clean; 5.5 TiB data, 11 TiB used, 10 TiB / 21 TiB avail; 785 KiB/s rd, 674 KiB/s wr, 118 op/s
    2024-08-22T14:38:37.815758+0300 mon.pve05 (mon.2) 3671794 : cluster [INF] mon.pve05 calling monitor election
    2024-08-22T14:38:37.824768+0300 mon.pve-02-prod (mon.0) 2908600 : cluster [INF] mon.pve-02-prod calling monitor election
    2024-08-22T14:38:42.900003+0300 mon.pve-02-prod (mon.0) 2908611 : cluster [DBG] osd.18 reported immediately failed by osd.14
    2024-08-22T14:38:42.900046+0300 mon.pve-02-prod (mon.0) 2908612 : cluster [DBG] osd.18 failed (root=default,host=pve-01-prod) (connection refused reported by osd.12)
    2024-08-22T14:38:42.900099+0300 mon.pve-02-prod (mon.0) 2908613 : cluster [DBG] osd.18 reported immediately failed by osd.12
    2024-08-22T14:38:42.900148+0300 mon.pve-02-prod (mon.0) 2908614 : cluster [DBG] osd.18 reported immediately failed by osd.12
    2024-08-22T14:38:42.900201+0300 mon.pve-02-prod (mon.0) 2908615 : cluster [DBG] osd.18 reported immediately failed by osd.11
    2024-08-22T14:38:42.900258+0300 mon.pve-02-prod (mon.0) 2908616 : cluster [DBG] osd.18 reported immediately failed by osd.13
    2024-08-22T14:38:42.900303+0300 mon.pve-02-prod (mon.0) 2908617 : cluster [DBG] osd.18 reported immediately failed by osd.13
    2024-08-22T14:38:42.900347+0300 mon.pve-02-prod (mon.0) 2908618 : cluster [DBG] osd.18 reported immediately failed by osd.11
    2024-08-22T14:38:42.900497+0300 mon.pve-02-prod (mon.0) 2908619 : cluster [DBG] osd.18 reported immediately failed by osd.14
    2024-08-22T14:38:42.900549+0300 mon.pve-02-prod (mon.0) 2908620 : cluster [DBG] osd.18 reported immediately failed by osd.13
    2024-08-22T14:38:42.900593+0300 mon.pve-02-prod (mon.0) 2908621 : cluster [DBG] osd.18 reported immediately failed by osd.11

     services:
       mon: 3 daemons, quorum pve-02-prod,pve05 (age 9m), out of quorum: pve-01-prod
       mgr: pve05(active, since 8M), standbys: pve-02-prod
       osd: 12 osds: 8 up (since 9m), 12 in (since 3h)

     data:
       pools:   2 pools, 513 pgs
       objects: 1.48M objects, 5.5 TiB
       usage:   11 TiB used, 10 TiB / 21 TiB avail
       pgs:     66.082% pgs not active
                977725/2960882 objects degraded (33.021%)
                339 undersized+degraded+peered
                174 active+clean
    И ceph -s показывает и ребалансировка не активна: Code: cluster:
       id:     c391ba66-3e41-48c6-9ceb-80006929796a
       health: HEALTH_WARN
               1/3 mons down, quorum pve-02-prod,pve05
               4 osds down
               1 host (4 osds) down
               Reduced data availability: 339 pgs inactive
               Degraded data redundancy: 977725/2960882 objects degraded (33.021%), 339 pgs degraded, 339 pgs undersized
     
     
     
    Kilbukas
    Guest
    #6
    0
    23.08.2024 12:01:00
    Ну что, кто-нибудь мыслишки имеет?
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры