Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Весь кластер ушёл в оффлайн.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Весь кластер ушёл в оффлайн., Proxmox Виртуальная Среда
     
    Donovan Hoare
    Guest
    #1
    0
    22.04.2025 11:04:00
    Приветствую! Как видите по скриншоту ниже. Я использую версию 8.3.5. Это происходило уже дважды. Сегодня утром мне пришлось перезагрузить хост p8. После этого сервер не поднялся в кластере. Сначала в его слоте был красный крестик, а потом все узлы перешли в это состояние. Я не могу управлять машинами. Перезагрузил только один из девяти узлов. В прошлый раз это произошло, когда я перезагрузил узел p3. Единственный способ запустить всё онлайн — перезагрузить все узлы одновременно. Но если я перезагружу один позже, это снова произойдёт. Это началось после обновления одного узла до версии 8.3.5. После этого я обновил все узлы до 8.3.5.

    ДОБАВЛЕНО: При этом сами ВМ остаются онлайн. Я использую выделенные интерфейсы для VM-сети. Сети Ceph и управления работают на собственных оптоволоконных интерфейсах. Для каждой используется выделенное оптоволокно на 10 Гбит/с. Для каждой я использую Ceph и ZFS на хостах.

    Подскажите, пожалуйста:
    а) Почему это происходит?
    б) Как это исправить без перезагрузки всего кластера?



    ДОБАВЛЕНО: Я выполнил команду systemctl status и вот что получил:

    ```
    ● pve-cluster.service - The Proxmox VE cluster filesystem
        Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; preset: enabled)
        Active: active (running) since Tue 2025-04-22 09:28:06 SAST; 2h 15min ago
       Process: 1623 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
      Main PID: 1626 (pmxcfs)
         Tasks: 10 (limit: 232010)
        Memory: 68.7M
           CPU: 8.556s
        CGroup: /system.slice/pve-cluster.service
                └─1626 /usr/bin/pmxcfs

    Apr 22 11:43:33 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 80
    Apr 22 11:43:34 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 90
    Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 100
    Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retried 100 times
    Apr 22 11:43:35 atsho2p8 pmxcfs[1626]: [status] crit: cpg_send_message failed: 6
    Apr 22 11:43:36 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 10
    Apr 22 11:43:37 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 20
    Apr 22 11:43:38 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 30
    Apr 22 11:43:39 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 40
    Apr 22 11:43:40 atsho2p8 pmxcfs[1626]: [status] notice: cpg_send_message retry 50

    ● corosync.service - Corosync Cluster Engine
        Loaded: loaded (/lib/systemd/system/corosync.service; enabled; preset: enabled)
        Active: active (running) since Tue 2025-04-22 09:28:07 SAST; 2h 15min ago
          Docs: man:corosync
                man:corosync.conf
                man:corosync_overview
      Main PID: 1691 (corosync)
         Tasks: 9 (limit: 232010)
        Memory: 3.9G
           CPU: 1h 53min 5.992s
        CGroup: /system.slice/corosync.service
                └─1691 /usr/sbin/corosync -f

    Apr 22 11:41:57 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: e f 11 20 2e 2f 30 31 32 1f 43 49 4a
    Apr 22 11:42:01 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 32 58 5e 6d 72 73 74 75
    Apr 22 11:42:06 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
    Apr 22 11:42:39 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 6 7 8 9 b c d e f 10 11 1a 1b 1c 1d 1e 1f 20 2>
    Apr 22 11:42:40 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b d e f 11 20 2f 30 31 1f 43 49 4a
    Apr 22 11:42:45 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5663 ms
    Apr 22 11:42:47 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: f 11 58 5e 6d 72 73 74 75
    Apr 22 11:42:52 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: 82 83 89
    Apr 22 11:42:58 atsho2p8 corosync[1691]: [TOTEM ] Retransmit List: b5 b4
    Apr 22 11:43:19 atsho2p8 corosync[1691]: [TOTEM ] Token has not been received in 5662 ms
    ```
     
     
     
    bbgeek17
    Guest
    #2
    0
    22.04.2025 14:40:00
    В целом, поиск неисправностей в стабильности кластера требует сопоставления записей журналов со всех узлов, предшествующих и происходящих во время события. Сеть зачастую является причиной или значительной частью той нестабильности, которую вы описали. Лучший путь, конечно, — открыть тикет в Proxmox GmbH. Если это невозможно, то хотя бы предоставьте: a) сетевую информацию (ip a, ip route и т.д.) b) конфигурацию кластера (pvecm status) c) записи journalctl, начиная непосредственно перед событием, со всех узлов d) версию PVE со всех узлов, или, как минимум, подтверждение того, что версии на всех узлах одинаковы. Это всего лишь топ-4, скорее всего, есть и другие, которые сейчас не приходят в голову.

    Cheers, Blockbridge: ультра-низкая задержка общего хранилища на базе NVMe для Proxmox — https://www.blockbridge.com/proxmox
     
     
     
    Donovan Hoare
    Guest
    #3
    0
    24.04.2025 06:45:00
    Обновил весь кластер до 8.4.1. На этих выходных перезагружу один узел и посмотрю, повторится ли это. Если да, выложу как можно больше информации.
     
     
     
    aaron
    Guest
    #4
    0
    24.04.2025 09:16:00
    Проверь, какие сети используются Corosync (коммуникация кластера Proxmox VE) (/etc/pve/corosync.conf). В идеале у тебя должно быть больше одной, и одна из них должна быть выделена исключительно для Corosync (физическая сеть, 1 Гбит вполне достаточно). Если у тебя только одна Corosync-сеть и с ней проблемы, то вполне вероятно, что ты будешь видеть что-то вроде твоих проблем. Или у тебя определено хранилище, которое зависает? Например, сетевая папка, которая перестала отвечать? Это тоже может объяснить, почему все узлы отображаются серыми: служба, обновляющая статус, может застрять, ожидая что-то, что не отвечает.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры