Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Кластер хранилища Ceph выходит из строя, как только перезагружается первый сервер в кластере.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Кластер хранилища Ceph выходит из строя, как только перезагружается первый сервер в кластере., Proxmox Виртуальная Среда
     
    nkSupport
    Guest
    #1
    0
    15.05.2025 10:00:00
    Привет! У меня есть три одинаковых узла для запуска кластера Proxmox, каждый из них имеет 4 OSD, используемые в хранилище Ceph. PRX01, PRX02 и PRX03. Когда дело доходит до обновления, иногда приходится перезагружать узел, особенно если задействован апдейт ядра. Поэтому я перевожу узел в режим обслуживания, чтобы сначала перенести ВМ на другой узел. Как только все ВМ перенесены, я перезагружаю этот узел. После того, как узел снова заработает, я отключаю режим обслуживания для этого узла и жду, пока ВМ снова перенесутся, прежде чем переходить к другим узлам по очереди. Пока всё шло хорошо. Только когда мне нужно перезагрузить узел PRX01, что-то ужасно идет не так. Весь кластер Ceph становится недоступен, пока перезагрузка не закончится. У кого-нибудь есть идея, почему? Какая информация из моей конфигурации вам нужна, чтобы помочь мне?
     
     
     
    nkSupport
    Guest
    #2
    0
    16.05.2025 09:33:00
    Спасибо за подсказку! Я собрал логи со всех трех нод. PRX01 перезагрузился, к сожалению, в журнале PRX02 или PRX03 я ничего не нашел. Но, судя по логу с PRX01, Ceph был выключен на ВСЕХ нодах во время перезагрузки.
     
     
     
    fabian
    Guest
    #3
    0
    16.05.2025 09:20:00
    Проверь журнал командой journalctl --since "2025-05-13 16:05" --until "2025-05-13 16:15" > log.txt, а потом можешь прикрепить файл log.txt сюда (можно скачать его, например, через scp).
     
     
     
    fabian
    Guest
    #4
    0
    15.05.2025 10:23:00
    Тебе нужно предоставить больше информации о твоей конфигурации и, желательно, логи. Сколько у тебя мониторов? Как организован твой пул (настройки репликации, что-нибудь настраивал самостоятельно)? Сколько OSDs, и как они распределены между узлами? Что показывает команда `ceph -s`, когда кластер работает, и что она показывает, когда он не работает?
     
     
     
    nkSupport
    Guest
    #5
    0
    15.05.2025 11:28:00
    Сколько у тебя мониторов? - У меня три монитора, по одному на каждом узле. Как настроен твой пул (настройки репликации, что-нибудь настраивал? Пул # 2 Название .mgr VMPool Размер/мин 3/2 3/2 кол-во групп размещения 1 128 opt # PGs 1 128 Автоматическое масштабирование включено включено Правило Crush replicated_rule (0) replicated_rule (0) использовано [%] 44,45 MiB (0,00%) 9.41 TiB (49,60%) Сколько OSD? И как они распределены между узлами? - Доступно 12 OSD, по 4 на каждом узле PVE. Что пишет "ceph -s", когда кластер работает? ... кластер: id: e514f756-xxxxxxxx-aa96-9304de459fd1 состояние: HEALTH_OK сервисы: mon: 3 демона, кворум prx02,prx03,prx01 (возраст 42ч) mgr: prx02(активный, с 42ч), резервные: prx03, prx01 osd: 12 osd: 12 up (с 42ч), 12 in (с 9M) данные: пулы: 2 пула, 129 pgs объекты: 844,08k объектов, 3,2 TiB использовано: 9,4 TiB использовано, 12 TiB / 21 TiB доступно pgs: 129 активные+чистые io: client: 120 KiB/s rd, 7,7 MiB/s wr, 24 op/s rd, 139 op/s wr .... Смотри также мой ceph.conf: [global] auth_client_required = cephx auth_cluster_required = cephx auth_service_required = cephx cluster_network = 10.xxx.1.0/24 fsid = e514f756-b1ce-4429-aa96-9304de459fd1 mon_allow_pool_delete = true mon_host = 10.xxx.1.20 10.xxx.1.30 10.xxx.1.10 ms_bind_ipv4 = true ms_bind_ipv6 = false osd_pool_default_min_size = 2 osd_pool_default_size = 3 public_network = 10.xxx.1.0/24 [client] keyring = /etc/pve/priv/$cluster.$name.keyring [client.crash] keyring = /etc/pve/ceph/$cluster.$name.keyring [mds] keyring = /var/lib/ceph/mds/ceph-$id/keyring [mon.prx01] public_addr = 10.xxx.1.10 [mon.prx02] public_addr = 10.xxx.1.20 [mon.prx03] public_addr = 10.xxx.1.30
     
     
     
    nkSupport
    Guest
    #6
    0
    15.05.2025 11:30:00
    ... и да, прежде чем вы спросите - кластерная сеть и публичная сеть используют один и тот же IP-адрес.
     
     
     
    fabian
    Guest
    #7
    0
    15.05.2025 12:13:00
    Если ты не хочешь спровоцировать следующую проблему (понимаю), не мог бы ты, пожалуйста, предоставить журнал одного из других узлов, начиная немного раньше момента запуска отключения первого узла? Есть ли что-то особенное в настройке твоей сети (используешь ли коммутатор? полносвязная топология? ...)?
     
     
     
    nkSupport
    Guest
    #8
    0
    15.05.2025 17:07:00
    Прости, мои знания Linux быстро растут, но не так быстро, как я хотел бы. Как получить нужные данные из журнала? journalctl --since "25025-05-13 16:05" --until "2025-05-13 16:15" – там произошла перезагрузка prx01. Но какой формат вывода и как сделать экспорт, чтобы можно было загрузить?
     
     
     
    fabian
    Guest
    #9
    0
    16.05.2025 09:43:00
    Окей, пока что выглядит нормально... Не могли бы вы также выложить "ceph osd crush dump" (должно быть одинаково на всех нодах) и /var/log/ceph/ceph.log с нод 2 и 3 для проблемной перезагрузки? В этом файле строки начинаются с метки времени в формате unix epoch, вы можете преобразовать её с помощью команды date: date --date=@XXXXXX, например, Код: $ date --date=@1747381287
    Fri May 16 09:41:27 AM CEST 2025
     
     
     
    nkSupport
    Guest
    #10
    0
    16.05.2025 13:51:00
    Надеюсь, удастся вытащить из системы нужную информацию…
     
     
     
    fabian
    Guest
    #11
    0
    16.05.2025 13:59:00
    Похоже, это тоже нормально, насколько я могу судить. А как именно ты это определил? Ceph логи показывают, что упал только один mon и четыре osd, но, кроме того, что PGs немного маленькие (что ожидаемо и нормально, они остались активными!), Ceph вообще ничего не жалуется.
     
     
     
    nkSupport
    Guest
    #12
    0
    02.06.2025 14:50:00
    Привет, Фабиан, извини за поздний ответ и спасибо, что перепроверил. Я был залогинен в prx02, использовал веб-консоль, инициировал перезагрузку prx01. Во время перезагрузки я ожидал, что OSDs с PRX01 уйдут оффлайн, насколько я помню, во WebGUI весь Ceph Monitor стал оффлайн (все OSD выключены) до тех пор, пока PRX01 снова не заработал. Еще одна штука, которую я обнаружил пару недель назад — опечатка в конфигурации Ceph, где cluster_network и public_network были назначены IP-адресу ceph-nodes вместо адреса ceph-network. (например, cluster_network = 10.xxx.1.10/24 вместо 10.xxx.1.0/24). Но чтобы быть уверенным, я попробую воспроизвести это снова.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры