Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Ceph не восстанавливается на втором узле после отказа через 10 минут.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Ceph не восстанавливается на втором узле после отказа через 10 минут., Proxmox Виртуальная Среда
     
    jsterr
    Guest
    #1
    0
    04.07.2025 11:05:00
    Привет! Я протестировал сценарий с 5 узлами pveceph:

    * 5 узлов PVE-CEPH
    * 4 OSD на узел
    * 5 Ceph MON
    * SIZE 3 / MINSIZE 2

    Если я отключаю один из 5 узлов pveceph, Ceph автоматически восстанавливается через 10 минут и переводит OSD в статус down & out. Все снова в порядке. После отключения другого узла Ceph НЕ восстанавливается автоматически через 10 минут и оставляет 2 из 4 OSD в статусе down & in.

    Скриншот после отказа первого узла и через 10 минут:
    Скриншот после отказа второго узла и через 10 минут:

    Похоже на баг, или я что-то упускаю?
     
     
     
    ness1602
    Guest
    #2
    0
    04.07.2025 11:21:00
    [ПРЕДУПРЕЖДЕНИЕ] MDS_INSUFFICIENT_STANDBY: недостаточно доступных MDS-демонов в режиме ожидания, их 0; нужно ещё 1. Почему так, если mds 1/1?
     
     
     
    ness1602
    Guest
    #3
    0
    04.07.2025 11:22:00
    А ещё, это проблема избыточного pg на OSD?
     
     
     
    SteveITS
    Guest
    #4
    0
    04.07.2025 15:56:00
    На любой странице Ceph внизу слева будет отображаться статус перестроения, если прокрутить вниз. Недостаточно резервных серверов — это для резервной копии, рекомендует добавить второй. Один не выключили? Группы объектов (PGs) по умолчанию распределяются автоматически.
     
     
     
    jsterr
    Guest
    #5
    0
    04.07.2025 15:57:00
    Я знаю, но оно не пересобирается, хотя и должно.
     
     
     
    SteveITS
    Guest
    #6
    0
    04.07.2025 16:06:00
    Так, секция с перестройкой на этой странице отсутствует или показывает что-то не то? После второй неудачи пишет, что один хост недоступен. Похоже, в этом и проблема? Непонятно, почему не показывает два…
     
     
     
    VictorSTS
    Guest
    #7
    0
    04.07.2025 17:47:00
    Коротко: mon_osd_min_in_ratio — твой друг [1].

    История длинная. По умолчанию установлено значение 0,75, что означает, что Ceph не будет отмечать OSD как вышлие, если уже примерно 25% OSD уже отмечены как вышлие. То есть, как минимум 75% OSD останутся в работе даже при их выходе, и, следовательно, восстановление не произойдет. В вашем примере, когда pve-2 выходит из строя, отмечаются 4 OSD, то есть 20% ваших OSD станут недоступны после mon_osd_down_out_interval (по умолчанию 600 секунд). Затем выходит pve-3, и Ceph может отметить только 2 OSD как вышлие, оставляя примерно 70% OSD в работе. Я не углублялся в код и не пытался понять суть, но кажется, что Ceph всегда позволяет одному OSD выйти из строя, даже если его выход происходит "чуть-чуть" ниже mon_osd_min_in_ratio. То есть, в вашем примере каждый OSD составляет ровно 1% от общего числа OSD в кластере: если бы Ceph строго соблюдал значение по умолчанию mon_osd_min_in_ratio 0'75, он бы позволил выйти только 5 OSD. Другой пример: если вы хотите, чтобы Ceph никогда не отмечал OSD как вышлие, mon_osd_min_in_ratio должно быть больше 1 (например, 1.01). Учитывая относительно небольшой размер кластера PVE+Ceph по сравнению с типичным кластером Ceph, я считаю mon_osd_min_in_ratio мощным инструментом для прогнозирования возможных сбоев и того, как будет вести себя Ceph: последнее, чего я хочу, чтобы при выходе слишком большого количества OSD, восстановление слишком сильно нагружало остальные OSD. [1] https://docs.ceph.com/en/latest/rad...osd-interaction/#confval-mon_osd_min_in_ratio
     
     
     
    jsterr
    Guest
    #8
    0
    04.07.2025 18:22:00
    Да, это оно! Спасибо, это было не большая проблема, я разобрался с этим вручную. По крайней мере, теперь мы знаем, почему так произошло, спасибо!
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры