Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Недавно упали демоны Ceph.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Недавно упали демоны Ceph., Proxmox Виртуальная Среда
     
    franciscopaniskaseker
    Guest
    #1
    0
    07.02.2023 18:44:00
    После последнего обновления Ceph (до версии 17.2.5) заметили, что после перезагрузки каждого узла OSDs с этого узла помечаются как неисправные. Но они возвращаются в работу после обычной загрузки сервера. Проверил логи Ceph и journalctl, ничего подходящего про падение демонов (таймауты, сегфолты и т.д.) не нашел. Это нормально после перезагрузки (CEPH HEALTH_WARN)? Похоже, нет, потому что это для нас новое.
     
     
     
    freakits_jino
    Guest
    #2
    0
    22.02.2023 08:00:00
    Флаги CEPH OSD:

    noout — Если время ожидания отчета монитора OSD превышено, а OSD не сообщает о себе, он будет помечен как "out". Флаг "noout" указывает цеф-мониторам не "выбрасывать" OSD из crush map и не начинать операции восстановления и ребалансировки, чтобы поддерживать количество реплик.

    nobackfill — Если вам нужно временно вывести OSD или узел из эксплуатации (например, для обновления демонов), вы можете установить nobackfill, чтобы Ceph не занимался backfill'ом, пока OSD(ы) не будет(ут) в сети.

    norecover — Ceph предотвратит новые операции восстановления. Если вам нужно заменить диск OSD и вы не хотите, чтобы PGs восстанавливались на другой OSD, пока вы проводите hotswap дисков, вы можете установить norecover, чтобы предотвратить копирование нового набора PGs на другие OSD.

    norebalance — приостановлена перебалансировка данных.

    nodown — Предотвращает помещение OSD в состояние "down". Проблемы с сетью могут прервать процессы heartbeat Ceph, и OSD может быть в сети, но все равно помечен как "down". Вы можете установить nodown, чтобы предотвратить помещение OSD в состояние "down" во время устранения неполадок. Если что-то (например, проблема с сетью) вызывает "флаппинг" OSD (повторное помещение в состояние "down" и затем "up"), вы можете заставить мониторы прекратить "флаппинг", временно заморозив их состояния с помощью nodown.

    pause — Ceph прекратит обработку операций чтения и записи, но это не повлияет на статусы OSD in, out, up или down. Если вам нужно устранить неполадки в работающем кластере Ceph без участия клиентов, читающих и записывающих данные, вы можете перевести кластер в состояние pause, чтобы предотвратить клиентские операции.

    Попробуйте установить флаги ceph в соответствии с вашими потребностями, прежде чем перезагружать узел в кластере. Работает как по маслу.

    # Техническое обслуживание узла
    # остановитесь и дождитесь операций scrub и deep-scrub
    ceph osd set noscrub
    ceph osd set nodeep-scrub
    ceph status

    # переведите кластер в режим технического обслуживания с помощью: (Я использовал это, когда мы физически переносили всю конфигурацию в другой дата-центр)

    # ceph -s (для проверки статуса ceph)
    # ceph osd set noout
    # ceph osd set nobackfill
    # ceph osd set norecover
    # ceph osd set norebalance
    # ceph osd set nodown
    # ceph osd set pause

    СНИМИТЕ ФЛАГИ, КОГДА РАБОТА ЗАВЕРШЕНА.
     
     
     
    VonChair
    Guest
    #3
    0
    24.02.2023 19:14:00
    Обычно я устанавливаю флаг noout для кластера перед перезагрузкой ноды, чтобы кластеру не приходилось тратить много сил на возврат ноды в онлайн. Самое странное, что демоны падают, когда флаг noout все еще установлен, а нода уже в сети. Устанавливать все эти флаги не нужно для перезагрузки одной ноды, потому что noout предотвратит backfill, recover и rebalance, пока нода возвращается в строй. Когда она вернется, произойдет rebalance, backfill и recover, если это нужно, но, поскольку все OSD возвращаются после перезагрузки, этот процесс занимает всего несколько секунд. Не знаю, стоит ли устанавливать nodown для перезагрузки ноды, потому что OSD реально находятся в офлайне, и это может вызвать проблему.

    Edit: Spelling
     
     
     
    Jackobli
    Guest
    #4
    0
    11.05.2023 10:29:00
    У нас та же проблема с тех пор, как обновили PVE и Ceph. Кто-нибудь уже создавал инцидент или баг-репорт? Похоже, это не нормальная ситуация.
     
     
     
    weehooey-bh
    Guest
    #5
    0
    27.01.2025 19:17:00
    У вас кто-то все еще сталкивается с этой проблемой? Мы недавно разбирались с чем-то очень похожим — segmentation fault в OSD. Это происходит, когда: fast_shutdown включен (включен по умолчанию), BlueStore использует нереволюционные диски (т.е. флеш-память), OSD выключается. Мы видели HEALTH_WARN в Ceph для всех OSD после перезагрузки PVE-узлов. Все OSD вернулись после перезагрузки, и никаких последствий не наблюдалось. Ceph Bug #64373 и связанный Ceph Backport #66148. Судя по ссылкам, это должно быть исправлено сейчас или скоро-скоро.
     
     
     
    Jackobli
    Guest
    #6
    0
    27.01.2025 23:17:00
    Конечно, почти после каждой перезагрузки после установки патчей. Но только на некоторых наших узлах, где все еще есть традиционные жесткие диски. Не знаю, связано ли это с тем, что у них еще есть WAL/DB на отдельном SSD. Было бы неплохо, если бы это исправили.
     
     
     
    weehooey-bh
    Guest
    #7
    0
    28.01.2025 00:39:00
    Интересно. Там не упоминается WAL или DB, но это бы имело смысл. Ты используешь Bluestore? Какая у тебя версия Ceph?
     
     
     
    Jackobli
    Guest
    #8
    0
    28.01.2025 08:18:00
    Ceph 18.2.4, все на Bluestore. Возможно, интересно:

    - Происходит только на нодах с вращающимися дисками (SAS 10K RPM) и WAL/DB на (SATA) SSD.
    - Другие ноды SSD-only (SAS SSD) и не затронуты.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры