+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Недавно упали демоны Ceph., Proxmox Виртуальная Среда

franciscopaniskaseker

Guest

07.02.2023 18:44:00

После последнего обновления Ceph (до версии 17.2.5) заметили, что после перезагрузки каждого узла OSDs с этого узла помечаются как неисправные. Но они возвращаются в работу после обычной загрузки сервера. Проверил логи Ceph и journalctl, ничего подходящего про падение демонов (таймауты, сегфолты и т.д.) не нашел. Это нормально после перезагрузки (CEPH HEALTH_WARN)? Похоже, нет, потому что это для нас новое.

freakits_jino

Guest

22.02.2023 08:00:00

Флаги CEPH OSD:

noout — Если время ожидания отчета монитора OSD превышено, а OSD не сообщает о себе, он будет помечен как "out". Флаг "noout" указывает цеф-мониторам не "выбрасывать" OSD из crush map и не начинать операции восстановления и ребалансировки, чтобы поддерживать количество реплик.

nobackfill — Если вам нужно временно вывести OSD или узел из эксплуатации (например, для обновления демонов), вы можете установить nobackfill, чтобы Ceph не занимался backfill'ом, пока OSD(ы) не будет(ут) в сети.

norecover — Ceph предотвратит новые операции восстановления. Если вам нужно заменить диск OSD и вы не хотите, чтобы PGs восстанавливались на другой OSD, пока вы проводите hotswap дисков, вы можете установить norecover, чтобы предотвратить копирование нового набора PGs на другие OSD.

norebalance — приостановлена перебалансировка данных.

nodown — Предотвращает помещение OSD в состояние "down". Проблемы с сетью могут прервать процессы heartbeat Ceph, и OSD может быть в сети, но все равно помечен как "down". Вы можете установить nodown, чтобы предотвратить помещение OSD в состояние "down" во время устранения неполадок. Если что-то (например, проблема с сетью) вызывает "флаппинг" OSD (повторное помещение в состояние "down" и затем "up"), вы можете заставить мониторы прекратить "флаппинг", временно заморозив их состояния с помощью nodown.

pause — Ceph прекратит обработку операций чтения и записи, но это не повлияет на статусы OSD in, out, up или down. Если вам нужно устранить неполадки в работающем кластере Ceph без участия клиентов, читающих и записывающих данные, вы можете перевести кластер в состояние pause, чтобы предотвратить клиентские операции.

Попробуйте установить флаги ceph в соответствии с вашими потребностями, прежде чем перезагружать узел в кластере. Работает как по маслу.

# Техническое обслуживание узла
# остановитесь и дождитесь операций scrub и deep-scrub
ceph osd set noscrub
ceph osd set nodeep-scrub
ceph status

# переведите кластер в режим технического обслуживания с помощью: (Я использовал это, когда мы физически переносили всю конфигурацию в другой дата-центр)

# ceph -s (для проверки статуса ceph)
# ceph osd set noout
# ceph osd set nobackfill
# ceph osd set norecover
# ceph osd set norebalance
# ceph osd set nodown
# ceph osd set pause

СНИМИТЕ ФЛАГИ, КОГДА РАБОТА ЗАВЕРШЕНА.

VonChair

Guest

24.02.2023 19:14:00

Обычно я устанавливаю флаг noout для кластера перед перезагрузкой ноды, чтобы кластеру не приходилось тратить много сил на возврат ноды в онлайн. Самое странное, что демоны падают, когда флаг noout все еще установлен, а нода уже в сети. Устанавливать все эти флаги не нужно для перезагрузки одной ноды, потому что noout предотвратит backfill, recover и rebalance, пока нода возвращается в строй. Когда она вернется, произойдет rebalance, backfill и recover, если это нужно, но, поскольку все OSD возвращаются после перезагрузки, этот процесс занимает всего несколько секунд. Не знаю, стоит ли устанавливать nodown для перезагрузки ноды, потому что OSD реально находятся в офлайне, и это может вызвать проблему.

Edit: Spelling

Jackobli Guest	#4 0 11.05.2023 10:29:00 У нас та же проблема с тех пор, как обновили PVE и Ceph. Кто-нибудь уже создавал инцидент или баг-репорт? Похоже, это не нормальная ситуация.

weehooey-bh

Guest

27.01.2025 19:17:00

У вас кто-то все еще сталкивается с этой проблемой? Мы недавно разбирались с чем-то очень похожим — segmentation fault в OSD. Это происходит, когда: fast_shutdown включен (включен по умолчанию), BlueStore использует нереволюционные диски (т.е. флеш-память), OSD выключается. Мы видели HEALTH_WARN в Ceph для всех OSD после перезагрузки PVE-узлов. Все OSD вернулись после перезагрузки, и никаких последствий не наблюдалось. Ceph Bug #64373 и связанный Ceph Backport #66148. Судя по ссылкам, это должно быть исправлено сейчас или скоро-скоро.

Jackobli

Guest

27.01.2025 23:17:00

Конечно, почти после каждой перезагрузки после установки патчей. Но только на некоторых наших узлах, где все еще есть традиционные жесткие диски. Не знаю, связано ли это с тем, что у них еще есть WAL/DB на отдельном SSD. Было бы неплохо, если бы это исправили.

weehooey-bh Guest	#7 0 28.01.2025 00:39:00 Интересно. Там не упоминается WAL или DB, но это бы имело смысл. Ты используешь Bluestore? Какая у тебя версия Ceph?

Jackobli Guest	#8 0 28.01.2025 08:18:00 Ceph 18.2.4, все на Bluestore. Возможно, интересно: - Происходит только на нодах с вращающимися дисками (SAS 10K RPM) и WAL/DB на (SATA) SSD. - Другие ноды SSD-only (SAS SSD) и не затронуты.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры