+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Ceph не может поддерживать 1 OSD при размере=4, Proxmox Виртуальная Среда

alyarb

Guest

13.12.2022 16:24:00

У нас 15 OSD-хостов и 22 OSD. Серверы физически имеют 2 отсека для дисков. Конечно, OSD не распределены идеально равномерно. Некоторые серверы имеют 1 OSD, а некоторые — 2 OSD, но мы постоянно добавляем диски в систему по мере возможности. Утилизация OSD по данным панели управления Ceph составляет от 45 до 65% в зависимости от того, находится ли OSD один на хосте или совместно с другим. На прошлой неделе один сервер с 2 OSD encountered проблему, в результате чего произошло падение 2 OSD. При size=3 и min_size=2 некоторые ВМ фактически зависли. После переноса физических дисков на другие OSD-хосты и выполнения ceph-volume lvm activate --all всё вернулось в норму через несколько минут, но распределение дисков по хостам остаётся несколько неравномерным. В тот вечер мы увеличили нашу репликацию до size=4, min_size=2. Мы также находимся в процессе обновления с PVE 7.2 до 7.3 и Ceph 17.2.4 до 17.2.5. Даже с несбалансированным распределением OSD, мы теперь имеем size=4, что должно быть избыточным для не слишком большого кластера. Мы ожидаем, что сможем обновить и перезагрузить любой хост, не затрагивая RBD-клиентов. Если мы сможем этого достичь, то я удовлетворён размером=4. Мы выбрали хост с одним OSD для перезагрузки первым. Это также был хост MON, но у нас было 7 мониторов, которые все работали в это время. Наши средние IOPS в течение дня составляют 3k-10k, а ночью примерно 2k. Флаг noout был установлен перед перезагрузкой хоста. Во время перезагрузки 1 OSD отключился, что привело к снижению около 5% объектов, как и ожидалось, и I/O по кластеру всё равно упало до удручающе низких значений, а IOPS показывали менее 100. У ряда Windows ВМ произошёл BSOD, и потребовался сброс даже после завершения перезагрузки и восстановления отключенного OSD. Опять же, это кластер с size=4, min_size=2 с 1 OSD отключенным, который ведёт себя так, как будто он size=2. Всё должно оставаться совершенно стабильным и функционировать с отключённым только 1 OSD, и моя цель — достичь такой же устойчивости при отключении 2 OSD. Кто-нибудь, скажите мне, что я упускаю и что делаю не так.

BenediktS

Guest

27.04.2023 18:45:00

Мы провели первые тесты с релизом 17.2.6 из репозитория "ceph quincy test". Пока что похоже, что новая версия больше не вызывает зависание виртуальных машин при сбое одного диска. (И статус "active+remapped+backfill_wait" вернулся на страницу статуса.) Мы проведем больше тестов с двумя и тремя неработающими дисками, но пока все выглядит многообещающе.

alyarb Guest	#3 0 08.05.2023 02:33:00 Я сейчас попробую установить 17.2.6-pve1. Есть какие-нибудь другие отзывы?

BenediktS

Guest

08.05.2023 11:08:00

С тремя неработающими OSD виртуальные машины работают очень медленно, но без зависаний и синих экранов. Это определенно намного лучше, чем с параметром по умолчанию 17.2.5. Есть возможность для дальнейших улучшений, но, к сожалению, у меня нет времени в ближайшие несколько недель на дополнительные настройки и тестирования.

alyarb

Guest

09.05.2023 22:41:00

Спасибо. На панели управления 17.2.6 определенно произошли некоторые неудачные изменения в стилях. Я пока не смог протестировать сбои OSD. Вы используете NVMe? Я собираюсь приложить скриншот базы данных конфигурации из GUI PVE. Есть некоторые параметры, которые я не помню, чтобы настраивал: target_max_misplaced_ratio, osd_max_backfills, osd_recovery_max_active, osd_recovery_max_single_start, osd_recovery_sleep, osd_mclock_max_capacity_iops_ssd. Как думаете, мне следует вернуть их к значениям по умолчанию (и как это сделать)?

BenediktS Guest	#6 0 06.06.2023 12:39:00 Мы используем SSD и NVMe. Кроме включенных данных телеметрии в моей конфигурации только параметр osd_max_backfills установлен на 16. Я не помню, чтобы устанавливал это вручную, но, возможно, я настроил это, когда наш кластер падал, потому что он одновременно заполнил 500 PGs с предыдущей версии. Но кажется, что "1" — это значение по умолчанию для osd_max_backfills. Код: root@prox1:~# ceph config help osd_max_backfills osd_max_backfills - Максимальное число одновременных локальных и удаленных восстановлений или заполнений на каждом OSD (uint, продвинутый) Значение по умолчанию: 1 Можно обновить во время работы: да Сервисы: [osd] Если вы хотите удалить строку конфигурации, чтобы быть уверенным, что используете значения по умолчанию, используйте эту команду ceph config rm osd osd_max_backfills

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры