+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Переназначение групп размещения Ceph, Proxmox Виртуальная Среда

Straightman

Guest

22.03.2025 19:50:00

У меня настроен кластер Ceph из 3 узлов, пока в нем нет данных. Есть два RBD пула: один – реплицированный пул, предназначенный только для SSD, а другой – пул с кодированием стиранием, использующий только вращающиеся диски. Пул с кодированием стиранием настроен на использование реплицированного пула для метаданных. Общий статус Ceph – Healthy-OK с 62 PG, которые указывают на Active+Clean (я понимаю это как здоровый статус для PG), однако 3 PG сообщают о статусе Active+Clean+Remapped. Все 13 OSD включены и работают. Из того, что я читал, ремаппинг может происходить время от времени, но ожидалось, что он разрешится до Active+Clean. Я оставил это на несколько дней, и для кластера без данных я ожидал, что статус remapped изменится к этому времени. Ищу рекомендации по устранению неполадок и исправлению того, что может вызывать статус +remapped, который не разрешается.

UdoB Guest	#2 0 23.03.2025 07:14:00 Извини, понятия не имею. Но вот тебе общая ссылка с некоторыми подсказками: https://docs.ceph.com/en/reef/rados/troubleshooting/troubleshooting-pg/

Straightman

Guest

26.03.2025 21:48:00

Спасибо за подсказки. Я прочитал несколько других обсуждений, которые много мне дали, но не привели к решению. Я пробовал разные вещи, включая использование команды `repair pg`, но это не помогло. Я нашел OSD, отвечающие за PG, помеченные как +remapped, и отключил и вынул их, а затем вернул в состояние up/in, но это не изменило ситуацию. Всё это время Ceph сообщает о здоровом кластере.

В этой ситуации я начал с одного реплицированного rbd пула с использованием crush map, который пишет исключительно на SSD-диски. В таком состоянии Ceph сообщил, что все PG активны и чисты. Затем я добавил erasure coded pool K=2/m=1 с профилем EC для использования HDD-дисков. Именно в этот момент Ceph начал сообщать о 3 PG с статусом +remapped, как я уже сообщал в предыдущем сообщении.

Это состояние сохраняется, и я не могу полностью изменить статус PG на активный и чистый. Я решил полностью удалить EC pool и его профиль. У меня были дополнительные HDD, которые я добавил к одному из узлов, у которого было меньше HDD, чем у двух других, чтобы создать другую ситуацию. Я добавил этот новый диск в качестве OSD и создал новый erasure coded pool и профиль. Теперь Ceph сообщает, что кластер здоров, но статус PG: 64 PG активны и чисты, и 1 PG активен и чист + remapped. То есть, в целом получается похожий результат, и я не могу понять, как это повлиять.

Если кто-то сможет помочь, буду очень признателен. Как есть, Ceph-кластер не содержит данных, и я не готов использовать его для чего-либо еще, пока не смогу разобраться и решить эту проблему.

Сообщите, если я могу предоставить какую-либо дополнительную информацию для устранения неполадок.

alexskysilk Guest	#4 0 26.03.2025 22:31:00 Окей, прежде чем двигаться дальше: какие результаты вывода команд `ceph osd tree`, `ceph osd pool ls`, `ceph osd crush rule ls`?

Straightman Guest	#5 0 26.03.2025 23:59:00

Straightman Guest	#6 0 27.03.2025 00:17:00 Скриншот из ceph osd pool ls, (не получается запустить ceph osd pool ls dump без ошибок, дайте знать, если нужно что-то подправить?).

Straightman

Guest

27.03.2025 00:20:00

Это тоже может пригодиться, это дамп PG, показывающий PG со странным статусом. Список неполный, он ограничен только теми PG, которые связаны с пулом #8 (пул EC). Также прикладываю вывод PG, выделенных для Ceph_RBD_EC_Pool (пул #8). Смотрите вложение 84180.

alexskysilk

Guest

27.03.2025 02:58:00

Твоя конфигурация нерабочая. Хотя ты и не предоставил свои реальные правила CRUSH, я уже вижу, что удовлетворить их невозможно. Подумай сам: у тебя 3 ноды. node pve2 – 15.25ТБ HDD, 1.83ТБ SSD; node pve3 – 7.27ТБ HDD, 0.7ТБ SSD; node pve4 – 0.5ТБ HDD, 0.9ТБ SSD. Для твоего профиля репликации, даже если предположить, что у тебя нет определенного класса устройств, ты сможешь использовать максимум около 1.4ТБ. Если у тебя есть класс устройств в правилах CRUSH, то всё ещё хуже. Для твоего профиля EC, вероятно, ты сможешь использовать только 2.8ТБ на правиле 2k1n, но такое правило почти бесполезно, потому что твой пул станет read-only, если хотя бы одна нода выйдет из строя. Честно говоря, нет смысла "мучить" эту конфигурацию. Тебе нужно вернуться к документации и переосмыслить свою раскладку.

Straightman

Guest

27.03.2025 17:14:00

Спасибо за советы и за то, что потратили время, чтобы рассмотреть мой пост. Я начну более тщательно изучать документацию, чтобы разобраться. Непонятно, почему одна группа размещения не может разрешиться в активную + чистую в этой ситуации, когда текущий спрос на хранилище равен нулю. Буду благодарен за любые мысли.

alexskysilk Guest	#10 0 27.03.2025 18:24:00 Скорее всего, потому что условию правила, которое его определяет, невозможно удовлетворить.

gurubert Guest	#11 0 28.03.2025 07:45:00 Кодирование стирания не применимо в таких маленьких кластерах. Чтобы это имело какой-то смысл, тебе нужно минимум 10 нод с достаточным количеством OSD.

Straightman Guest	#12 0 28.03.2025 13:11:00 Спасибо, что уделили время, чтобы рассмотреть мои вопросы и предоставили дополнительное разъяснение. Я вернусь к началу, изучу ещё немного и пересмотрю подход.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры