+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

[SOLVED]не удается запустить ha ресурс, когда ceph в состоянии health_warn, Proxmox Виртуальная Среда

rseffner

Guest

25.12.2017 18:49:00

Привет, я занимаюсь тестированием proxmox, ha и ceph в тестовой среде. Я настроил 3 узла proxmox с поддержкой ceph, включая 3 мониторинга ceph, но с ceph пулом из двух доступных узлов (один требуется). Думаю, это может быть самая маленькая конфигурация ha, которая возможна. (Третий узел нужен только для кворума и ceph monitor, но у него практически нет хранилища). Если я запускаю виртуальную машину с поддержкой ha на узле 1 и выключаю узел 1 через интерфейс proxmox, виртуальная машина запускается на узле 2 через несколько минут. Если сделать почти то же самое, но жестко выключить узел 1, интерфейс показывает, что виртуальная машина работает на узле 2 тоже через несколько минут, но к этой виртуальной машине нельзя обратиться или выполнить ping. Если я включаю узел 1 и перезагружаю виртуальную машину, всё снова работает. Я полагаю, что состояние HEALTH_WARN в ceph делает ресурс ha действительно не запускаемым. В логах я нашёл "start failed: command '/usr/bin/kvm -id 1...ccel=tcg'' failed: got timeout". Учитывая работу в сценарии выключения, я уверен, что виртуальная машина может работать даже с одним выключенным узлом. Но в худшем случае узел может не просто выключиться, а зависнуть. Что делать, чтобы мой второй сценарий (потеря питания/жесткий сброс) работал, чтобы виртуальная машина автоматически восстанавливалась на узле 2? С уважением, rseffner

ProxCH

Guest

11.01.2019 22:51:00

Привет, я сталкиваюсь с той же проблемой. Вот моя архитектура: 3 узла, 3 Ceph, но только 2 узла, на которых размещены по 2 OSD. У меня те же симптомы, что и описаны выше, и я думаю, что ваше исправление подойдет мне, но сначала хочу убедиться, что это правильно: ------------------------------------------------------------- [global] auth client required = cephx auth cluster required = cephx auth service required = cephx cluster network = 192.168.10.0/24 fsid = a449e595-f04f-4154-b236-81e6272af761 keyring = /etc/pve/priv/$cluster.$name.keyring mon allow pool delete = true osd journal size = 5120 osd pool default min size = 1 osd pool default size = 2 public network = 192.168.7.0/24 [osd] keyring = /var/lib/ceph/osd/ceph-$id/keyring [mon.host2] mon addr = 192.168.7.22:6789 mon osd reporter subtree level = osd [mon.host1] mon addr = 192.168.7.20:6789 mon osd reporter subtree level = osd [mon.host3] mon addr = 192.168.7.21:6789 mon osd reporter subtree level = osd ------------------------------------------------------------- Или мне стоит использовать опцию mon_osd_min_down_reporters = 1? Спасибо!

ProxCH Guest	#3 0 12.01.2019 09:49:00 Автоответ; установка уровня поддерева mon osd reporter = osd на глобальном уровне сработала! Ура!

scintilla13

Guest

16.03.2020 09:08:00

Та же проблема и у меня, и, похоже, она вовсе не собирается восстанавливаться. Код: root@pve01sc:~# ceph -s
кластер:
id: 56c01ca1-22ee-4bb0-9093-c852ae7d120c
состояние: HEALTH_ERR
1 полный osd
1 пул полный
Уменьшенная избыточность данных: 535023/1781469 объектов повреждены (30.033%), 121 pg повреждены, 121 pg недостаточно
1 демон недавно вылетел

службы:
mon: 3 демона, квора pve03sc,pve01sc,pve02sc (возраст 13ч)
mgr: pve03sc(активен, с 13ч), резервные: pve02sc, pve01sc
osd: 5 osd: 5 в сети (с 6ч), 5 в сети (с 11ч); 7 перераспределенных pg

данные:
пулы: 2 пула, 256 pg
объекты: 593.82k объектов, 2.2 TiB
использование: 2.9 TiB использовано, 13 TiB / 16 TiB доступно
pg: 535023/1781469 объектов повреждены (30.033%)
26587/1781469 объектов расположены неправильно (1.492%)
129 активных+чистых
121 активных+недостаточных+поврежденных
6 активных+чистых+перераспределенных

io:
клиент: 0 B/с чтение, 3.1 KiB/с запись, 0 операций/с чтение, 0 операций/с запись У меня 3 узла Proxmox 6.1. 3 SSD osd + 2 HDD osd. Демон osd вылетел сегодня в 1 ночи. Я совершенно новичок в ceph, первая настройка только что закончилась вчера. Код: mon_osd_reporter_subtree_level = osd может быть решением и для меня? Но, пожалуйста, где это настроить? Спасибо.

Alwin Guest	#5 0 16.03.2020 11:19:00 Это твоя проблема. Тебе нужно больше OSD (хранилищ) на каждом узле.

scintilla13 Guest	#6 0 16.03.2020 19:38:00 Ну ладно, есть способ сделать так, чтобы CEPH восстанавливался, хотя бы один раз?

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры