+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

[РЕШЕНО] Кластер Proxmox из 3 узлов, мониторы отказываются запускаться, Proxmox Виртуальная Среда

Danny-10-10

Guest

31.10.2025 12:44:00

Раньше я опубликовал это в неправильном разделе, поэтому теперь надеюсь, что здесь — правильное место. Всем привет, у меня странная проблема. После того, как я завёл себе ПК с Proxmox для хостинга собственных приложений, решил поэкспериментировать и собрать кластер, чтобы глубже разобраться с темой высокой доступности (HA). Скачал последнюю ISO и собрал кластер с нуля.

Мой кластер работает, я вижу все ноды, на хранилище Ceph всё в порядке. Менеджеры запускаются на всех трёх нодах, метаданные тоже в порядке на всех трёх, но монитор запускается только на первой. Когда пытаюсь запустить его на остальных нодах — ничего не происходит.

Вот syslog со второй ноды:
Oct 28 00:13:47 pve2 ceph-mon[1041]: 2025-10-28T00:13:47.531+0100 7265f2d4c6c0 -1 получил сигнал: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 2949170) UID: 0
Oct 28 00:13:47 pve2 ceph-mon[1041]: 2025-10-28T00:13:47.531+0100 7265f2d4c6c0 -1 mon.pve2@0(leader) e1 *** Получен сигнал Hangup ***
Oct 28 00:13:47 pve2 ceph-mon[1041]: 2025-10-28T00:13:47.554+0100 7265f2d4c6c0 -1 получил сигнал: Hangup от (PID: 2949171) UID: 0
Oct 28 00:13:47 pve2 ceph-mon[1041]: 2025-10-28T00:13:47.554+0100 7265f2d4c6c0 -1 mon.pve2@0(leader) e1 *** Получен сигнал Hangup ***

А это с третьей ноды:
Oct 28 00:48:10 pve3 ceph-mon[1030]: 2025-10-28T00:48:10.850+0100 7f59362b76c0 -1 получил сигнал: Hangup от killall -q -1 ceph-mon ceph-mgr ceph-mds ceph-osd ceph-fuse radosgw rbd-mirror cephfs-mirror (PID: 740342) UID: 0
Oct 28 00:48:10 pve3 ceph-mon[1030]: 2025-10-28T00:48:10.852+0100 7f59362b76c0 -1 mon.pve3@0(leader) e1 *** Получен сигнал Hangup ***
Oct 28 00:48:10 pve3 ceph-mon[1030]: 2025-10-28T00:48:10.871+0100 7f59362b76c0 -1 получил сигнал: Hangup от (PID: 740343) UID: 0
Oct 28 00:48:10 pve3 ceph-mon[1030]: 2025-10-28T00:48:10.871+0100 7f59362b76c0 -1 mon.pve3@0(leader) e1 *** Получен сигнал Hangup ***

Я вообще в тупике.

aaron Guest	#2 0 03.12.2025 13:40:00 Хмм, логи создания выглядят нормально. Да, чтобы Ceph кластер работал, нужно кворум доступных MONов. Обычно это 2 из 3.

Danny-10-10 Guest	#3 0 02.12.2025 11:02:00 Никого?

aaron Guest	#4 0 02.12.2025 11:16:00 Какой вывод команды ceph -s cat /etc/pve/ceph.conf? Пожалуйста, вставьте вывод в теги [code][/code] или воспользуйтесь кнопками форматирования редактора </>.

Danny-10-10

Guest

02.12.2025 11:21:00

Спасибо за ваш ответ.

Вывод команды ceph -s:

Кластер:
id: b1e9e7bc-2ec5-4838-9702-7a66f1749bc3
состояние: HEALTH_WARN
2 OSD испытывают замедленные операции в BlueStore

Сервисы:
mon: 1 демон, кворум pve (работает 13 часов)
mgr: pve (активен, с 13 ч), запасные: pve2, pve3
mds: 1 из 1 демонов запущен, 2 в резерве
osd: 3 OSD: 3 работает (с 13 ч), 3 в составе (с 7 недель)

Данные:
тома: 1 из 1 здоровый
пулы: 4 пула, 97 PG
объекты: 23,00 тыс. объектов, 88 ГиБ
использование: 263 ГиБ занято, 1,1 ТиБ из 1,4 ТиБ доступны
pgs: 97 активных и чистых

Ввод-вывод:
клиент: 49 КиБ/с запись, 0 оп/с чтение, 9 оп/с запись

Вывод файла /etc/pve/ceph.conf:

[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 192.168.1.210/24
fsid = b1e9e7bc-2ec5-4838-9702-7a66f1749bc3
mon_allow_pool_delete = true
mon_host = 192.168.1.210
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 2
osd_pool_default_size = 3
public_network = 192.168.1.210/24

[client]
keyring = /etc/pve/priv/$cluster.$name.keyring

[client.crash]
keyring = /etc/pve/ceph/$cluster.$name.keyring

[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.pve]
host = pve
mds_standby_for_name = pve

[mds.pve2]
host = pve2
mds_standby_for_name = pve

[mds.pve3]
host = pve3
mds_standby_for_name = pve

[mon.pve]
public_addr = 192.168.1.210

PVE имеет работающий монитор (192.168.1.210)
PVE2 (192.168.1.209)
PVE3 (192.168.1.208)

LnxBil Guest	#6 0 02.12.2025 11:39:00 Не знаю, вызовет ли это проблему, но сеть указана не совсем правильно. Вместо 192.168.1.210/24 должно быть 192.168.1.0/24.

Danny-10-10 Guest	#7 0 02.12.2025 11:44:00 cluster_network или public_network, или обе?

Danny-10-10 Guest	#8 0 02.12.2025 12:06:00 Я изменил файл согласно вашему предложению, но когда пытаюсь запустить монитор, ситуация, описанная в моем первом сообщении, не меняется.

aaron

Guest

02.12.2025 13:45:00

Ты имеешь в виду файл ceph.conf? Это не проблема, так как /24 задаёт подсеть, и последний октет значения не имеет. Интересно то, что согласно выводу ceph -s и конфигурационному файлу, в работающем кластере Ceph известен только один MON. Другие MON могут отображаться в интерфейсе Proxmox VE, потому что их следы где-то ещё остались. Попробуй очистить их на двух других хостах и создать заново. Вопрос в том, почему они не отображаются в самом кластере Ceph. У тебя остались логи задач по созданию MON? Можно зайти в NODE → Tasks и установить фильтр Task Type на cephcreatemon.

Сеть работает корректно? Не настраивал ли ты большой MTU, который может работать не так, как ожидалось?

Если удаление через веб-интерфейс не срабатывает, попробуй на PVE2 и PVE3 следующее:

Code:
systemctl disable ceph-mon@$(hostname)

mv /var/lib/ceph/mon-ceph-$(hostname) /root/mon.bkp

Позже сможешь удалить сохранённую папку MON командой rm -rf /root/mon.bkp.

Danny-10-10

Guest

#10

03.12.2025 13:01:00

Спасибо за ваш ответ. PVE3 log create mon Код: создание нового ключа монитора
создание /etc/pve/priv/ceph.mon.keyring
импорт содержимого /etc/pve/priv/ceph.client.admin.keyring в /etc/pve/priv/ceph.mon.keyring
monmaptool: файл monmap /tmp/monmap
monmaptool: сгенерирован fsid f5cbbdaf-68c3-40eb-990c-d55139456581
установка min_mon_release = quincy
epoch 0
fsid f5cbbdaf-68c3-40eb-990c-d55139456581
last_changed 2025-10-10T19:50:11.198618+0200
created 2025-10-10T19:50:11.198618+0200
min_mon_release 17 (quincy)
election_strategy: 1
0: [v2:192.168.1.209:3300/0,v1:192.168.1.209:6789/0] mon.pve2
monmaptool: запись epoch 0 в /tmp/monmap (1 монитор)
создан первый монитор, считаю безопасным отключить небезопасный глобальный reclaim ID для новой настройки
Настройка keyring для ceph-crash.service
Создан символическая ссылка '/etc/systemd/system/ceph-mon.target.wants/ceph-mon@pve2.service' -> '/usr/lib/systemd/system/ceph-mon@.service'.
TASK OK

PVE3 log Create Mon Код: ()
создание нового ключа монитора
создание /etc/pve/priv/ceph.mon.keyring
импорт содержимого /etc/pve/priv/ceph.client.admin.keyring в /etc/pve/priv/ceph.mon.keyring
monmaptool: файл monmap /tmp/monmap
monmaptool: сгенерирован fsid c126ca7c-c0c1-4930-ac92-e407c80ef8a1
установка min_mon_release = quincy
epoch 0
fsid c126ca7c-c0c1-4930-ac92-e407c80ef8a1
last_changed 2025-10-11T10:48:05.301376+0200
created 2025-10-11T10:48:05.301376+0200
min_mon_release 17 (quincy)
election_strategy: 1
0: [v2:192.168.1.208:3300/0,v1:192.168.1.208:6789/0] mon.pve3
monmaptool: запись epoch 0 в /tmp/monmap (1 монитор)
создан первый монитор, считаю безопасным отключить небезопасный глобальный reclaim ID для новой настройки
Настройка keyring для ceph-crash.service
Создан символическая ссылка '/etc/systemd/system/ceph-mon.target.wants/ceph-mon@pve3.service' -> '/usr/lib/systemd/system/ceph-mon@.service'.
TASK OK

Попытка удалить монитор PVE3 через Web UI вызывает ошибку: can't remove last monitor (500). Позже попробую удалить его через консоль и сообщу результаты. Просто уточнение: если мой единственный монитор упадёт, то моя HA перестанет работать?

Danny-10-10 Guest	#11 0 03.12.2025 17:01:00 Ну, это сработало, спасибо. Код: systemctl disable ceph-mon@$(hostname) mv /var/lib/ceph/mon/ceph-$(hostname) /root/mon.bkp Теперь у меня вот что: Код: cluster: id: b1e9e7bc-2ec5-4838-9702-7a66f1749bc3 health: HEALTH_WARN 3 OSD(s) испытывают медленные операции в BlueStore 2 демона недавно упали services: mon: 3 демона, кворум pve,pve3,pve2 (работают 65 сек) mgr: pve (активен, с 43 часов), запасные: pve2, pve3 mds: 1/1 демон запущен, 2 в режиме ожидания osd: 3 osd: все 3 запущены (с 43 часов), все 3 добавлены в кластер (с 7 недель) data: volumes: 1/1 здоровы pools: 4 пула, 97 pgs objects: 23,51k объектов, 90 ГиБ usage: 269 ГиБ занято, 1,1 ТиБ / 1,4 ТиБ доступно pgs: 97 active+clean io: client: 79 КиБ/с запись, 0 оп/с чтение, 7 оп/с запись Демоны, которые упали — это мониторы. Медленные операции обычно исправляются после перезагрузки узла, странно, средняя нагрузка CPU ниже 1%. Буду дальше разбираться. Всё равно не могу понять эту ошибку — при создании кластера не было никаких ошибок, а упрямый монитор так и не запускался. Спасибо за уделённое время!

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры