+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

RSS

Кластер хранилища Ceph выходит из строя, как только перезагружается первый сервер в кластере., Proxmox Виртуальная Среда

nkSupport

Guest

15.05.2025 10:00:00

Привет! У меня есть три одинаковых узла для запуска кластера Proxmox, каждый из них имеет 4 OSD, используемые в хранилище Ceph. PRX01, PRX02 и PRX03. Когда дело доходит до обновления, иногда приходится перезагружать узел, особенно если задействован апдейт ядра. Поэтому я перевожу узел в режим обслуживания, чтобы сначала перенести ВМ на другой узел. Как только все ВМ перенесены, я перезагружаю этот узел. После того, как узел снова заработает, я отключаю режим обслуживания для этого узла и жду, пока ВМ снова перенесутся, прежде чем переходить к другим узлам по очереди. Пока всё шло хорошо. Только когда мне нужно перезагрузить узел PRX01, что-то ужасно идет не так. Весь кластер Ceph становится недоступен, пока перезагрузка не закончится. У кого-нибудь есть идея, почему? Какая информация из моей конфигурации вам нужна, чтобы помочь мне?

nkSupport Guest	#2 0 16.05.2025 09:33:00 Спасибо за подсказку! Я собрал логи со всех трех нод. PRX01 перезагрузился, к сожалению, в журнале PRX02 или PRX03 я ничего не нашел. Но, судя по логу с PRX01, Ceph был выключен на ВСЕХ нодах во время перезагрузки.

fabian Guest	#3 0 16.05.2025 09:20:00 Проверь журнал командой journalctl --since "2025-05-13 16:05" --until "2025-05-13 16:15" > log.txt, а потом можешь прикрепить файл log.txt сюда (можно скачать его, например, через scp).

fabian

Guest

15.05.2025 10:23:00

Тебе нужно предоставить больше информации о твоей конфигурации и, желательно, логи. Сколько у тебя мониторов? Как организован твой пул (настройки репликации, что-нибудь настраивал самостоятельно)? Сколько OSDs, и как они распределены между узлами? Что показывает команда `ceph -s`, когда кластер работает, и что она показывает, когда он не работает?

nkSupport

Guest

15.05.2025 11:28:00

Сколько у тебя мониторов? - У меня три монитора, по одному на каждом узле. Как настроен твой пул (настройки репликации, что-нибудь настраивал? Пул # 2 Название .mgr VMPool Размер/мин 3/2 3/2 кол-во групп размещения 1 128 opt # PGs 1 128 Автоматическое масштабирование включено включено Правило Crush replicated_rule (0) replicated_rule (0) использовано [%] 44,45 MiB (0,00%) 9.41 TiB (49,60%) Сколько OSD? И как они распределены между узлами? - Доступно 12 OSD, по 4 на каждом узле PVE. Что пишет "ceph -s", когда кластер работает? ... кластер: id: e514f756-xxxxxxxx-aa96-9304de459fd1 состояние: HEALTH_OK сервисы: mon: 3 демона, кворум prx02,prx03,prx01 (возраст 42ч) mgr: prx02(активный, с 42ч), резервные: prx03, prx01 osd: 12 osd: 12 up (с 42ч), 12 in (с 9M) данные: пулы: 2 пула, 129 pgs объекты: 844,08k объектов, 3,2 TiB использовано: 9,4 TiB использовано, 12 TiB / 21 TiB доступно pgs: 129 активные+чистые io: client: 120 KiB/s rd, 7,7 MiB/s wr, 24 op/s rd, 139 op/s wr .... Смотри также мой ceph.conf: [global] auth_client_required = cephx auth_cluster_required = cephx auth_service_required = cephx cluster_network = 10.xxx.1.0/24 fsid = e514f756-b1ce-4429-aa96-9304de459fd1 mon_allow_pool_delete = true mon_host = 10.xxx.1.20 10.xxx.1.30 10.xxx.1.10 ms_bind_ipv4 = true ms_bind_ipv6 = false osd_pool_default_min_size = 2 osd_pool_default_size = 3 public_network = 10.xxx.1.0/24 [client] keyring = /etc/pve/priv/$cluster.$name.keyring [client.crash] keyring = /etc/pve/ceph/$cluster.$name.keyring [mds] keyring = /var/lib/ceph/mds/ceph-$id/keyring [mon.prx01] public_addr = 10.xxx.1.10 [mon.prx02] public_addr = 10.xxx.1.20 [mon.prx03] public_addr = 10.xxx.1.30

nkSupport Guest	#6 0 15.05.2025 11:30:00 ... и да, прежде чем вы спросите - кластерная сеть и публичная сеть используют один и тот же IP-адрес.

fabian

Guest

15.05.2025 12:13:00

Если ты не хочешь спровоцировать следующую проблему (понимаю), не мог бы ты, пожалуйста, предоставить журнал одного из других узлов, начиная немного раньше момента запуска отключения первого узла? Есть ли что-то особенное в настройке твоей сети (используешь ли коммутатор? полносвязная топология? ...)?

nkSupport

Guest

15.05.2025 17:07:00

Прости, мои знания Linux быстро растут, но не так быстро, как я хотел бы. Как получить нужные данные из журнала? journalctl --since "25025-05-13 16:05" --until "2025-05-13 16:15" – там произошла перезагрузка prx01. Но какой формат вывода и как сделать экспорт, чтобы можно было загрузить?

fabian

Guest

16.05.2025 09:43:00

Окей, пока что выглядит нормально... Не могли бы вы также выложить "ceph osd crush dump" (должно быть одинаково на всех нодах) и /var/log/ceph/ceph.log с нод 2 и 3 для проблемной перезагрузки? В этом файле строки начинаются с метки времени в формате unix epoch, вы можете преобразовать её с помощью команды date: date --date=@XXXXXX, например, Код: $ date --date=@1747381287
Fri May 16 09:41:27 AM CEST 2025

nkSupport Guest	#10 0 16.05.2025 13:51:00 Надеюсь, удастся вытащить из системы нужную информацию…

fabian

Guest

#11

16.05.2025 13:59:00

Похоже, это тоже нормально, насколько я могу судить. А как именно ты это определил? Ceph логи показывают, что упал только один mon и четыре osd, но, кроме того, что PGs немного маленькие (что ожидаемо и нормально, они остались активными!), Ceph вообще ничего не жалуется.

nkSupport Guest	#12 0 02.06.2025 14:50:00 Привет, Фабиан, извини за поздний ответ и спасибо, что перепроверил. Я был залогинен в prx02, использовал веб-консоль, инициировал перезагрузку prx01. Во время перезагрузки я ожидал, что OSDs с PRX01 уйдут оффлайн, насколько я помню, во WebGUI весь Ceph Monitor стал оффлайн (все OSD выключены) до тех пор, пока PRX01 снова не заработал. Еще одна штука, которую я обнаружил пару недель назад — опечатка в конфигурации Ceph, где cluster_network и public_network были назначены IP-адресу ceph-nodes вместо адреса ceph-network. (например, cluster_network = 10.xxx.1.10/24 вместо 10.xxx.1.0/24). Но чтобы быть уверенным, я попробую воспроизвести это снова.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры