+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

СРОЧНО и КРИТИЧНО: Ceph-кластер упал после перезагрузки., Proxmox Виртуальная Среда

MigF117

Guest

14.06.2025 12:04:00

Привет! У меня есть кластер Proxmox 7.4-17 из 3 хостов с Ceph-кластером. На каждом хосте по 2 OSD, и всё работало отлично, пока мне не пришлось сделать полную остановку и перезагрузку. Все хосты запустились нормально, но Ceph-кластер — нет. Если смотреть на мониторы, они все в статусе "неизвестно", и OSD не отображаются. Я запустил systemctl status ceph-mon@ и ceph-mgr@ на каждом хосте, они показывают, что работают. После долгих копаний и попыток воссоздать monmap и внедрить его на все 3 хоста, всё ещё не удалось запустить Ceph-кластер. Я пробовал всё, что только можно найти про воссоздание хранилища и БД монитора, но безрезультатно. Когда я пытаюсь выполнить какие-либо команды Ceph, например ceph -s, ничего не происходит. Вот скриншот ceph.conf

Я зашёл в тупик и не знаю, что делать дальше. Буду очень благодарен за любую помощь.

MagicFab

Guest

14.06.2025 13:47:00

Можешь посмотреть, что внутри "/var/log/ceph/"? Все три узла могут пинговать и общаться друг с другом по сети? Fabián Rodríguez | Le Goût du Libre Inc. | Монреаль, Канада | Mastodon Proxmox Silver Partner, поддержка серверов и настольных систем для предприятий на французском, английском и испанском языках.

MigF117

Guest

14.06.2025 16:56:00

Да, все 3 хоста пингуют и имеют доступ друг к другу как в публичной, так и в Ceph сети. Логи привезу завтра утром, когда вернусь в офис. Но если не ошибаюсь, когда смотрел окно логов Ceph в GUI, ошибок не видел, только куча записей синхронизации с AVHOST02.

MigF117

Guest

15.06.2025 09:40:00

После долгих копаний выяснил, что HOST01 пытается запустить OSD с неправильными FSID, не уверен, откуда они берутся. [2025-06-15 14:15:43,718][ceph_volume.process][INFO ] Выполняется команда: /usr/sbin/ceph-volume lvm trigger 0-6a05e0de-c1a9-4d95-95d5-22846b03604b [2025-06-15 14:15:43,741][ceph_volume.process][INFO ] Выполняется команда: /usr/sbin/ceph-volume lvm trigger 1-1b5cfe78-2297-4f83-a65d-10bc42fb1c26 [2025-06-15 14:15:43,841][ceph_volume.process][INFO ] stderr --> RuntimeError: не удалось найти osd.0 с osd_fsid 6a05e0de-c1a9-4d95-95d5-22846b03604b [2025-06-15 14:15:43,849][systemd][WARNING] команда вернула ненулевой код выхода: 1 [2025-06-15 14:15:43,849][systemd][WARNING] не удалось активировать OSD, осталось попыток: 1 [2025-06-15 14:15:43,877][ceph_volume.process][INFO ] stderr --> RuntimeError: не удалось найти osd.1 с osd_f sid 1b5cfe78-2297-4f83-a65d-10bc42fb1c26 [2025-06-15 14:15:43,885][systemd][WARNING] команда вернула ненулевой код выхода: 1 [2025-06-15 14:15:43,885][systemd][WARNING] не удалось активировать OSD, осталось попыток: 1 Это неправильные FSID для OSD.0 и OSD.1. Правильные: [osd.0] fsid = d0dc1dc3-5f80-40b1-9664-abd5e2f7c2f4 [osd.2] fsid = d3a70dd6-5eda-4068-9543-0fd7f853ce9c Все хосты все еще отображаются как "Неизвестно" в GUI, но все сервисы работают, и, глядя на логи HOST2 и 3 (ceph-volume-systemd.log), все OSD смонтированы. Думаю, потому что у меня всего 3 хоста, и после перезагрузки кластер не смог создать кворум только с 2 хостами. Есть какие-нибудь идеи, как исправить эту проблему или как получить данные OSD?

MagicFab Guest	#5 0 16.06.2025 15:30:00 Привет еще раз. Спасибо за информацию. Я поискал на форумах, и похожая ситуация обсуждалась здесь: Ссылка на тему 'Ceph recovery: Wiped out 3-node cluster with OSDs still intact' от 8 февраля 2025 года. У этого 3-узлового кластера также был 4-й узел (r730), к которому не были назначены никакие OSD. Вот что мне нужно восстановить: - /etc/ceph/ceph.conf и /etc/ceph/ceph.client.admin.keyring доступны с предыдущего узла, который был частью кластера. - Файл /var/lib/pve-cluster/config.db с узла r730. Сейчас у меня переустановлены 3 узла Proxmox, совершенно новый кластер. Теперь я хочу оживить Ceph-кластер с существующими OSD. Основная цель: Как мне восстановить только образы виртуальных машин? Таким образом, я смогу запустить их как новые ВМ. Для восстановления я готов добавить узел "r730" снова, если это упростит... shadyabhi ceph Ответы: 3 Форум: Proxmox VE: Установка и настройка Особое внимание привлекла эта документация: https://docs.ceph.com/en/quincy/rados/troubleshooting/troubleshooting-mon/#recovery-using-osds Поскольку это довольно срочно и может привести к потере данных, я бы посоветовал обратиться за помощью непосредственно в службу поддержки Proxmox. У меня нет времени быстро отвечать здесь, но они могут лучше помочь в быстром восстановлении/построении заново.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры