+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Ceph на HPE DL380 Gen10+ не работает., Proxmox Виртуальная Среда

fjmo2008

Guest

04.07.2025 11:43:00

У меня кластер Proxmox 8.4 с двумя узлами и одним qdevice, Ceph Squid 19.2.1 установлен недавно, а также есть дополнительное устройство для поддержания кворума Ceph. У каждого узла есть один SATA SSD, так что у меня создано два OSD (osd.18 и osd.19), и у меня есть пул под названием poolssd, в котором находятся оба они. С момента установки и настройки Ceph я получаю это сообщение, и он не позволяет мне создавать какие-либо виртуальные машины в этом пуле:

HEALTH_WARN: Уменьшена доступность данных: 33 группы данных неактивны, 33 группы данных устанавливают связь pg 1.0 застряла в процессе установления связи с самого начала, текущее состояние - установление связи, последнее действие [19,18] pg 4.0 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.2 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.3 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.4 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.5 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.6 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.7 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.8 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.9 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.b застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.c застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.d застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.e застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.f застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.10 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.11 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.12 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.13 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.14 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.15 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.16 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.17 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.18 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.19 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1b застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1c застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1d застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1e застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1f застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18]

У меня настроено 3 монитора: 2, соответствующие 2 узлам Proxmox (mon.pve1 и mon.pve2), и монитор кворума. И я также получаю следующие сообщения:

HEALTH_WARN: 2 демона недавно аварийно завершили работу: mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:24:48.235164Z mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:45:50.830345Z

HEALTH_WARN: 14 медленных операций, самая старая заблокирована на 8610 секунд, демоны [osd.18,osd.19,mon.pve1] имеют медленные операции.

У меня есть выделенная сеть для частной сети Ceph и еще одна для публичной сети, как видно в файле конфигурации Ceph.conf, который выглядит следующим образом:

```
[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 192.168.70.0/24
fsid = eb409a91-affd-487a-a02c-4df2e46e0a2e
mon_allow_pool_delete = true
mon_initial_members = pve1-pub pve2-pub ceph-mon3-pub
mon_host = 192.168.60.11 192.168.60.12 192.168.60.130
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 1
osd_pool_default_size = 2
public_network = 192.168.60.0/24

[client]
keyring = /etc/pve/priv/$cluster.$name.keyring

[client.crash]
keyring = /etc/pve/ceph/$cluster.$name.keyring

[mon.pve1]
host = 192.168.60.11
ip = 192.168.60.11
public_ip = 192.168.60.11
public_port = 6789
root = true

[mon.pve2]
host = 192.168.60.12
ip = 192.168.60.12
public_ip = 192.168.60.12
public_port = 6789
root = false

[mon.ceph-mon3]
host = 192.168.60.130
ip = 192.168.60.130
public_ip = 192.168.60.130
public_port = 6789
root = false

[osd.osd.18]
crush-device-class = disk
crush-disk-id = osd.18
crush-root-id = osd.18

[osd.osd.19]
crush-device-class = disk
crush-disk-id = osd.19
crush-root-id = osd.19
```

Оба узла Proxmox имеют подписки на стабильный репозиторий, поэтому они актуальны. Я ранее выполнял эту же конфигурацию в тестовой среде с использованием виртуальных машин для узлов, и все работало правильно в этой среде. Я повторил тестовую среду на физических серверах HPE, чтобы настроить производственную среду, но я не могу заставить ее работать. Не может кто-нибудь дать подсказку? Спасибо большое.

aaron

Guest

04.07.2025 11:48:00

Минимальное количество узлов, необходимое для стабильной Ceph-кластерной структуры, — 3! Как вы настроили свои пулы с точки зрения размера/min-size? Какой вывод у следующих команд?

Код: ceph osd df tree
pveceph status

Пожалуйста, используйте блоки кода, чтобы вывод был легко читаемым. Либо используя кнопку </> редактора, либо заключая его в теги [code][/code].

fjmo2008

Guest

04.07.2025 12:51:00

Привет, Аарон, спасибо за ответ.

Код: root@pve1:~# ceph osd df tree
ID CLASS WEIGHT REWEIGHT SIZE RAW USE DATA OMAP META AVAIL %USE VAR PGS STATUS TYPE NAME
-1 0.43658 - 447 GiB 69 MiB 12 MiB 31 KiB 56 MiB 447 GiB 0.01 1.00 - root default
-3 0.21829 - 224 GiB 34 MiB 6.0 MiB 18 KiB 28 MiB 224 GiB 0.01 1.00 - host pve1
18 ssd 0.21829 1.00000 224 GiB 34 MiB 6.0 MiB 18 KiB 28 MiB 224 GiB 0.01 1.00 33 up osd.18
-5 0.21829 - 224 GiB 34 MiB 6.0 MiB 13 KiB 28 MiB 224 GiB 0.01 1.00 - host pve2
19 ssd 0.21829 1.00000 224 GiB 34 MiB 6.0 MiB 13 KiB 28 MiB 224 GiB 0.01 1.00 33 up osd.19
TOTAL 447 GiB 69 MiB 12 MiB 33 KiB 56 MiB 447 GiB 0.01
MIN/MAX VAR: 1.00/1.00 STDDEV: 0 Код: root@pve1:~# pveceph status
cluster:
id: eb409a91-affd-487a-a02c-4df2e46e0a2e
health: HEALTH_WARN
Reduced data availability: 33 pgs inactive, 33 pgs peering
2 daemons have recently crashed
10 slow ops, oldest one blocked for 3988 sec, daemons [osd.18,osd.19,mon.pve1] have slow ops.

services:
mon: 3 daemons, quorum pve1,pve2,ceph-mon3 (age 33m)
mgr: pve1(active, since 66m), standbys: pve2
osd: 2 osds: 2 up (since 33m), 2 in (since 33m)

data:
pools: 2 pools, 33 pgs
objects: 0 objects, 0 B
usage: 69 MiB used, 447 GiB / 447 GiB avail
pgs: 100.000% pgs not active
19 peering
14 creating+peering Как видишь, есть предупреждение о том, что недавно упали 2 демона. Спасибо.

aaron

Guest

04.07.2025 14:14:00

Да, MON на PVE1, согласно информации в твоем первом посте. Должно быть еще 2 рабочих, так что поволноваться особо не стоит. Что интересно, у тебя присутствуют 33 PG, но ни один из них не активен. Какой размер/минимальный размер пула? (можно пока игнорировать .mgr пул). И если ты не планируешь добавить третий нод в ближайшее время, не заморачивайся с Ceph! Лучше используй локальный ZFS + репликация гостей, если не хочешь внешнее хранилище.

gurubert Guest	#5 0 04.07.2025 17:03:00 Как второй узел должен убедиться, что первый действительно упал, имея только две реплики данных? Эта схема никогда не сработает.

fjmo2008 Guest	#6 0 09.07.2025 13:00:00 Привет, проблема решена настройкой Ceph с использованием кластерной сети на той же публичной сети. Это не самый лучший вариант, но так всё работает корректно, и кластер в статусе HEALTH_OK. Публичная сеть подключена к 10Гб, а в кластере всего три виртуальные машины. Буду отслеживать производительность по той же публичной сети для коммуникации OSD. Спасибо всем.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры