У меня кластер Proxmox 8.4 с двумя узлами и одним qdevice, Ceph Squid 19.2.1 установлен недавно, а также есть дополнительное устройство для поддержания кворума Ceph. У каждого узла есть один SATA SSD, так что у меня создано два OSD (osd.18 и osd.19), и у меня есть пул под названием poolssd, в котором находятся оба они. С момента установки и настройки Ceph я получаю это сообщение, и он не позволяет мне создавать какие-либо виртуальные машины в этом пуле:
HEALTH_WARN: Уменьшена доступность данных: 33 группы данных неактивны, 33 группы данных устанавливают связь pg 1.0 застряла в процессе установления связи с самого начала, текущее состояние - установление связи, последнее действие [19,18] pg 4.0 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.2 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.3 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.4 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.5 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.6 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.7 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.8 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.9 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.b застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.c застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.d застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.e застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.f застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.10 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.11 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.12 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.13 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.14 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.15 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.16 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.17 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.18 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.19 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1b застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1c застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1d застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1e застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1f застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18]
У меня настроено 3 монитора: 2, соответствующие 2 узлам Proxmox (mon.pve1 и mon.pve2), и монитор кворума. И я также получаю следующие сообщения:
HEALTH_WARN: 2 демона недавно аварийно завершили работу: mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:24:48.235164Z mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:45:50.830345Z
HEALTH_WARN: 14 медленных операций, самая старая заблокирована на 8610 секунд, демоны [osd.18,osd.19,mon.pve1] имеют медленные операции.
У меня есть выделенная сеть для частной сети Ceph и еще одна для публичной сети, как видно в файле конфигурации Ceph.conf, который выглядит следующим образом:
```
[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 192.168.70.0/24
fsid = eb409a91-affd-487a-a02c-4df2e46e0a2e
mon_allow_pool_delete = true
mon_initial_members = pve1-pub pve2-pub ceph-mon3-pub
mon_host = 192.168.60.11 192.168.60.12 192.168.60.130
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 1
osd_pool_default_size = 2
public_network = 192.168.60.0/24
[client]
keyring = /etc/pve/priv/$cluster.$name.keyring
[client.crash]
keyring = /etc/pve/ceph/$cluster.$name.keyring
[mon.pve1]
host = 192.168.60.11
ip = 192.168.60.11
public_ip = 192.168.60.11
public_port = 6789
root = true
[mon.pve2]
host = 192.168.60.12
ip = 192.168.60.12
public_ip = 192.168.60.12
public_port = 6789
root = false
[mon.ceph-mon3]
host = 192.168.60.130
ip = 192.168.60.130
public_ip = 192.168.60.130
public_port = 6789
root = false
[osd.osd.18]
crush-device-class = disk
crush-disk-id = osd.18
crush-root-id = osd.18
[osd.osd.19]
crush-device-class = disk
crush-disk-id = osd.19
crush-root-id = osd.19
```
Оба узла Proxmox имеют подписки на стабильный репозиторий, поэтому они актуальны. Я ранее выполнял эту же конфигурацию в тестовой среде с использованием виртуальных машин для узлов, и все работало правильно в этой среде. Я повторил тестовую среду на физических серверах HPE, чтобы настроить производственную среду, но я не могу заставить ее работать. Не может кто-нибудь дать подсказку? Спасибо большое.
HEALTH_WARN: Уменьшена доступность данных: 33 группы данных неактивны, 33 группы данных устанавливают связь pg 1.0 застряла в процессе установления связи с самого начала, текущее состояние - установление связи, последнее действие [19,18] pg 4.0 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.2 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.3 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.4 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.5 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.6 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.7 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.8 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.9 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.b застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.c застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.d застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.e застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.f застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.10 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.11 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.12 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.13 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.14 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.15 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.16 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.17 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.18 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.19 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1b застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1c застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1d застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1e застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1f застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18]
У меня настроено 3 монитора: 2, соответствующие 2 узлам Proxmox (mon.pve1 и mon.pve2), и монитор кворума. И я также получаю следующие сообщения:
HEALTH_WARN: 2 демона недавно аварийно завершили работу: mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:24:48.235164Z mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:45:50.830345Z
HEALTH_WARN: 14 медленных операций, самая старая заблокирована на 8610 секунд, демоны [osd.18,osd.19,mon.pve1] имеют медленные операции.
У меня есть выделенная сеть для частной сети Ceph и еще одна для публичной сети, как видно в файле конфигурации Ceph.conf, который выглядит следующим образом:
```
[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 192.168.70.0/24
fsid = eb409a91-affd-487a-a02c-4df2e46e0a2e
mon_allow_pool_delete = true
mon_initial_members = pve1-pub pve2-pub ceph-mon3-pub
mon_host = 192.168.60.11 192.168.60.12 192.168.60.130
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 1
osd_pool_default_size = 2
public_network = 192.168.60.0/24
[client]
keyring = /etc/pve/priv/$cluster.$name.keyring
[client.crash]
keyring = /etc/pve/ceph/$cluster.$name.keyring
[mon.pve1]
host = 192.168.60.11
ip = 192.168.60.11
public_ip = 192.168.60.11
public_port = 6789
root = true
[mon.pve2]
host = 192.168.60.12
ip = 192.168.60.12
public_ip = 192.168.60.12
public_port = 6789
root = false
[mon.ceph-mon3]
host = 192.168.60.130
ip = 192.168.60.130
public_ip = 192.168.60.130
public_port = 6789
root = false
[osd.osd.18]
crush-device-class = disk
crush-disk-id = osd.18
crush-root-id = osd.18
[osd.osd.19]
crush-device-class = disk
crush-disk-id = osd.19
crush-root-id = osd.19
```
Оба узла Proxmox имеют подписки на стабильный репозиторий, поэтому они актуальны. Я ранее выполнял эту же конфигурацию в тестовой среде с использованием виртуальных машин для узлов, и все работало правильно в этой среде. Я повторил тестовую среду на физических серверах HPE, чтобы настроить производственную среду, но я не могу заставить ее работать. Не может кто-нибудь дать подсказку? Спасибо большое.
