Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Ceph на HPE DL380 Gen10+ не работает.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Ceph на HPE DL380 Gen10+ не работает., Proxmox Виртуальная Среда
     
    fjmo2008
    Guest
    #1
    0
    04.07.2025 11:43:00
    У меня кластер Proxmox 8.4 с двумя узлами и одним qdevice, Ceph Squid 19.2.1 установлен недавно, а также есть дополнительное устройство для поддержания кворума Ceph. У каждого узла есть один SATA SSD, так что у меня создано два OSD (osd.18 и osd.19), и у меня есть пул под названием poolssd, в котором находятся оба они. С момента установки и настройки Ceph я получаю это сообщение, и он не позволяет мне создавать какие-либо виртуальные машины в этом пуле:

    HEALTH_WARN: Уменьшена доступность данных: 33 группы данных неактивны, 33 группы данных устанавливают связь pg 1.0 застряла в процессе установления связи с самого начала, текущее состояние - установление связи, последнее действие [19,18] pg 4.0 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.2 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.3 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.4 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.5 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.6 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.7 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.8 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.9 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.b застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.c застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.d застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.e застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.f застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.10 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.11 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.12 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.13 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.14 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.15 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.16 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.17 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.18 застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.19 застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1a застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1b застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18] pg 4.1c застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1d застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1e застряла в процессе установления связи уже 26 часов, текущее состояние - установление связи, последнее действие [18,19] pg 4.1f застряла в процессе установления связи уже 26 часов, текущее состояние - создание+установление связи, последнее действие [19,18]

    У меня настроено 3 монитора: 2, соответствующие 2 узлам Proxmox (mon.pve1 и mon.pve2), и монитор кворума. И я также получаю следующие сообщения:

    HEALTH_WARN: 2 демона недавно аварийно завершили работу: mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:24:48.235164Z mon.pve1 аварийно завершил работу на хосте pve1 в 2025-07-03T05:45:50.830345Z

    HEALTH_WARN: 14 медленных операций, самая старая заблокирована на 8610 секунд, демоны [osd.18,osd.19,mon.pve1] имеют медленные операции.

    У меня есть выделенная сеть для частной сети Ceph и еще одна для публичной сети, как видно в файле конфигурации Ceph.conf, который выглядит следующим образом:

    ```
    [global]
    auth_client_required = cephx
    auth_cluster_required = cephx
    auth_service_required = cephx
    cluster_network = 192.168.70.0/24
    fsid = eb409a91-affd-487a-a02c-4df2e46e0a2e
    mon_allow_pool_delete = true
    mon_initial_members = pve1-pub pve2-pub ceph-mon3-pub
    mon_host = 192.168.60.11 192.168.60.12 192.168.60.130
    ms_bind_ipv4 = true
    ms_bind_ipv6 = false
    osd_pool_default_min_size = 1
    osd_pool_default_size = 2
    public_network = 192.168.60.0/24

    [client]
    keyring = /etc/pve/priv/$cluster.$name.keyring

    [client.crash]
    keyring = /etc/pve/ceph/$cluster.$name.keyring

    [mon.pve1]
    host = 192.168.60.11
    ip = 192.168.60.11
    public_ip = 192.168.60.11
    public_port = 6789
    root = true

    [mon.pve2]
    host = 192.168.60.12
    ip = 192.168.60.12
    public_ip = 192.168.60.12
    public_port = 6789
    root = false

    [mon.ceph-mon3]
    host = 192.168.60.130
    ip = 192.168.60.130
    public_ip = 192.168.60.130
    public_port = 6789
    root = false

    [osd.osd.18]
    crush-device-class = disk
    crush-disk-id = osd.18
    crush-root-id = osd.18

    [osd.osd.19]
    crush-device-class = disk
    crush-disk-id = osd.19
    crush-root-id = osd.19
    ```

    Оба узла Proxmox имеют подписки на стабильный репозиторий, поэтому они актуальны. Я ранее выполнял эту же конфигурацию в тестовой среде с использованием виртуальных машин для узлов, и все работало правильно в этой среде. Я повторил тестовую среду на физических серверах HPE, чтобы настроить производственную среду, но я не могу заставить ее работать. Не может кто-нибудь дать подсказку? Спасибо большое.
     
     
     
    aaron
    Guest
    #2
    0
    04.07.2025 11:48:00
    Минимальное количество узлов, необходимое для стабильной Ceph-кластерной структуры, — 3! Как вы настроили свои пулы с точки зрения размера/min-size? Какой вывод у следующих команд?

    Код: ceph osd df tree
    pveceph status

    Пожалуйста, используйте блоки кода, чтобы вывод был легко читаемым. Либо используя кнопку </> редактора, либо заключая его в теги [code][/code].
     
     
     
    fjmo2008
    Guest
    #3
    0
    04.07.2025 12:51:00
    Привет, Аарон, спасибо за ответ.

    Код: root@pve1:~# ceph osd df tree
    ID  CLASS  WEIGHT   REWEIGHT  SIZE     RAW USE  DATA     OMAP    META    AVAIL    %USE  VAR   PGS  STATUS  TYPE NAME
    -1         0.43658         -  447 GiB   69 MiB   12 MiB  31 KiB  56 MiB  447 GiB  0.01  1.00    -          root default
    -3         0.21829         -  224 GiB   34 MiB  6.0 MiB  18 KiB  28 MiB  224 GiB  0.01  1.00    -              host pve1
    18    ssd  0.21829   1.00000  224 GiB   34 MiB  6.0 MiB  18 KiB  28 MiB  224 GiB  0.01  1.00   33      up          osd.18
    -5         0.21829         -  224 GiB   34 MiB  6.0 MiB  13 KiB  28 MiB  224 GiB  0.01  1.00    -              host pve2
    19    ssd  0.21829   1.00000  224 GiB   34 MiB  6.0 MiB  13 KiB  28 MiB  224 GiB  0.01  1.00   33      up          osd.19
                          TOTAL  447 GiB   69 MiB   12 MiB  33 KiB  56 MiB  447 GiB  0.01
    MIN/MAX VAR: 1.00/1.00  STDDEV: 0 Код: root@pve1:~# pveceph status
     cluster:
       id:     eb409a91-affd-487a-a02c-4df2e46e0a2e
       health: HEALTH_WARN
               Reduced data availability: 33 pgs inactive, 33 pgs peering
               2 daemons have recently crashed
               10 slow ops, oldest one blocked for 3988 sec, daemons [osd.18,osd.19,mon.pve1] have slow ops.

     services:
       mon: 3 daemons, quorum pve1,pve2,ceph-mon3 (age 33m)
       mgr: pve1(active, since 66m), standbys: pve2
       osd: 2 osds: 2 up (since 33m), 2 in (since 33m)

     data:
       pools:   2 pools, 33 pgs
       objects: 0 objects, 0 B
       usage:   69 MiB used, 447 GiB / 447 GiB avail
       pgs:     100.000% pgs not active
                19 peering
                14 creating+peering Как видишь, есть предупреждение о том, что недавно упали 2 демона. Спасибо.
     
     
     
    aaron
    Guest
    #4
    0
    04.07.2025 14:14:00
    Да, MON на PVE1, согласно информации в твоем первом посте. Должно быть еще 2 рабочих, так что поволноваться особо не стоит. Что интересно, у тебя присутствуют 33 PG, но ни один из них не активен. Какой размер/минимальный размер пула? (можно пока игнорировать .mgr пул). И если ты не планируешь добавить третий нод в ближайшее время, не заморачивайся с Ceph! Лучше используй локальный ZFS + репликация гостей, если не хочешь внешнее хранилище.
     
     
     
    gurubert
    Guest
    #5
    0
    04.07.2025 17:03:00
    Как второй узел должен убедиться, что первый действительно упал, имея только две реплики данных? Эта схема никогда не сработает.
     
     
     
    fjmo2008
    Guest
    #6
    0
    09.07.2025 13:00:00
    Привет, проблема решена настройкой Ceph с использованием кластерной сети на той же публичной сети. Это не самый лучший вариант, но так всё работает корректно, и кластер в статусе HEALTH_OK. Публичная сеть подключена к 10Гб, а в кластере всего три виртуальные машины. Буду отслеживать производительность по той же публичной сети для коммуникации OSD. Спасибо всем.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры