Приветствую! Во-первых, хочу сказать, что мы используем Proxmox и Ceph уже какое-то время и всегда ценим стабильность, отличную поддержку и сообщество – спасибо вам за это! Сейчас настраиваю новый кластер с Proxmox 5.3/Ceph Luminous и переношу наши 'старые' продуктивные ноды vm1, vm2, vm3 в новый кластер. vm4 – новая нода, vm5/vm6 – промежуточные ноды для миграции, которые будут удалены после миграции VM и переустановки vm1-vm3.
Проблема: в новом кластере команда 'pveceph status' иногда показывает "таймаут" на vm5/vm6, иногда на vm4. Почему и когда это происходит – непонятно, кажется случайным, например, один раз "pveceph status" работает, а в следующий раз – нет. Команда 'ceph -s' иногда "задумывается" на 2-4 секунды, прежде чем показать свой вывод – но никогда не вылетает с таймаутом. Кластер имеет кворум и здоров. В графическом интерфейсе: вкладка Ceph -> OSD отображается только на vm4, никогда на vm5/vm6 ("got timeout 500"). Не имеет значения, какую ноду я использую для веб-интерфейса. Согласно инструментам разработчика Chromium, HTTP-запросы (XHR) вида vm5.lan.domain.tld:8006/api2/extjs/nodes/vm5/ceph/osd?_dc=1545896996 вызывают таймаут.
Я пробовал разные вещи, но не могу понять причину. Вот вывод команд:
* **версии:**
* proxmox-ve: 5.3-1 (ядро: 4.15.18-9-pve)
* pve-manager: 5.3-6
* Ceph: 12.2.10-pve1
* Corosync: 2.4.4-pve1
* **вывод `ceph df`:**
```
GLOBAL: SIZE AVAIL RAW USED %RAW USED
23.8TiB 21.2TiB 2.55TiB 10.73
POOLS:
NAME ID USED %USED MAX AVAIL OBJECTS
rbd 1 301GiB 19.87 1.19TiB 77363
cephfs_data 3 1000GiB 45.12 1.19TiB 1151998
cephfs_metadata 4 223MiB 0.02 1.19TiB 110891
```
* **вывод `ceph osd pool stats`:**
```
pool rbd id 1 client io 4.29KiB/s wr, 0op/s rd, 0op/s wr
pool cephfs_data id 3 nothing is going on
pool cephfs_metadata id 4 nothing is going on
```
* **Содержимое файла `ceph.conf`:**
```
[global]
auth client required = cephx
auth cluster required = cephx
auth service required = cephx
bluestore block db size = 5368709120
bluestore block wal size = 5368709120
cluster network = 192.168.200.0/24
fsid = 97ec297a-63e2-4d6a-89af-2e5e9ee2458c
keyring = /etc/pve/priv/$cluster.$name.keyring
mon allow pool delete = true
osd journal size = 5120
osd pool default min size = 2
osd pool default size = 3
public network = 192.168.40.0/24
[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring
[mds.vm5]
host = vm5
mds standby for name = pve
[mds.vm4]
host = vm4
mds standby for name = pve
[osd]
keyring = /var/lib/ceph/osd/ceph-$id/keyring
[mon.vm5]
host = vm5
mon addr = 192.168.40.15:6789
[mon.vm4]
host = vm4
mon addr = 192.168.40.14:6789
[mon.vm6]
host = vm6
mon addr = 192.168.40.16:6789
```
Буду признателен за любую помощь!
Проблема: в новом кластере команда 'pveceph status' иногда показывает "таймаут" на vm5/vm6, иногда на vm4. Почему и когда это происходит – непонятно, кажется случайным, например, один раз "pveceph status" работает, а в следующий раз – нет. Команда 'ceph -s' иногда "задумывается" на 2-4 секунды, прежде чем показать свой вывод – но никогда не вылетает с таймаутом. Кластер имеет кворум и здоров. В графическом интерфейсе: вкладка Ceph -> OSD отображается только на vm4, никогда на vm5/vm6 ("got timeout 500"). Не имеет значения, какую ноду я использую для веб-интерфейса. Согласно инструментам разработчика Chromium, HTTP-запросы (XHR) вида vm5.lan.domain.tld:8006/api2/extjs/nodes/vm5/ceph/osd?_dc=1545896996 вызывают таймаут.
Я пробовал разные вещи, но не могу понять причину. Вот вывод команд:
* **версии:**
* proxmox-ve: 5.3-1 (ядро: 4.15.18-9-pve)
* pve-manager: 5.3-6
* Ceph: 12.2.10-pve1
* Corosync: 2.4.4-pve1
* **вывод `ceph df`:**
```
GLOBAL: SIZE AVAIL RAW USED %RAW USED
23.8TiB 21.2TiB 2.55TiB 10.73
POOLS:
NAME ID USED %USED MAX AVAIL OBJECTS
rbd 1 301GiB 19.87 1.19TiB 77363
cephfs_data 3 1000GiB 45.12 1.19TiB 1151998
cephfs_metadata 4 223MiB 0.02 1.19TiB 110891
```
* **вывод `ceph osd pool stats`:**
```
pool rbd id 1 client io 4.29KiB/s wr, 0op/s rd, 0op/s wr
pool cephfs_data id 3 nothing is going on
pool cephfs_metadata id 4 nothing is going on
```
* **Содержимое файла `ceph.conf`:**
```
[global]
auth client required = cephx
auth cluster required = cephx
auth service required = cephx
bluestore block db size = 5368709120
bluestore block wal size = 5368709120
cluster network = 192.168.200.0/24
fsid = 97ec297a-63e2-4d6a-89af-2e5e9ee2458c
keyring = /etc/pve/priv/$cluster.$name.keyring
mon allow pool delete = true
osd journal size = 5120
osd pool default min size = 2
osd pool default size = 3
public network = 192.168.40.0/24
[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring
[mds.vm5]
host = vm5
mds standby for name = pve
[mds.vm4]
host = vm4
mds standby for name = pve
[osd]
keyring = /var/lib/ceph/osd/ceph-$id/keyring
[mon.vm5]
host = vm5
mon addr = 192.168.40.15:6789
[mon.vm4]
host = vm4
mon addr = 192.168.40.14:6789
[mon.vm6]
host = vm6
mon addr = 192.168.40.16:6789
```
Буду признателен за любую помощь!
