+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

RSS

[РЕШЕНО] Тормозит команда 'ceph status' и выдает 'got timeout' в графическом интерфейсе Proxmox., Proxmox Виртуальная Среда

ftrojahn

Guest

27.12.2018 09:35:00

Приветствую! Во-первых, хочу сказать, что мы используем Proxmox и Ceph уже какое-то время и всегда ценим стабильность, отличную поддержку и сообщество – спасибо вам за это! Сейчас настраиваю новый кластер с Proxmox 5.3/Ceph Luminous и переношу наши 'старые' продуктивные ноды vm1, vm2, vm3 в новый кластер. vm4 – новая нода, vm5/vm6 – промежуточные ноды для миграции, которые будут удалены после миграции VM и переустановки vm1-vm3.

Проблема: в новом кластере команда 'pveceph status' иногда показывает "таймаут" на vm5/vm6, иногда на vm4. Почему и когда это происходит – непонятно, кажется случайным, например, один раз "pveceph status" работает, а в следующий раз – нет. Команда 'ceph -s' иногда "задумывается" на 2-4 секунды, прежде чем показать свой вывод – но никогда не вылетает с таймаутом. Кластер имеет кворум и здоров. В графическом интерфейсе: вкладка Ceph -> OSD отображается только на vm4, никогда на vm5/vm6 ("got timeout 500"). Не имеет значения, какую ноду я использую для веб-интерфейса. Согласно инструментам разработчика Chromium, HTTP-запросы (XHR) вида vm5.lan.domain.tld:8006/api2/extjs/nodes/vm5/ceph/osd?_dc=1545896996 вызывают таймаут.

Я пробовал разные вещи, но не могу понять причину. Вот вывод команд:

* **версии:**
* proxmox-ve: 5.3-1 (ядро: 4.15.18-9-pve)
* pve-manager: 5.3-6
* Ceph: 12.2.10-pve1
* Corosync: 2.4.4-pve1

* **вывод `ceph df`:**
```
GLOBAL: SIZE AVAIL RAW USED %RAW USED
23.8TiB 21.2TiB 2.55TiB 10.73
POOLS:
NAME ID USED %USED MAX AVAIL OBJECTS
rbd 1 301GiB 19.87 1.19TiB 77363
cephfs_data 3 1000GiB 45.12 1.19TiB 1151998
cephfs_metadata 4 223MiB 0.02 1.19TiB 110891
```

* **вывод `ceph osd pool stats`:**
```
pool rbd id 1 client io 4.29KiB/s wr, 0op/s rd, 0op/s wr
pool cephfs_data id 3 nothing is going on
pool cephfs_metadata id 4 nothing is going on
```

* **Содержимое файла `ceph.conf`:**
```
[global]
auth client required = cephx
auth cluster required = cephx
auth service required = cephx
bluestore block db size = 5368709120
bluestore block wal size = 5368709120
cluster network = 192.168.200.0/24
fsid = 97ec297a-63e2-4d6a-89af-2e5e9ee2458c
keyring = /etc/pve/priv/$cluster.$name.keyring
mon allow pool delete = true
osd journal size = 5120
osd pool default min size = 2
osd pool default size = 3
public network = 192.168.40.0/24

[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.vm5]
host = vm5
mds standby for name = pve

[mds.vm4]
host = vm4
mds standby for name = pve

[osd]
keyring = /var/lib/ceph/osd/ceph-$id/keyring

[mon.vm5]
host = vm5
mon addr = 192.168.40.15:6789

[mon.vm4]
host = vm4
mon addr = 192.168.40.14:6789

[mon.vm6]
host = vm6
mon addr = 192.168.40.16:6789
```

Буду признателен за любую помощь!

Teagan42

Guest

27.08.2020 21:07:00

Просто хотел сказать СПАСИБО! У нас были проблемы с таймаутами ceph после установки Unifi Dream Machine Pro, и мы потратили часы, пытаясь разобраться, что не так. Не преувеличу, если скажу, что я гуглил больше двух часов, когда увидел твой комментарий про несовпадение MTU. В UDMPRO есть галочка "Enable Jumbo Frames", но оказалось, что она только устанавливает MTU примерно в 8125. Чтобы все заработало, мне пришлось подключиться к машине по SSH и вручную установить MTU, используя этот скрипт (интерфейсов штук сто из-за VLAN, мостов и прочего): ls -1 /sys/class/net | while read line ; do ip link set mtu 9000 dev $line ; done

brucexx

Guest

12.11.2021 19:07:00

У меня была та же проблема: выдавал "error with 'df': got timeout" при попытке либо установить VM с хранилищем Ceph, либо перенести существующий диск на Ceph. В остальном всё выглядело "хорошо". Я обнаружил, что у меня на одном интерфейсе был установлен размер MTU 9000, а на всех остальных – значение по умолчанию 1500. Как только я изменил это на 1500, всё просто заработало.

warloxian

Guest

26.11.2021 02:10:00

Что бы я ни вводил в Ceph, система либо таймаутится на 300, либо на 500 секунд. У меня был еще один узел, который я удалил, а потом заменил его другим узлом, с другим именем и другим IP-адресом. Похоже, у меня остались какие-то остатки старого узла в некоторых из моих конфигурационных файлах. Не мог бы кто-нибудь взять этого новичка за руку и объяснить, как исправить CEPH, шаг за шагом? Тогда я смогу проверить, решит ли это мои проблемы с таймаутами при загрузке, скачивании или передаче ISO-образов на мой PVE. За любую помощь буду очень благодарен.

GoZippy Guest	#5 0 21.05.2022 03:15:00 Ты когда-нибудь это решал? У меня похожие проблемы.

johnnydatacenter Guest	#6 0 12.08.2024 23:50:00 Вот это был мой потолок. Теперь нужно понять, где указывать jumbo frames, чтобы ничего не сломать...

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры