+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Proxmox 5 и Ceph Luminous/Bluestore очень медленно работают!?, Proxmox Виртуальная Среда

Ekkas

Guest

15.09.2017 15:33:00

Привет, у меня есть два кластера Proxmox/Ceph. Один с 4 OSD (по 5 дисков каждый) db+wal на NVMe. Другой с 4 OSD (по 10 дисков каждый) db+wal на NVMe. Первый кластер обновил и он работал медленно, пока все диски не были переведены на Bluestore, производительность все еще ниже уровня Jewel, но пропускная способность хранения улучшилась. Виртуальные машины работают/чувствуются немного медленнее... Но второй кластер просто очень-очень медленный, хотя нагрузка на него значительно выше. Оба кластера на Prox4.4/CephJewel работали отлично. Производительность узлов Proxmox деградирует через несколько часов до такой степени, что даже SSH может занимать минуты. Виртуальные машины на нем работают очень медленно. Подозреваю, что это проблема настройки ядра, но если бы я знал точно, я бы не писал здесь. Если я запускаю: free && sync && echo 3 > /proc/sys/vm/drop_caches && free, это может занять 30 минут или даже больше, в то время как не затронутые узлы завершают за несколько секунд... У нас на кластере работает 40Gb infiniband, поэтому у меня есть параметры настройки ядра, как показано в вики Proxmox/infiniband. Те же параметры работали хорошо в Prox4/Jewel. Я также пробовал некоторые настройки sysctl.conf с/без них: vm.swappiness=0 vm.vfs_cache_pressure=50 vm.dirty_background_ratio=5 vm.dirty_ratio=10 vm.min_free_kbytes=2097152 vm.zone_reclaim_mode=1 vm.nr_hugepages=400. Но узлы, похоже, постепенно "сдыхают" со временем. После перезагрузки они работают нормально еще несколько часов. Мы получаем 40%-80% IOWait на медленных узлах, что совершенно необычно. Ранее IOWait едва отображался на графиках. Я также пробовал изменить параметры ceph, в том числе отключение отладки: osd_op_threads=5 osd-max-backfills=3 osd_disk_threads=8 osd_op_num_threads_per_shard=1 osd_op_num_threads_per_shard_hdd=2 osd_op_num_threads_per_shard_ssd=2 osd-max-backfills=3 osd_disk_threads=8 osd_op_num_threads_per_shard=1 osd_op_num_threads_per_shard_hdd=2 osd_op_num_threads_per_shard_ssd=2 rbd cache=true rbd cache writethrough until flush=true rbd_op_threads=2. Но если кто-то может предложить рекомендуемые настройки ядра и/или ceph для 4 OSD, 40 дисков 120TB Luminous. Или какую еще информацию я могу предоставить, так как я не уверен, является ли причиной Luminous или ядро prox5. Спасибо за внимание, Ekkas.

Proxmox India Guest	#2 0 09.11.2017 11:31:00 Улучшилась ли ситуация? Я планирую также установить кластер Ceph на основе Infiniband 40G QDR!

aderumier

Guest

09.11.2017 11:41:00

также добавьте в ваш ceph.conf для клиентов: [global] debug asok = 0/0 debug auth = 0/0 debug buffer = 0/0 debug client = 0/0 debug context = 0/0 debug crush = 0/0 debug filer = 0/0 debug filestore = 0/0 debug finisher = 0/0 debug heartbeatmap = 0/0 debug journal = 0/0 debug journaler = 0/0 debug lockdep = 0/0 debug mds = 0/0 debug mds balancer = 0/0 debug mds locker = 0/0 debug mds log = 0/0 debug mds log expire = 0/0 debug mds migrator = 0/0 debug mon = 0/0 debug monc = 0/0 debug ms = 0/0 debug objclass = 0/0 debug objectcacher = 0/0 debug objecter = 0/0 debug optracker = 0/0 debug osd = 0/0 debug paxos = 0/0 debug perfcounter = 0/0 debug rados = 0/0 debug rbd = 0/0 debug rgw = 0/0 debug throttle = 0/0 debug timer = 0/0 debug tp = 0/0 debug_ms = "0/0" - это более важный параметр для luminous, он будет отключен по умолчанию в следующем релизе ceph https://github.com/ceph/ceph/pull/18529

Ekkas

Guest

13.11.2017 13:55:00

Спасибо за ваши рекомендации. Мы уменьшили количество реплик данных с 3 до 2, чтобы получить более стабильный рабочий кластер. Пробовали отладку и другие рекомендации, но проблемы все еще возникают время от времени. (С двумя копиями гораздо лучше.) Проблема в том, что когда система начинает медлить, страдают все виртуальные машины. Для нас это контрпродуктивно — избегать единой точки отказа, но иметь единую точку, влияющую на производительность всех виртуальных машин. Если CEPH работает плохо или медленно, все производство замедляется до болезни. Мы решили отказаться от CEPH и предпочитаем более высокие затраты на обслуживание, но значительно лучшую производительность узлов ZFS, которые будут реплицироваться между собой. Судя по последним версиям CEPH, они стремятся к созданию крупных кластеров, поэтому наши малые кластеры на 4 узла и 40 OSD просто не могут справиться с требованиями CEPH, определенно не с тем, чего можно ожидать от такого количества дисков/оперативной памяти/ЦП. Если задуматься, CEPH ОЧЕНЬ неэффективен в плане ресурсов, оперативной памяти, ЦП и потребления энергии. Например, CEPH luminous теперь рекомендует минимум 64 ГБ ОЗУ на узлах OSD. Если вам не нужны петабайты в одном решении для хранения и вы не можете позволить себе 5 или более узлов OSD, я бы не стал рекомендовать или снова легко разворачивать CEPH.

Alwin Guest	#5 0 13.11.2017 14:07:00 Печально слышать, что поездка была не из приятных. Мне все же интересны некоторые цифры, например, с тестов rados bench и fio. У тебя есть такие данные, и смог бы ты ими поделиться? Заранее спасибо.

aderumier

Guest

13.11.2017 16:09:00

Привет, я запустил jewel filestore и luminous bluestore на 3 узлах: каждый из них имеет 6 OSD SSD, 2 процессора Intel на 3 ГГц с 12 ядрами, 64 ГБ ОЗУ и 2 порта Ethernet по 10 ГБ. Я не заметил никаких регрессий. Я получаю около 600000 IOPS при случайном чтении 4K и 150000 IOPS при случайной записи 4K.

gcakici Guest	#7 0 21.11.2017 16:25:00 Привет, какая у тебя конфигурация WAL и DB? Какое оборудование, размеры и другие детали?

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры