Привет, у меня есть два кластера Proxmox/Ceph. Один с 4 OSD (по 5 дисков каждый) db+wal на NVMe. Другой с 4 OSD (по 10 дисков каждый) db+wal на NVMe. Первый кластер обновил и он работал медленно, пока все диски не были переведены на Bluestore, производительность все еще ниже уровня Jewel, но пропускная способность хранения улучшилась. Виртуальные машины работают/чувствуются немного медленнее... Но второй кластер просто очень-очень медленный, хотя нагрузка на него значительно выше. Оба кластера на Prox4.4/CephJewel работали отлично. Производительность узлов Proxmox деградирует через несколько часов до такой степени, что даже SSH может занимать минуты. Виртуальные машины на нем работают очень медленно. Подозреваю, что это проблема настройки ядра, но если бы я знал точно, я бы не писал здесь. Если я запускаю: free && sync && echo 3 > /proc/sys/vm/drop_caches && free, это может занять 30 минут или даже больше, в то время как не затронутые узлы завершают за несколько секунд... У нас на кластере работает 40Gb infiniband, поэтому у меня есть параметры настройки ядра, как показано в вики Proxmox/infiniband. Те же параметры работали хорошо в Prox4/Jewel. Я также пробовал некоторые настройки sysctl.conf с/без них: vm.swappiness=0 vm.vfs_cache_pressure=50 vm.dirty_background_ratio=5 vm.dirty_ratio=10 vm.min_free_kbytes=2097152 vm.zone_reclaim_mode=1 vm.nr_hugepages=400. Но узлы, похоже, постепенно "сдыхают" со временем. После перезагрузки они работают нормально еще несколько часов. Мы получаем 40%-80% IOWait на медленных узлах, что совершенно необычно. Ранее IOWait едва отображался на графиках. Я также пробовал изменить параметры ceph, в том числе отключение отладки: osd_op_threads=5 osd-max-backfills=3 osd_disk_threads=8 osd_op_num_threads_per_shard=1 osd_op_num_threads_per_shard_hdd=2 osd_op_num_threads_per_shard_ssd=2 osd-max-backfills=3 osd_disk_threads=8 osd_op_num_threads_per_shard=1 osd_op_num_threads_per_shard_hdd=2 osd_op_num_threads_per_shard_ssd=2 rbd cache=true rbd cache writethrough until flush=true rbd_op_threads=2. Но если кто-то может предложить рекомендуемые настройки ядра и/или ceph для 4 OSD, 40 дисков 120TB Luminous. Или какую еще информацию я могу предоставить, так как я не уверен, является ли причиной Luminous или ядро prox5. Спасибо за внимание, Ekkas.
Proxmox 5 и Ceph Luminous/Bluestore очень медленно работают!?, Proxmox Виртуальная Среда
|
15.09.2017 15:33:00
|
|
|
|
|
|
09.11.2017 11:31:00
Улучшилась ли ситуация? Я планирую также установить кластер Ceph на основе Infiniband 40G QDR!
|
|
|
|
|
|
21.11.2017 16:25:00
Привет, какая у тебя конфигурация WAL и DB? Какое оборудование, размеры и другие детали?
|
||||
|
|
|
|||
Читают тему
