Расследуя проблемы с производительностью OSD в новом кластере Ceph, я провел тот же анализ в своем «хорошем» кластере. И обнаружил кое-что интересное — возможно, исправление этого решит проблему и в новом кластере.
В «хорошем» кластере у меня три почти одинаковых сервера. На каждом сервере по четыре OSD, всего 12 штук. Когда я выполняю команду «ceph tell osd.x bench -f plain», получаю следующее:
osd.0:bench: записал 1024 МБ блоками по 4096 кБ за 12.109905 сек со скоростью 86588 кБ/с
osd.1:bench: записал 1024 МБ блоками по 4096 кБ за 8.501180 сек со скоростью 120 МБ/с
osd.2:bench: записал 1024 МБ блоками по 4096 кБ за 11.384842 сек со скоростью 92102 кБ/с
osd.3:bench: записал 1024 МБ блоками по 4096 кБ за 8.695865 сек со скоростью 117 МБ/с
osd.4:bench: записал 1024 МБ блоками по 4096 кБ за 0.753332 сек со скоростью 1359 МБ/с
osd.5:bench: записал 1024 МБ блоками по 4096 кБ за 1.712017 сек со скоростью 598 МБ/с
osd.6:bench: записал 1024 МБ блоками по 4096 кБ за 2.815910 сек со скоростью 363 МБ/с
osd.7:bench: записал 1024 МБ блоками по 4096 кБ за 1.698323 сек со скоростью 602 МБ/с
osd.8:bench: записал 1024 МБ блоками по 4096 кБ за 0.283092 сек со скоростью 3617 МБ/с
osd.9:bench: записал 1024 МБ блоками по 4096 кБ за 2.606005 сек со скоростью 392 МБ/с
osd.10:bench: записал 1024 МБ блоками по 4096 кБ за 2.652026 сек со скоростью 386 МБ/с
osd.11:bench: записал 1024 МБ блоками по 4096 кБ за 2.468191 сек со скоростью 414 МБ/с
Обратите внимание, что первые четыре OSD на одном сервере работают очень медленно. Все узлы соединены по сети 10GbE и используют одинаковые HDD и по одному SSD на сервер для Bluestore DB.
В кластере задействовано 13 узлов Proxmox, и каждый из них показывает такие же результаты.
Ищу помощь, чтобы понять, почему OSD на одном сервере такие медленные. Я пробовал удалить osd.0 и создать его заново, но скорость всё равно осталась низкой.
Читаю документацию, но надеюсь, кто-то подскажет что-то, что поможет быстрее найти решение.
Заранее спасибо!
В «хорошем» кластере у меня три почти одинаковых сервера. На каждом сервере по четыре OSD, всего 12 штук. Когда я выполняю команду «ceph tell osd.x bench -f plain», получаю следующее:
osd.0:bench: записал 1024 МБ блоками по 4096 кБ за 12.109905 сек со скоростью 86588 кБ/с
osd.1:bench: записал 1024 МБ блоками по 4096 кБ за 8.501180 сек со скоростью 120 МБ/с
osd.2:bench: записал 1024 МБ блоками по 4096 кБ за 11.384842 сек со скоростью 92102 кБ/с
osd.3:bench: записал 1024 МБ блоками по 4096 кБ за 8.695865 сек со скоростью 117 МБ/с
osd.4:bench: записал 1024 МБ блоками по 4096 кБ за 0.753332 сек со скоростью 1359 МБ/с
osd.5:bench: записал 1024 МБ блоками по 4096 кБ за 1.712017 сек со скоростью 598 МБ/с
osd.6:bench: записал 1024 МБ блоками по 4096 кБ за 2.815910 сек со скоростью 363 МБ/с
osd.7:bench: записал 1024 МБ блоками по 4096 кБ за 1.698323 сек со скоростью 602 МБ/с
osd.8:bench: записал 1024 МБ блоками по 4096 кБ за 0.283092 сек со скоростью 3617 МБ/с
osd.9:bench: записал 1024 МБ блоками по 4096 кБ за 2.606005 сек со скоростью 392 МБ/с
osd.10:bench: записал 1024 МБ блоками по 4096 кБ за 2.652026 сек со скоростью 386 МБ/с
osd.11:bench: записал 1024 МБ блоками по 4096 кБ за 2.468191 сек со скоростью 414 МБ/с
Обратите внимание, что первые четыре OSD на одном сервере работают очень медленно. Все узлы соединены по сети 10GbE и используют одинаковые HDD и по одному SSD на сервер для Bluestore DB.
В кластере задействовано 13 узлов Proxmox, и каждый из них показывает такие же результаты.
Ищу помощь, чтобы понять, почему OSD на одном сервере такие медленные. Я пробовал удалить osd.0 и создать его заново, но скорость всё равно осталась низкой.
Читаю документацию, но надеюсь, кто-то подскажет что-то, что поможет быстрее найти решение.
Заранее спасибо!
