Мы используем Ceph на трех нодах (10g). Есть пул из HDD (3 OSD на ноду) и один пул из NVMe. NVMe используются для WAL и DB HDD тоже. Для каждого OSD osd_max_scrubs установлен в 1. Во время фаз глубокой проверки (я ограничил это несколькими часами ночью) кластер работает ужасно медленно. У меня нет результатов бенчмарка, но даже загрузка VM занимает вечность. Пытаюсь лучше понять, как работает глубокая проверка, чтобы улучшить настройки. Насколько я понимаю, глубокая проверка заставляет PG считываться на всех нодах и "запускается" на основном OSD для этого PG. Я не знаю, учитывается ли "клиентская проверка" реплик PG против максимальной проверки OSD и отображается ли это в числах ceph -s (кажется, нет, так как иногда вижу, что проверку проходит только один PG, что кажется нелогичным). Интересно, может ли произойти так, что на одном OSD одновременно могут быть активны три операции глубокой проверки (что было бы ужасно для производительности): одна — инициированная на этом OSD, и две — инициированные на других OSD, на которых есть реплика PG для этого OSD. В этом случае, возможно, значительно улучшит производительность установка флагов nodeepscrub на всех OSD двух нод (на каждый период проверки). Мое понимание верно?
