Только что обновил PVE и Ceph до версии 19.2.1. Делал по одному узлу за другим, и поначалу всё казалось в порядке. Но когда подошёл последний из трёх узлов для перезагрузки, случился внезапный сбой электропитания. Пришлось жёстко перезапускать кластер. Всё заработало, как и ожидалось. Сразу же выключил все свои ВМ, чтобы убедиться, что с Ceph всё в порядке. Все OSD поднялись, и поначалу всё казалось нормальным. Но потом одна группа размещения (PG) стала неизвестной, а другие стали устаревшими и/или переговаривающимися. Код: pg 2.1b застрял в состоянии устаревшего уже 9 часов, текущее состояние устаревшее+переговаривающееся, последний активный [9,3]
pg 4.a застрял в состоянии переговаривающегося уже 19 часов, текущее состояние переговаривающееся, последний активный [3,9]
pg 4.4e застрял в состоянии неактивного уже 19 часов, текущее состояние неизвестное, последний активный []
pg 4.78 застрял в состоянии неактивного уже 19 часов, текущее состояние активирующееся+недостаточного размера, последний активный [3]. Кроме того, всё больше и больше OSD стали работать медленно: Код: osd.6 зафиксированы признаки медленной работы в BlueStore
osd.7 зафиксированы признаки медленной работы в BlueStore
osd.9 зафиксированы признаки медленной работы в BlueStore
osd.10 зафиксированы признаки медленной работы в BlueStore
osd.11 зафиксированы признаки медленной работы в BlueStore. Состояние SMART для всех OSD — PASSED. Что может быть причиной? Я начал уменьшать размер реплицированных пулов, чтобы временно освободить немного места и инициировать перебалансировку. Теперь я не знаю, был ли это правильный подход или что ещё можно сделать, чтобы вернуть все PG в активное состояние. Какие есть идеи?
pg 4.a застрял в состоянии переговаривающегося уже 19 часов, текущее состояние переговаривающееся, последний активный [3,9]
pg 4.4e застрял в состоянии неактивного уже 19 часов, текущее состояние неизвестное, последний активный []
pg 4.78 застрял в состоянии неактивного уже 19 часов, текущее состояние активирующееся+недостаточного размера, последний активный [3]. Кроме того, всё больше и больше OSD стали работать медленно: Код: osd.6 зафиксированы признаки медленной работы в BlueStore
osd.7 зафиксированы признаки медленной работы в BlueStore
osd.9 зафиксированы признаки медленной работы в BlueStore
osd.10 зафиксированы признаки медленной работы в BlueStore
osd.11 зафиксированы признаки медленной работы в BlueStore. Состояние SMART для всех OSD — PASSED. Что может быть причиной? Я начал уменьшать размер реплицированных пулов, чтобы временно освободить немного места и инициировать перебалансировку. Теперь я не знаю, был ли это правильный подход или что ещё можно сделать, чтобы вернуть все PG в активное состояние. Какие есть идеи?

По одному. Просто будьте терпеливы и дождитесь, пока он завершит задачу, прежде чем что-то с ним делать. GUI показывает примерное время окончания, но это просто предположение.