Привет! У меня вчера возникла проблема с узлом кластера: его ZFS-диск корня оказался забит кучей снапшотов, и rpool стал на 100% заполнен. Это отслеживалось, но всё произошло так быстро, что мы просто не успели среагировать вовремя. Виртуальные машины, расположенные в этом хранилище, стали недоступны. Другие виртуальные машины, использующие Ceph-хранилище, работали нормально. Я мог зайти на сервер по SSH и подключиться к веб-интерфейсу, либо напрямую к этому узлу, либо через другой узел кластера. Информация на страницах статуса обновлялась корректно, за исключением виртуальных машин в ZFS-хранилище. Я не мог просмотреть содержимое любого хранилища. Я не мог выдать никакую команду к любой виртуальной машине на этом сервере: запустить/остановить, мигрировать, удалить снапшоты и т.д. К счастью, было несколько ISO-файлов, которые я смог удалить и получил примерно 8 ГБ свободного места. Я ожидал, что сервер начнёт (медленно?) восстанавливаться, но после пары часов ничего не изменилось (застрявшие виртуальные машины не критичны). Затем я остановил работающие виртуальные машины в их ОС и вручную переместил их на другой узел. После ожидания ещё час узел всё ещё неисправен. Я пытался перезапустить сервисы PVE, убить процессы и даже выполнить упорядоченную перезагрузку. Ничего не помогло. В конце концов мне пришлось сбросить сервер, чтобы вернуть его в рабочее состояние. Всё это ожидаемо? У меня был подобный случай один раз, но тогда хранилище было LVM и это был одиночный узел. Тогда просто освобождение пары гигабайт и ожидание нескольких минут вернули узел и виртуальные машины в рабочее состояние. Спасибо!
Не отвечает сервер из-за заполненного корневого диска (ZFS)., Proxmox Виртуальная Среда
|
29.12.2022 10:42:00
|
|
|
|
|
Читают тему
