+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Не отвечает сервер из-за заполненного корневого диска (ZFS)., Proxmox Виртуальная Среда

VictorSTS

Guest

29.12.2022 10:42:00

Привет! У меня вчера возникла проблема с узлом кластера: его ZFS-диск корня оказался забит кучей снапшотов, и rpool стал на 100% заполнен. Это отслеживалось, но всё произошло так быстро, что мы просто не успели среагировать вовремя. Виртуальные машины, расположенные в этом хранилище, стали недоступны. Другие виртуальные машины, использующие Ceph-хранилище, работали нормально. Я мог зайти на сервер по SSH и подключиться к веб-интерфейсу, либо напрямую к этому узлу, либо через другой узел кластера. Информация на страницах статуса обновлялась корректно, за исключением виртуальных машин в ZFS-хранилище. Я не мог просмотреть содержимое любого хранилища. Я не мог выдать никакую команду к любой виртуальной машине на этом сервере: запустить/остановить, мигрировать, удалить снапшоты и т.д. К счастью, было несколько ISO-файлов, которые я смог удалить и получил примерно 8 ГБ свободного места. Я ожидал, что сервер начнёт (медленно?) восстанавливаться, но после пары часов ничего не изменилось (застрявшие виртуальные машины не критичны). Затем я остановил работающие виртуальные машины в их ОС и вручную переместил их на другой узел. После ожидания ещё час узел всё ещё неисправен. Я пытался перезапустить сервисы PVE, убить процессы и даже выполнить упорядоченную перезагрузку. Ничего не помогло. В конце концов мне пришлось сбросить сервер, чтобы вернуть его в рабочее состояние. Всё это ожидаемо? У меня был подобный случай один раз, но тогда хранилище было LVM и это был одиночный узел. Тогда просто освобождение пары гигабайт и ожидание нескольких минут вернули узел и виртуальные машины в рабочее состояние. Спасибо!

Dunuin

Guest

29.12.2022 15:27:00

ZFS пул в любом случае не должен быть заполнен более чем на 80%. Так что в будущем не помешает установить пуловый лимит в 90%. Чтобы независимо от всего, пул все равно имел 10% свободного места, и вы могли бы легко временно изменить этот лимит, чтобы освободить место, чтобы пул снова начал работать, и вы могли бы очистить что-нибудь. И не забудьте про fstrim -a и zpool trim rpool, чтобы действительно освободить место, которое занимали удаленные ISO-образы.

VictorSTS

Guest

29.12.2022 15:57:00

Я знаю… Вообще, я жутко переживаю из-за свободного места на диске, но на этот раз случился идеальный шторм, и менее чем за 10 минут создалось около 300 ГБ. В общем, дело не в том, что диск заполнился, я прекрасно знаю, что произошло, а в том, что Proxmox стал не отвечающим даже после освобождения места. Fstrim включен везде, и он работает как положено в нормальном режиме. Когда я удалил ISO-файлы, свободное место было показано и в `zfs list`, и в `zpool list -v`, и я мог создавать файлы (использовал `dd` для создания пары файлов по 100 МБ). Может быть, это какой-то особый случай, когда ожидающие I/O никогда не восстанавливаются... если это вообще возможно.

oktay

Guest

30.03.2025 19:36:00

Сегодня со мной это произошло на одном узле. Proxmox, похоже, приостановил все ВМ, видимо, чтобы защитить их, что было неплохо, поскольку все они успешно перезапустились после очистки диска. Одна вещь, которая вызвала много проблем, заключалась в том, что, оказывается, /etc/pve — это база данных SQLite, смонтированная через FUSE, из-за чего /etc/pve стал доступен только для чтения, когда диск заполнился. Сам файл, к слову, был в порядке, не поврежден. После нескольких неудачных попыток мне тоже удалось это исправить. В hindsight, думаю, очистка диска для освобождения места, а затем перезапуск pvescheduler решила бы проблему с монтированием FUSE. Попробовать `umount /etc/pve` можно, а можно и не стоит. Затем остается дело за возобновлением работы ВМ. Оказывается, и на одиночных узлах используются какие-то вещи, связанные с кластером.

alexskysilk Guest	#5 0 30.03.2025 22:00:00 Поищи процессы в состоянии необрывного сна, например, с помощью `ps -eo ppid,pid,user,stat,pcpu,comm,wchan:32 \| grep " D"`. Выложи вывод, если нужна дополнительная помощь в устранении неполадок.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры