+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Мягкие / прерываемые крепления для целевых устройств резервного копирования, Proxmox Виртуальная Среда

ozdjh

Guest

15.01.2020 13:11:00

Во время тестирования этой ночью, когда отправляли резервные копии на объем CIFS, возникла проблема с samba на целевом сервере (он использовал более 80 ГБ оперативной памяти и SWAP, из-за чего сервер вышел из строя). Недоступность сервера CIFS сказалась на резервных копиях, которые выполнялись. Я ожидал, что задачи резервного копирования провалятся, но этого не произошло. Они просто зависли. Попытка остановить резервные копии через интерфейс не сработала. Также попытки убить процесс vzdump на узлах pve не увенчались успехом. Всё было заблокировано из-за объемов CIFS. Оглядываясь на логи, я увидел множество сообщений о зависших задачах и т.д. Перезапуск smbd и даже перезагрузка сервера CIFS не помогли решить проблему. В конечном итоге нам пришлось остановить ВМ и перезагрузить узлы. Но даже перезагрузка не завершалась, так как система всё ещё висела, пытаясь отсоединить объем CIFS. Нам пришлось сделать жесткий сброс узла pve, чтобы вернуть его в рабочее состояние. Жесткая перезагрузка только из-за утечки памяти в Samba на сервере, куда мы отправляем резервные копии. Это нормальное поведение или есть что-то не так с нашей настройкой? Я думал, что монтирования CIFS по умолчанию являются мягкими или прерываемыми. Разве все монтирования для объемов, таких как CIFS и NFS, не должны быть мягкими или, по крайней мере, прерываемыми, на случай если что-то пойдет не так? Сильно ударить по узлу только из-за проблем файлового сервера — это довольно радикально для производственной среды. Спасибо, Дэвид.

Sprinterfreak

Guest

04.09.2020 20:03:00

У меня такая же проблема с моими лабораторными серверами, когда я пытаюсь делать резервные копии через ненадежные соединения. Если CIFS замечает колебания, ядро полностью зависает из-за заблокированного модуля CIFS. Если оставить сервер в покое на некоторое время, он даже перестает реагировать на сетевой трафик. CIFS полностью блокирует ядро. Единственный способ восстановить работу — перезагрузить хост через IPMI или просто вытащить провод из розетки. Похоже, CIFS реализован в ядре, что в этом случае оборачивается настоящей проблемой. SNMPd изначально не отвечает из-за тайм-аутов, когда он пытается собрать информацию о точках монтирования. То же самое касается REST-вызовов, связанных с хранилищем, на веб-интерфейсе. Таким образом, NFS и CIFS подходят только для локальных сетей между серверами HRLE. Оба приводят к серьезному зависанию всего при потере соединения. Кстати, завершение процессов совсем не помогает, `unmount -l -a -t cifs` тоже не срабатывает. Зависшие процессы продолжают блокировать ядро. Единственное найденное решение — перезагрузка и надеяться, что это не произойдет слишком часто. Меня действительно беспокоит, что не осталось протокола, который позволял бы мне отправлять резервные копии на удаленную цель без риска полного зависания хоста при сбоях соединения. Вот такой результат с точки зрения syslog. Сижу и наблюдаю, как CIFS разрывает работащее ядро.

RudyBzh

Guest

04.09.2020 21:04:00

Тут такая же ситуация... https://forum.proxmox.com/threads/backup-vzdump-fails-and-hangs-forever.75372/ У меня cifs находится на сервере в локальной сети, так что, похоже, это не проблема с подключением. Ищя на форуме, я нашёл много подобных проблем без решения (по крайней мере, я не нашёл). Почему это зависает и, что ещё хуже, почему не возникает таймаута, чтобы избежать необходимости жесткой перезагрузки всего Proxmox — вот на это у меня вопрос...

Sprinterfreak Guest	#4 0 12.09.2020 22:40:00 Это явно не только проблема Proxmox, но и общая проблема дизайна реализации cifs и nfs. https://stackoverflow.com/questions...ed-with-cifs-hangs-when-disconnected/19101647

niziak

Guest

28.12.2020 13:19:00

Это не проблема Proxmox, а известная проблема NFS/CIFS в Linux. Я помню подобные проблемы с ядра 2.0, и все они до сих пор существуют! Похоже, что использование CIFS в производстве должно быть "запрещено". В моем случае удаленное хранилище CIFS заполняется, и проблемы начинают накапливаться. Каждая команда на хосте, которая касается точек монтирования, зависает. Неподключенные монтирования CIFS на хостах также ломают LXC-гостей! Простая команда df на хосте или внутри LXC (который не должен видеть монтирования хоста) тоже зависает. На PVE-хостах я нашел более 900 kworkers: Код: root 4030552 0.0 0.0 0 0 ? I 04:47 0:00 [kworker/2:102-cifsiod] root 4030553 0.0 0.0 0 0 ? I 04:47 0:00 [kworker/2:107-cifsiod] root 4030554 0.0 0.0 0 0 ? I 04:47 0:00 [kworker/2:108-cifsiod] root 4030555 0.0 0.0 0 0 ? I 04:47 0:00 [kworker/2:109-cifsiod] В качестве обходного решения я временно отключил хранилище CIFS в веб GUI PVE и ждал, пока все таймауты CIFS истекут. Через некоторое время все зависшие kworkers исчезли. Пожалуйста, подумайте о том, чтобы изменить плагин хранилища CIFS, чтобы монтировать CIFS с параметром echo_interval=1 (по умолчанию он не установлен, так что значение составляет 60).

His.Dudeness Guest	#6 0 14.01.2022 07:23:00 Привет! Есть ли способ установить echo_interval=1 вручную в PVE? Спасибо, Майкл.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры