+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Виртуальные машины внезапно сходят с ума., Proxmox Виртуальная Среда

cosmicat84

Guest

07.06.2025 16:13:00

Всем привет! Это мой первый пост. У меня есть кластер PVE из 3 нод, который работает отлично, за одним единственным исключением: ВМ иногда начинают странно себя вести. Что я имею в виду под "странно"? - Потеря IP-адреса (и сетевого трафика) - Прекращается любая активность на дисках - Загрузка CPU доходит до 25% и остается на этом значении (см. вложение).

Потенциальные причины:

* PVE-хосты ничего не пишут в логи относительно этого события.
* В логах самой ВМ тоже нет информации о событии, потому что, по сути, похоже, что хранилище было отсоединено от машины, так что нет возможности что-либо записать.
* Это происходит с любым бэкендом, который я пробовал (Ceph, ZFS, локальный LVM на EXT4).
* Это абсолютно рандомно: может произойти дважды за неделю, а может раз в 3 месяца.
* Все затронутые ВМ основаны на Debian 12 (различные версии, это происходит с 6+ месяцев, в последний раз на этой неделе, и я обновляю ОС примерно раз в месяц).
* Я начал кластер, кажется, с 8.2.x (возможно, даже 8.1.x), но обновление до более новых версий никогда не помогало, сейчас я на 8.3.2.
* В кластере используются смешанные ноды: #1 EPYC Rome, #2 XEON Scalable Gen. 2, #3 Xeon 22xx, и это происходит с ВМ на всех них...

Мой вопрос — это не столько просьба помочь разобраться в этом, сколько общий вопрос, чтобы понять, является ли это чем-то известным? Происходит ли это только у меня, или другие сталкивались с подобной проблемой? Потому что, на мой взгляд, это достаточно ощутимая проблема…

Maximiliano

Guest

10.06.2025 11:53:00

Привет! Это не известная проблема. По первым признакам похоже, что в одной сети может быть два хоста с одинаковыми IP или MAC-адресами. Возможно, активность диска прекращается из-за потери сетевого подключения у VM? Какую конкретно команду ты используешь для обновления машины? Как именно ты читаешь системные логи?

gfngfn256

Guest

10.06.2025 13:32:00

Приветствую! Честно говоря, я минут двадцать думал над твоей проблемой и не смог найти ни одной очевидной причины такого поведения. Может, дополнительная информация поможет? Используешь ли ты HA в кластере? Как организована общая сетевая связность между нодами? Во время инцидента ноды ведут себя нормально, имеют сетевую доступность и т.д.? Во время инцидента другие независимые устройства в сети работают как обычно? Как ты восстанавливаешься после инцидента? Судя по графикам, перезагрузки не было. Судя по графикам, инцидент длился около 3 дней — как это прошло незамеченным? Какой сценарий использования/нагрузка должна идти в этих VM? Когда эти ноды последний раз перезагружались? Сколько всего было инцидентов? Все ли аппаратное обеспечение было тщательно проверено: RAM, диски, температуры, сетевые карты, коммутаторы и т.д.? Я в замешательстве, почему ты считаешь эту проблему настолько незначительной, что не запросил помощи. Если ты не иронизируешь, я снова в замешательстве.

cosmicat84

Guest

15.06.2025 18:11:00

Привет, Максимилиан!

Все ВМ имеют фиксированные IP-адреса. У меня уже возникали проблемы с дублированием IP-адресов — обычно это влияет на сетевое подключение, но не ломает машину полностью. Я обычно обновляю Debian с помощью `apt update` и `apt dist-upgrade`.

Что касается логов, я использую `journalctl` (-f, -k и т.д.) и `dmesg -T`.

Спасибо.

Да, это очень странная проблема. Вы используете HA на кластере? Нет.

Как в целом сетевое подключение между узлами? У всех серверов Intel X550, подключенные по 10G через Ubiquiti USW-Flex-XG. Нет выделенной сети управления, все общее. Во время инцидента узлы ведут себя нормально, имеют доступ к сети и т.д.? Да, все хорошо на уровне хоста и на других ВМ, работающих на хосте(ах).

Во время инцидента другие независимые устройства в сети ведут себя нормально? Да, других проблем не наблюдается.

Как вы восстанавливаетесь после инцидента? Судя по вашим графикам, перезагрузка не нужна. Мне приходится жестко останавливать ВМ (Shutdown --> Stop и затем Start).

Судя по вашим графикам, инцидент длился около 3 дней, как это осталось незамеченным? Хаха, это моя домашняя лаборатория, и у меня была довольно напряженная неделя на работе, так что времени на остальное не было (и да, у меня отсутствует центральная система мониторинга и оповещения, это в списке дел).

Какой сценарий использования/рабочая нагрузка должны выполняться на этих ВМ? Из последних двух, которые аварийно завершились, один работает GitLab, а другой Portainer.

Когда эти узлы были последний раз перезагружены? 30 дней назад на сегодняшний день.

Сколько всего инцидентов было? Я бы сказал, это произошло около 10 раз до сих пор.

Все ли оборудование было тщательно проверено: ОЗУ, Диски, Температуры, Сетевые адаптеры, Коммутаторы и т.д.? Температуры под контролем (у меня есть кондиционер), проблем с оборудованием не сообщалось ни на уровне IPMI, ни на уровне ОС.

В прошлом я мог как-то спровоцировать проблему (она, кажется, происходит в течение 24 часа) после живой миграции ВМ с общего хранилища на локальное и обратно. Я буду вести логи хоста и ВМ/dmesg в режиме follow и постараюсь "поймать" одну "вживую".

cosmicat84

Guest

15.06.2025 18:22:00

Забыл про эти два. Знаете, прежде чем серьезно углубляться в проблему, я хотел убедиться, что не наткнулся на что-то известное. Ну, знаете, типа "а, да, нужно просто отключить/включить этот модуль ядра" или "нужно просто убедиться, что этот пакет установлен, потому что так надо". Мое "это довольно существенная проблема, я думаю" не было сарказмом, а просто чтобы подчеркнуть, что если это происходит у других, то это стоит знать. Тем более, я ничего экзотического не делал, просто установил Proxmox, настроил обычные вещи и создал->установил ВМ.

gfngfn256 Guest	#6 0 15.06.2025 18:31:00 В общем, эти вещи не протестированы. Минимум, запусти MemTest для оперативной памяти и какой-нибудь тест диска на физическом уровне. Может, предоставь вывод <vmid>.conf для затронутой ВМ – возможно, кто-то сможет пролить свет на эту проблему.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры