Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Виртуальные машины внезапно сходят с ума.

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Виртуальные машины внезапно сходят с ума., Proxmox Виртуальная Среда
     
    cosmicat84
    Guest
    #1
    0
    07.06.2025 16:13:00
    Всем привет! Это мой первый пост. У меня есть кластер PVE из 3 нод, который работает отлично, за одним единственным исключением: ВМ иногда начинают странно себя вести. Что я имею в виду под "странно"? - Потеря IP-адреса (и сетевого трафика) - Прекращается любая активность на дисках - Загрузка CPU доходит до 25% и остается на этом значении (см. вложение).

    Потенциальные причины:

    *   PVE-хосты ничего не пишут в логи относительно этого события.
    *   В логах самой ВМ тоже нет информации о событии, потому что, по сути, похоже, что хранилище было отсоединено от машины, так что нет возможности что-либо записать.
    *   Это происходит с любым бэкендом, который я пробовал (Ceph, ZFS, локальный LVM на EXT4).
    *   Это абсолютно рандомно: может произойти дважды за неделю, а может раз в 3 месяца.
    *   Все затронутые ВМ основаны на Debian 12 (различные версии, это происходит с 6+ месяцев, в последний раз на этой неделе, и я обновляю ОС примерно раз в месяц).
    *   Я начал кластер, кажется, с 8.2.x (возможно, даже 8.1.x), но обновление до более новых версий никогда не помогало, сейчас я на 8.3.2.
    *   В кластере используются смешанные ноды: #1 EPYC Rome, #2 XEON Scalable Gen. 2, #3 Xeon 22xx, и это происходит с ВМ на всех них...

    Мой вопрос — это не столько просьба помочь разобраться в этом, сколько общий вопрос, чтобы понять, является ли это чем-то известным? Происходит ли это только у меня, или другие сталкивались с подобной проблемой? Потому что, на мой взгляд, это достаточно ощутимая проблема…
     
     
     
    Maximiliano
    Guest
    #2
    0
    10.06.2025 11:53:00
    Привет! Это не известная проблема. По первым признакам похоже, что в одной сети может быть два хоста с одинаковыми IP или MAC-адресами. Возможно, активность диска прекращается из-за потери сетевого подключения у VM? Какую конкретно команду ты используешь для обновления машины? Как именно ты читаешь системные логи?
     
     
     
    gfngfn256
    Guest
    #3
    0
    10.06.2025 13:32:00
    Приветствую! Честно говоря, я минут двадцать думал над твоей проблемой и не смог найти ни одной очевидной причины такого поведения. Может, дополнительная информация поможет? Используешь ли ты HA в кластере? Как организована общая сетевая связность между нодами? Во время инцидента ноды ведут себя нормально, имеют сетевую доступность и т.д.? Во время инцидента другие независимые устройства в сети работают как обычно? Как ты восстанавливаешься после инцидента? Судя по графикам, перезагрузки не было. Судя по графикам, инцидент длился около 3 дней — как это прошло незамеченным? Какой сценарий использования/нагрузка должна идти в этих VM? Когда эти ноды последний раз перезагружались? Сколько всего было инцидентов? Все ли аппаратное обеспечение было тщательно проверено: RAM, диски, температуры, сетевые карты, коммутаторы и т.д.? Я в замешательстве, почему ты считаешь эту проблему настолько незначительной, что не запросил помощи. Если ты не иронизируешь, я снова в замешательстве.
     
     
     
    cosmicat84
    Guest
    #4
    0
    15.06.2025 18:11:00
    Привет, Максимилиан!

    Все ВМ имеют фиксированные IP-адреса. У меня уже возникали проблемы с дублированием IP-адресов — обычно это влияет на сетевое подключение, но не ломает машину полностью. Я обычно обновляю Debian с помощью `apt update` и `apt dist-upgrade`.

    Что касается логов, я использую `journalctl` (-f, -k и т.д.) и `dmesg -T`.

    Спасибо.

    Да, это очень странная проблема. Вы используете HA на кластере? Нет.

    Как в целом сетевое подключение между узлами? У всех серверов Intel X550, подключенные по 10G через Ubiquiti USW-Flex-XG. Нет выделенной сети управления, все общее. Во время инцидента узлы ведут себя нормально, имеют доступ к сети и т.д.? Да, все хорошо на уровне хоста и на других ВМ, работающих на хосте(ах).

    Во время инцидента другие независимые устройства в сети ведут себя нормально? Да, других проблем не наблюдается.

    Как вы восстанавливаетесь после инцидента? Судя по вашим графикам, перезагрузка не нужна. Мне приходится жестко останавливать ВМ (Shutdown --> Stop и затем Start).

    Судя по вашим графикам, инцидент длился около 3 дней, как это осталось незамеченным? Хаха, это моя домашняя лаборатория, и у меня была довольно напряженная неделя на работе, так что времени на остальное не было (и да, у меня отсутствует центральная система мониторинга и оповещения, это в списке дел).

    Какой сценарий использования/рабочая нагрузка должны выполняться на этих ВМ? Из последних двух, которые аварийно завершились, один работает GitLab, а другой Portainer.

    Когда эти узлы были последний раз перезагружены? 30 дней назад на сегодняшний день.

    Сколько всего инцидентов было? Я бы сказал, это произошло около 10 раз до сих пор.

    Все ли оборудование было тщательно проверено: ОЗУ, Диски, Температуры, Сетевые адаптеры, Коммутаторы и т.д.? Температуры под контролем (у меня есть кондиционер), проблем с оборудованием не сообщалось ни на уровне IPMI, ни на уровне ОС.

    В прошлом я мог как-то спровоцировать проблему (она, кажется, происходит в течение 24 часа) после живой миграции ВМ с общего хранилища на локальное и обратно. Я буду вести логи хоста и ВМ/dmesg в режиме follow и постараюсь "поймать" одну "вживую".
     
     
     
    cosmicat84
    Guest
    #5
    0
    15.06.2025 18:22:00
    Забыл про эти два. Знаете, прежде чем серьезно углубляться в проблему, я хотел убедиться, что не наткнулся на что-то известное. Ну, знаете, типа "а, да, нужно просто отключить/включить этот модуль ядра" или "нужно просто убедиться, что этот пакет установлен, потому что так надо". Мое "это довольно существенная проблема, я думаю" не было сарказмом, а просто чтобы подчеркнуть, что если это происходит у других, то это стоит знать. Тем более, я ничего экзотического не делал, просто установил Proxmox, настроил обычные вещи и создал->установил ВМ.
     
     
     
    gfngfn256
    Guest
    #6
    0
    15.06.2025 18:31:00
    В общем, эти вещи не протестированы. Минимум, запусти MemTest для оперативной памяти и какой-нибудь тест диска на физическом уровне. Может, предоставь вывод <vmid>.conf для затронутой ВМ – возможно, кто-то сможет пролить свет на эту проблему.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры