Привет всем!
Примерно год назад мой экземпляр Proxmox VE 7 начал регулярно зависать без видимой причины, и я не смог решить эту проблему, несмотря на тщательную отладку.
**Проблема**
Когда система зависает, происходит следующее:
* Гипервизор и все ВМ становятся недоступными по сети.
* Если подключена видеокарта, виртуальная консоль зависает, а курсор TTY перестает мигать.
* Машина становится полностью не отвечающей, требуя принудительной перезагрузки.
Зависание происходит через несколько часов, иногда дней, но без какого-либо различимого шаблона или события, которое его вызывает.
**Что я пробовал до сих пор**
Вот список всего, что я сделал для диагностики и решения проблемы:
* Обновился до Proxmox VE 8 и убедился, что все компоненты обновлены до последних стабильных версий.
* Обновил прошивку материнской платы до последней не-бета версии.
* Установил kdump для отлова панических сбоев ядра, но никаких свидетельств панических сбоев ядра не было зафиксировано.
* Запустил MemTest86 на неделю — ошибок не обнаружено.
* Тестирование процессора: загрузился в среду live Linux и запускал инструменты для тестирования стрессом (mprime) в течение недели без сбоев или перегрева.
* Проверка дисков: проверил состояние всех дисков через данные S.M.A.R.T. — всё в порядке.
* Отключил все SATA-диски, кроме того, на котором работает Proxmox.
* Переустановил Proxmox VE на новый диск.
* Заменил или удалил оба NVMe-диска.
* Перенес машину в другое место в доме, чтобы исключить электрические проблемы.
**Наблюдения**
Проблема возникает даже при чистой установке Proxmox без ВМ или контейнеров, что исключает любую конкретную ВМ как причину. Замена аппаратных компонентов кажется немного влияющей на частоту зависаний, но не решает проблему. Ошибки аппаратного обеспечения процессора появлялись в системных журналах за месяцы до и после начала зависаний, но они больше не появлялись в течение 50+ загрузок.
**Технические характеристики**
Вот основные компоненты, которые я не мог заменить:
* Процессор: AMD Ryzen 5950x
* ОЗУ: Kingston Fury 2400MHz DDR4 (4x32GB)
* Материнская плата: Asrock B550 Taichi ( specs )
Я достиг тупика и был бы очень благодарен за любые советы или предложения по дальнейшей отладке. Что я мог упустить, или есть ли что-то еще, что мне следует попробовать?
Заранее благодарю за ваше время и поддержку!
Примерно год назад мой экземпляр Proxmox VE 7 начал регулярно зависать без видимой причины, и я не смог решить эту проблему, несмотря на тщательную отладку.
**Проблема**
Когда система зависает, происходит следующее:
* Гипервизор и все ВМ становятся недоступными по сети.
* Если подключена видеокарта, виртуальная консоль зависает, а курсор TTY перестает мигать.
* Машина становится полностью не отвечающей, требуя принудительной перезагрузки.
Зависание происходит через несколько часов, иногда дней, но без какого-либо различимого шаблона или события, которое его вызывает.
**Что я пробовал до сих пор**
Вот список всего, что я сделал для диагностики и решения проблемы:
* Обновился до Proxmox VE 8 и убедился, что все компоненты обновлены до последних стабильных версий.
* Обновил прошивку материнской платы до последней не-бета версии.
* Установил kdump для отлова панических сбоев ядра, но никаких свидетельств панических сбоев ядра не было зафиксировано.
* Запустил MemTest86 на неделю — ошибок не обнаружено.
* Тестирование процессора: загрузился в среду live Linux и запускал инструменты для тестирования стрессом (mprime) в течение недели без сбоев или перегрева.
* Проверка дисков: проверил состояние всех дисков через данные S.M.A.R.T. — всё в порядке.
* Отключил все SATA-диски, кроме того, на котором работает Proxmox.
* Переустановил Proxmox VE на новый диск.
* Заменил или удалил оба NVMe-диска.
* Перенес машину в другое место в доме, чтобы исключить электрические проблемы.
**Наблюдения**
Проблема возникает даже при чистой установке Proxmox без ВМ или контейнеров, что исключает любую конкретную ВМ как причину. Замена аппаратных компонентов кажется немного влияющей на частоту зависаний, но не решает проблему. Ошибки аппаратного обеспечения процессора появлялись в системных журналах за месяцы до и после начала зависаний, но они больше не появлялись в течение 50+ загрузок.
**Технические характеристики**
Вот основные компоненты, которые я не мог заменить:
* Процессор: AMD Ryzen 5950x
* ОЗУ: Kingston Fury 2400MHz DDR4 (4x32GB)
* Материнская плата: Asrock B550 Taichi ( specs )
Я достиг тупика и был бы очень благодарен за любые советы или предложения по дальнейшей отладке. Что я мог упустить, или есть ли что-то еще, что мне следует попробовать?
Заранее благодарю за ваше время и поддержку!
