Всем привет. У меня постоянно происходят раздражающие случайные перезагрузки сервера Proxmox, и я не могу понять причину. В логах нет процесса выключения, только то, что выглядит как прямой сброс питания, а затем, благодаря настройке BIOS на возврат в состояние включено при восстановлении питания, сервер снова включается.
Вот характеристики:
Материнская плата: asus prime b760m a d4 csm (недавно заменена, проблема сохраняется)
Процессор: i5-12500T (куплен б/у)
Оперативная память: 128 GB (проверена Memtest, ошибок нет, и без включенного XMP)
Хранилище: 2× Intel DC SSD (ZFS зеркало для загрузки/VM) + 6× HDD для медиа
HBA: Fujitsu D3307-A12
Сетевые карты: 2× i226v (добавил другую сетевую карту примерно когда начались перезагрузки, но это может быть совпадение или ошибка памяти).
Блок питания: Fractal Ion Gold 750W, собираюсь заменить, на всякий случай.
Охлаждение: Максимально раскрутил все вентиляторы, плюс PCIe двухвентиляторную карту для охлаждения HBA и сетевой карты.
Сервер подключен к ИБП вместе с двумя другими машинами, у которых никаких проблем нет (нагрузка на ИБП ~20%). Перезагрузки происходят спорадически — иногда несколько раз в день, а иногда через недели. Я просмотрел журналы и не нашел ошибок или аномального использования/температуры процессора/ОЗУ перед этими событиями.
Пока что я:
Проверил всю оперативную память Memtest (ошибок нет).
Заменил материнскую плату целиком.
Проверил журналы на использование процессора, температуру и т.д.
Добавил дополнительное охлаждение с помощью PCIe вентиляторной карты.
Замена блока питания в следующем шаге.
Установил настройки BIOS материнской платы по умолчанию, отключил C-состояния.
Возможно ли, что такие настройки, как PCIe ASPM, вызывают проблемы? Ничего не исправило проблему окончательно.
Сталкивался ли кто-нибудь здесь со случайными перезагрузками? Есть ли какие-нибудь предложения по дальнейшей отладке или какие-нибудь странные однотипные проблемы, которые я могу не замечать?
Буду признателен за любые советы.
Заранее спасибо!
Вот характеристики:
Материнская плата: asus prime b760m a d4 csm (недавно заменена, проблема сохраняется)
Процессор: i5-12500T (куплен б/у)
Оперативная память: 128 GB (проверена Memtest, ошибок нет, и без включенного XMP)
Хранилище: 2× Intel DC SSD (ZFS зеркало для загрузки/VM) + 6× HDD для медиа
HBA: Fujitsu D3307-A12
Сетевые карты: 2× i226v (добавил другую сетевую карту примерно когда начались перезагрузки, но это может быть совпадение или ошибка памяти).
Блок питания: Fractal Ion Gold 750W, собираюсь заменить, на всякий случай.
Охлаждение: Максимально раскрутил все вентиляторы, плюс PCIe двухвентиляторную карту для охлаждения HBA и сетевой карты.
Сервер подключен к ИБП вместе с двумя другими машинами, у которых никаких проблем нет (нагрузка на ИБП ~20%). Перезагрузки происходят спорадически — иногда несколько раз в день, а иногда через недели. Я просмотрел журналы и не нашел ошибок или аномального использования/температуры процессора/ОЗУ перед этими событиями.
Пока что я:
Проверил всю оперативную память Memtest (ошибок нет).
Заменил материнскую плату целиком.
Проверил журналы на использование процессора, температуру и т.д.
Добавил дополнительное охлаждение с помощью PCIe вентиляторной карты.
Замена блока питания в следующем шаге.
Установил настройки BIOS материнской платы по умолчанию, отключил C-состояния.
Возможно ли, что такие настройки, как PCIe ASPM, вызывают проблемы? Ничего не исправило проблему окончательно.
Сталкивался ли кто-нибудь здесь со случайными перезагрузками? Есть ли какие-нибудь предложения по дальнейшей отладке или какие-нибудь странные однотипные проблемы, которые я могу не замечать?
Буду признателен за любые советы.
Заранее спасибо!
