Привет! Я уже несколько месяцев мучаюсь с одним из моих серверов. Похоже, есть аппаратный конфликт, связанный с SATA. Мой ZFS RAIDZ (4x 10TB HDD в 2 зеркалах) заявил, что один диск вышел из строя. Я его заменил, и вскоре после этого, ещё 2 диска, кажется, тоже выходят из строя (по одному в каждом из зеркал). Я предположил, что это не проблема дисков, и начал искать другие проблемы. 
В ближайшие недели я заменил:
1) Все SATA-кабели
2) БП*
3) Материнскую плату, включая корпус
4) CPU
*Стоит отметить, что, поскольку замена БП не помогла, я восстановил оригинальный БП. Так что у меня теперь практически новый сервер. Ничего не помогает.
Вот ещё что я пробовал:
1) Я прогнал тест RAM на 4 часа. Ошибок не обнаружено.
2) Загрузился с live-USB: Linux Mint. Те же проблемы.
3) Обновил Proxmox до 8.2.4.
4) Попробовал систематически все доступные ядра Linux на сервере.
5) Запустил smartmontools на всех HDD. Некоторые короткие тесты и все длинные тесты дали "Aborted by the host".
6) Подключил все HDD к рабочей станции. Провел длинные тесты smartmontools (где-то 8-14 часов). Ошибок не обнаружено, все здоровы.
7) Запустил много, много scrubs на ZFS на сервере. Сначала находились несогласованные данные и их устраняли. Сейчас все данные удалены. Даже если это маловероятно, я тогда предположил, что несколько HDD на самом деле сломаны. Поэтому я купил ещё 2. Включая старый HDD, который у меня валялся, у меня теперь 7x10TB. Я подключал их по одному к серверу, создавая несколько часов нагрузки с помощью инструмента "fio". 4 диска не указали никаких ошибок. Я использовал их, создал ZFSz-Raid и начал восстановление из резервных копий. Через 2 дня, пока всё ещё восстанавливал, я получил ошибку zpool- "disk unavailable". Я удалил проблемный диск, создал другой тип Raid с оставшимися 3 HDD и начал восстановление VM's снова. Вскоре после этого я получил ошибку о медленной реакции SATA. Процесс восстановления был отменён, но zpool кажется здоровым.
Это всего лишь краткое изложение того, что произошло. Спасибо, что прочитали, ещё больше спасибо, если сможете предложить решение.

В ближайшие недели я заменил:
1) Все SATA-кабели
2) БП*
3) Материнскую плату, включая корпус
4) CPU
*Стоит отметить, что, поскольку замена БП не помогла, я восстановил оригинальный БП. Так что у меня теперь практически новый сервер. Ничего не помогает.
Вот ещё что я пробовал:
1) Я прогнал тест RAM на 4 часа. Ошибок не обнаружено.
2) Загрузился с live-USB: Linux Mint. Те же проблемы.
3) Обновил Proxmox до 8.2.4.
4) Попробовал систематически все доступные ядра Linux на сервере.
5) Запустил smartmontools на всех HDD. Некоторые короткие тесты и все длинные тесты дали "Aborted by the host".
6) Подключил все HDD к рабочей станции. Провел длинные тесты smartmontools (где-то 8-14 часов). Ошибок не обнаружено, все здоровы.
7) Запустил много, много scrubs на ZFS на сервере. Сначала находились несогласованные данные и их устраняли. Сейчас все данные удалены. Даже если это маловероятно, я тогда предположил, что несколько HDD на самом деле сломаны. Поэтому я купил ещё 2. Включая старый HDD, который у меня валялся, у меня теперь 7x10TB. Я подключал их по одному к серверу, создавая несколько часов нагрузки с помощью инструмента "fio". 4 диска не указали никаких ошибок. Я использовал их, создал ZFSz-Raid и начал восстановление из резервных копий. Через 2 дня, пока всё ещё восстанавливал, я получил ошибку zpool- "disk unavailable". Я удалил проблемный диск, создал другой тип Raid с оставшимися 3 HDD и начал восстановление VM's снова. Вскоре после этого я получил ошибку о медленной реакции SATA. Процесс восстановления был отменён, но zpool кажется здоровым.
Это всего лишь краткое изложение того, что произошло. Спасибо, что прочитали, ещё больше спасибо, если сможете предложить решение.
