Привет, команда!
В конце 2023 года несколько пользователей сообщили о необъяснимой потере доступа к NVMe SSD, особенно Samsung 990 Pro NVMe SSD, которые есть у меня. Один или несколько NVMe SSD внезапно отключались и переставали обнаруживаться Linux. Сервер приходилось выключать и снова включать, чтобы обнаружить NVMe SSD; простой перезагрузки было недостаточно. Решением было добавить `nvme_core.default_ps_max_latency_us=0` в GRUB следующим образом: GRUB_CMDLINE_LINUX_DEFAULT="quiet nvme_core.default_ps_max_latency_us=0". Затем обновите GRUB с помощью `update-grub` перед перезагрузкой. После этого регулярные обновления ядра Linux в 2024 году полностью решили проблему, без сообщений о дефектах в течение года. Однако в начале 2025 года проблема внезапно повторилась, вероятно, из-за последних обновлений PVE Community Edition. Это не аппаратная ошибка, поскольку проблема возникает случайным образом на разных серверах с различными NVMe SSD. Чем больше NVMe SSD используются (например, для резервного копирования), тем чаще возникает сбой. Я убедился, что параметр GRUB все еще действует: `cat /sys/module/nvme_core/parameters/default_ps_max_latency_us 0`.
Вот версия ядра, которую я использую: Linux mars 6.8.12-8-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-8 (2025-01-24T12:32Z) x86_64 GNU/Linux.
Все эти NVMe SSD настроены как OSD BlueStore (Ceph). Когда происходит сбой, Ceph сообщает, что "демоны недавно аварийно завершили работу". Я думаю, что это следствие, а не причина. Первый сбой произошел в конце февраля, через несколько дней после обновления ядра.
Я один сталкиваюсь с этой проблемой снова? Хотя я не совсем уверен, что это исключительно проблема ядра, какой был бы самый разумный способ отката ядра? Какая версия ядра была бы наиболее надежной? Буду рад любым предложениям.
С уважением,
В конце 2023 года несколько пользователей сообщили о необъяснимой потере доступа к NVMe SSD, особенно Samsung 990 Pro NVMe SSD, которые есть у меня. Один или несколько NVMe SSD внезапно отключались и переставали обнаруживаться Linux. Сервер приходилось выключать и снова включать, чтобы обнаружить NVMe SSD; простой перезагрузки было недостаточно. Решением было добавить `nvme_core.default_ps_max_latency_us=0` в GRUB следующим образом: GRUB_CMDLINE_LINUX_DEFAULT="quiet nvme_core.default_ps_max_latency_us=0". Затем обновите GRUB с помощью `update-grub` перед перезагрузкой. После этого регулярные обновления ядра Linux в 2024 году полностью решили проблему, без сообщений о дефектах в течение года. Однако в начале 2025 года проблема внезапно повторилась, вероятно, из-за последних обновлений PVE Community Edition. Это не аппаратная ошибка, поскольку проблема возникает случайным образом на разных серверах с различными NVMe SSD. Чем больше NVMe SSD используются (например, для резервного копирования), тем чаще возникает сбой. Я убедился, что параметр GRUB все еще действует: `cat /sys/module/nvme_core/parameters/default_ps_max_latency_us 0`.
Вот версия ядра, которую я использую: Linux mars 6.8.12-8-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-8 (2025-01-24T12:32Z) x86_64 GNU/Linux.
Все эти NVMe SSD настроены как OSD BlueStore (Ceph). Когда происходит сбой, Ceph сообщает, что "демоны недавно аварийно завершили работу". Я думаю, что это следствие, а не причина. Первый сбой произошел в конце февраля, через несколько дней после обновления ядра.
Я один сталкиваюсь с этой проблемой снова? Хотя я не совсем уверен, что это исключительно проблема ядра, какой был бы самый разумный способ отката ядра? Какая версия ядра была бы наиболее надежной? Буду рад любым предложениям.
С уважением,

