Мой Proxmox VE 8.3 с последними обновлениями просто упал на zfs. Никаких сообщений в логах нет, только этот скриншот из IPMI-терминала. У меня два zfs пула: 1. rpool: raidz1 3 x 4TB NVME дисков 2. strorage: raidz1 8 x 12TB SATA жестких дисков Кстати, некоторые разделы NVME дисков используются как ZIL/LOGS и L2ARC кэши для storage пула. Какие-нибудь идеи или похожие случаи? Был один сбой и с предыдущим ядром тоже.
waltar
Guest
0
08.02.2025 18:13:00
Предполагаю, что твои NVMe — потребительские, и их убивают записи PVE и паритета.
s_peter
Guest
0
08.02.2025 22:07:00
Сбой ядра нельзя объяснить этим. У потребительских SSD-накопителей более короткий срок службы, но это программная ошибка в модуле ZFS. Пожалуйста, помогите мне понять, как этот сбой связан с потребительскими SSD.
Kingneutron
Guest
0
09.02.2025 21:14:00
У тебя есть висячая задача (более 120 секунд) на запись в zvol, это указывает на то, что ZFS испытывает проблемы с I/O к диску. > rpool: raidz1 3 x 4TB NVME диска > хранилище: raidz1 8 x 12TB SATA жестких дисков > В чем подвох, так сказать, в том, что некоторые разделы NVME дисков являются кэшами ZIL/LOGS и L2ARC для пула хранения. Ты построил это неправильно. Точка. Перепроектируй. RAIDZx не подходит для ВМ, а повторное использование разделов на дисках rpool для ZIL/LOG/L2ARC, вероятно, вызывает contention ввода-вывода и общую путаницу. [УЧЕБНОЕ ПОСОБИЕ] Тред 'FabU: Могу ли я использовать ZFS RaidZ для своих ВМ?' 1 января 2025 года Предположение: ты используешь не менее четырех идентичных устройств для этого. Зеркала, RaidZ, RaidZ2 возможны - теоретически. Технически правильный ответ: да, это работает. Но правильный ответ: нет, не делай этого! Рекомендация очень ясна: используй "зеркальные полосы". Это приводит к чему-то похожему на классический Raid10. (1) RaidZ1 (и Z2 тоже) дает тебе IOPS одного устройства, совершенно независимо от фактического количества физических устройств. Для подхода "четыре устройства, зеркалирование" это удваивается --> давая в два раза больше операций в секунду. Для файла большого размера... UdoB зеркала raidz vm хранилище zfs Ответов: 3 Форум: Proxmox VE: Установка и настройка --Что бы я рекомендовал: o Зеркала для rpool, и используй разные модели/производители SSD, чтобы они не выходили из строя одновременно (Подумай об EVO и Pro, ты хочешь, чтобы один из них быстрее износился). Сделай резервную копию ZFS rpool на 3-й NVME диске, если хочешь, или перепрофилируй его. o Зеркала для хранилища образов ВМ/LXC, чтобы интерактивная реакция была лучше o RAIDZ2 для хранилища большого объема / медиа, где интерактивная реакция не является проблемой. У тебя может быть "плохой опыт" с "raidz1 8x12TB SATA жестких дисков", когда начнут выходить из строя, особенно если это не диски NAS-класса. Жесткие диски для настольных компьютеров могут вызвать Странное Поведение с ZFS, когда они начинают выходить из строя; прошивка отличается от NAS. Шансы на отказ второго диска (особенно если он больше ~2-4TB) во время замены / resilver не в твою пользу. o Отдельные устройства для ZIL / SLOG (если тебе вообще это нужно, обычно нет, если только NFS / много синхронных записей), и L2ARC. Ты можешь попробовать переместить L2ARC, например, на 64GB PNY USB3 флешки. Недорогая, одноразовая, пул не рухнет в черную дыру при их отказе, легко заменяется, если у тебя есть запасные (купи 4-5 штук). L2ARC переживает перезагрузку, где ARC нет. o Если у тебя много маленьких файлов, и твои scrubs занимают больше ~24 часа, добавь зеркальное Специальное SSD устройство. Снова, разные модели, чтобы минимизировать вероятность двойного отказа. o Рассмотри возможность добавления горячей замены (hotspare) в пул, если у тебя есть дополнительные отсеки для дисков - с 12TB дисками тебе стоит иметь как минимум 1-2 запасных диска, если можешь себе позволить. Ожидание прибытия замены в почте — это нервное время, и надежда на то, что пул не изменит решение и не откажет еще раз. --Когда ты снова заработаешь, проверь индикатор износа в Nodes / (имя узла) / Диски. Если какие-либо превышают ~50-80%, проактивно замени их. С SSD/nvme, тебе нужен высокий рейтинг TBW, если ты не используешь диски корпоративного уровня.
s_peter
Guest
0
10.02.2025 19:42:00
Привет @Kingneutron, спасибо за ответ, ценю, что в нем много хороших моментов. >Сделал неправильно. Точка. Переделывай архитектуру. Кажется, ты оптимизируешь под свои нужды. Я полностью доволен своей настройкой, она создавалась для максимально возможного объема хранилища. Я не жалуюсь из-за производительности или потери данных, всё в порядке. Мой сервер – домашний, с нулевой нагрузкой. Когда произошел этот сбой, ни одной VM не работало. Я просто ищу стабильность в работе без сбоев программного обеспечения. Я старожил Linux, но новичок в Proxmox. После двух месяцев кажется, что репозиторий без подписки — это экспериментальная лаборатория, так как многие пользователи жаловались на похожие сбои. Или это просто неудачный период для Proxmox в сочетании с ядром 6.8 и zfs 2.2.7.
s_peter
Guest
0
15.03.2025 10:46:00
Похоже, переход на новое ядро Opt-in Linux 6.11: proxmox-kernel-6.11.11-1-pve-signed/stable,now 6.11.11-1 amd64 [установлено,автоматически] улучшил ситуацию. Последние пару недель не было ZFS-сбоев.