Вот несколько подсказок для тех, кто отлаживает случайные перезагрузки в Proxmox 8.3.1 или более поздних версиях. tl;dr; Если у вас происходят случайные непредсказуемые перезагрузки на Proxmox-сервере, попробуйте ВЫКЛЮЧИТЬ (не оставляйте в режиме Auto) ваш Core Watchdog Timer в BIOS. Я собрал Proxmox 8.3-сервер со следующими спецификациями:
CPU: AMD Ryzen 9 7950X3D 4.2 GHz 16-Core Processor
CPU Cooler: Noctua NH-D15 82.5 CFM CPU Cooler
Motherboard: ASRock X670E Taichi Carrara EATX AM5 Motherboard
Memory: 2 x G.Skill Trident Z5 Neo 64 GB (2 x 32 GB) DDR5-6000 CL30 Memory
Storage: 4 x Samsung 990 Pro 4 TB M.2-2280 PCIe 4.0 X4 NVME Solid State Drive
Storage: 4 x Toshiba MG10 512e 20 TB 3.5" 7200 RPM Internal Hard Drive
Video Card: Gigabyte GAMING OC GeForce RTX 4090 24 GB Video Card
Case: Corsair 7000D AIRFLOW Full-Tower ATX PC Case — Black
Power Supply: be quiet! Dark Power Pro 13 1600 W 80+ Titanium Certified Fully Modular ATX Power Supply
Этот конкретный сервер, после обновления до последней версии Proxmox с использованием GPU passthrough, как описано здесь: , начал перезагружаться случайным образом под нагрузкой, без каких-либо объяснений. Ничего в системном журнале Proxmox не указывало на предстоящую жесткую перезагрузку; она просто происходила, и система сразу же возвращалась в строй и пыталась восстановить файловую систему. Сначала я подозревал GPU passthrough видеокарты, который, кажется, является причиной множества сбоев для многих пользователей. Но сбои повторялись даже без использования видеокарты. После довольно большого количества поисков и тестов выяснилось, что для этой конкретной материнской платы (ASRock X670E Taichi Carrarra) существует настройка Advanced\AMD CBS\CPU Common Options\Core Watchdog\Core Watchdog Timer Enable в BIOS, чья настройка по умолчанию (Auto) как будто включает Core Watchdog Timer, что приводит к внезапным перезагрузкам через непредсказуемые интервалы на Debian и, следовательно, на Proxmox. Решением стало установить настройку Core Watchdog Timer Enable в положение Disable. В моем случае это стабилизировало систему под нагрузкой. Из-за подобных проблем я теперь использую zfs только в качестве корневой файловой системы для Proxmox. Zfs отлично справлялся со всеми этими случайными перезагрузками и ни разу не повредил данные файловой системы. В заключение хочу выразить стыд ASRock за внедрение этой "подводной ловушки" в настройки BIOS для своих материнских плат X670E. Также предупреждаю всех производителей материнских плат против включения таймеров наблюдения за ядром по умолчанию в своих BIOS.
CPU: AMD Ryzen 9 7950X3D 4.2 GHz 16-Core Processor
CPU Cooler: Noctua NH-D15 82.5 CFM CPU Cooler
Motherboard: ASRock X670E Taichi Carrara EATX AM5 Motherboard
Memory: 2 x G.Skill Trident Z5 Neo 64 GB (2 x 32 GB) DDR5-6000 CL30 Memory
Storage: 4 x Samsung 990 Pro 4 TB M.2-2280 PCIe 4.0 X4 NVME Solid State Drive
Storage: 4 x Toshiba MG10 512e 20 TB 3.5" 7200 RPM Internal Hard Drive
Video Card: Gigabyte GAMING OC GeForce RTX 4090 24 GB Video Card
Case: Corsair 7000D AIRFLOW Full-Tower ATX PC Case — Black
Power Supply: be quiet! Dark Power Pro 13 1600 W 80+ Titanium Certified Fully Modular ATX Power Supply
Этот конкретный сервер, после обновления до последней версии Proxmox с использованием GPU passthrough, как описано здесь: , начал перезагружаться случайным образом под нагрузкой, без каких-либо объяснений. Ничего в системном журнале Proxmox не указывало на предстоящую жесткую перезагрузку; она просто происходила, и система сразу же возвращалась в строй и пыталась восстановить файловую систему. Сначала я подозревал GPU passthrough видеокарты, который, кажется, является причиной множества сбоев для многих пользователей. Но сбои повторялись даже без использования видеокарты. После довольно большого количества поисков и тестов выяснилось, что для этой конкретной материнской платы (ASRock X670E Taichi Carrarra) существует настройка Advanced\AMD CBS\CPU Common Options\Core Watchdog\Core Watchdog Timer Enable в BIOS, чья настройка по умолчанию (Auto) как будто включает Core Watchdog Timer, что приводит к внезапным перезагрузкам через непредсказуемые интервалы на Debian и, следовательно, на Proxmox. Решением стало установить настройку Core Watchdog Timer Enable в положение Disable. В моем случае это стабилизировало систему под нагрузкой. Из-за подобных проблем я теперь использую zfs только в качестве корневой файловой системы для Proxmox. Zfs отлично справлялся со всеми этими случайными перезагрузками и ни разу не повредил данные файловой системы. В заключение хочу выразить стыд ASRock за внедрение этой "подводной ловушки" в настройки BIOS для своих материнских плат X670E. Также предупреждаю всех производителей материнских плат против включения таймеров наблюдения за ядром по умолчанию в своих BIOS.
