<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
	<channel>
		<title>Аспро: ЛайтШоп [тема: Хост жестких вылетов, PVE 8.1.4]</title>
		<link>http://proxmox.su</link>
		<description>Новое в теме Хост жестких вылетов, PVE 8.1.4 форума Proxmox Виртуальная Среда на сайте Аспро: ЛайтШоп [proxmox.su]</description>
		<language>ru</language>
		<docs>http://backend.userland.com/rss2</docs>
		<pubDate>Sat, 18 Apr 2026 14:28:19 +0300</pubDate>
		<item>
			<title>Хост жестких вылетов, PVE 8.1.4</title>
			<description><![CDATA[<b><a href="http://proxmox.su/forum/messages/forum63/message327368/78140-khost-zhestkikh-vyletov_-pve-8.1.4">Хост жестких вылетов, PVE 8.1.4</a></b> <i>Proxmox Виртуальная Среда</i> в форуме <a href="http://proxmox.su/forum/forum63/">Proxmox Виртуальная Среда</a>. <br />
			Приветствую всех. К сожалению, мой первый пост на форуме будет посвящен проблеме. Буду очень благодарен за любую помощь.<br /><br />Три недели назад я приобрел 2x CWWK/Topton Quad-NIC Intel 226v, Intel N100 Mini PC. Каждый из них оснащен следующими компонентами: Crucial P3 Plus 2000MB NVMe (ZFS), Crucial BX500 SATA SSD (диск загрузки, EXT4), Crucial DDR5-4800 SODIMM 32GB.<br /><br />Один из узлов не переживает полный 24-часовой цикл без сбоев, а другой работает безупречно в течение 80+ часов во время тестирования. Этап тестирования состоит из:<br /><br />* &nbsp; Кластер 2x CWWK/Topton Quad-NIC Intel 226v, Intel N100 Mini PC<br />* &nbsp; 1x Corosync-Qdevice для поддержания кворума<br />* &nbsp; 2x OPNsense VMs (по одной на узел), с локальным LVM хранилищем на диске загрузки, без одновременного запуска HA (Master/Slave через pfSync и CARP VIPs).<br />* &nbsp; 2x distinct Oracle Linux (по одной на узел), работающие на хранилище ZFS с репликацией (это для тестирования репликации и живой миграции), свежая конфигурация без установленных пакетов.<br /><br />Сетевая топология:<br /><br />```<br />Node1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Node2<br />eth0--------------------------------------------------WAN switch-------------------------------------------------eth0<br />eth1--------------------------------------------------LAN switch-------------------------------------------------eth1<br />eth2--------------------------------------------------------------------------------------------------------------------eth2 (прямое соединение, выделенный кластерный интерфейс/сеть)<br />eth3--------------------------------------------------------------------------------------------------------------------eth3 (прямое соединение, выделенный интерфейс pfSync, также вторичная кластерная ссылка)<br />```<br /><br />Поведение:<br /><br />1. &nbsp;Иногда узел полностью не падает, но через 6-18 часов узел, а также все виртуальные машины и хранилище отображаются с серым вопросительным знаком. GUI узла все еще доступен и отвечает, равно как и виртуальные машины и вывод консоли VM и узла. Перезапуск pvestatd решает эту проблему примерно на 5-7 минут, после чего снова появляется серый вопросительный знак. Перезагрузка узла через оболочку происходит не плавно, он становится неотзывчивым и должен быть выключен аппаратно.<br />2. &nbsp;Чаще всего затронутый узел просто падает без единого журнала `journalctl`. LED питания горит, LED NIC горит, нельзя пинговать, нет видео.<br />3. &nbsp;В течение 6-18 часов работы я вижу два повторяющихся журнала ошибок, полные фрагменты которых приведены ниже. Узел не всегда падает, когда начинают появляться эти журналы, но иногда это последние журналы, которые я вижу перед сбоем.<br /><br />**ОШИБКА № 1** - BUG: unable to handle page fault for address: (самый распространенный)<br /><br />**ОШИБКА № 2** - segfault(s)<br /><br />Полный вывод приведен в первом комментарии.<br /><br />Что я пробовал:<br /><br />1. &nbsp;Несколько ядер для proxmox 8.1.4, а именно 6.5.11-4, 6.5.11-7, 6.5.11.8<br />2. &nbsp;Запуск узла изолированно, вне кластера, без ZFS, 1x OPNsense VM, 1x Oracle Linux на NVMe диске (настроен как EXT4, локальный LVM), 1x Oracle Linux на SATA (настроен как EXT4, локальный LVM).<br />3. &nbsp;Перестановка компонентов (NVMe, SATA, RAM) между узлами, ошибка остается с хостом, а не мигрирует с компонентами.<br />4. &nbsp;Переустановка PVE, 5-6 раз.<br />5. &nbsp;Memtest на ночь с 1 из DIMMs, прошел без проблем.<br />6. &nbsp;Я знаю о следующем посте, но BIOS не предлагает никаких опций для On-Die ECC или подобных: [<noindex><a href="https://forum.proxmox.com/threads/pve-freezes-during-backup-job.134848/#post-613511%5D(&lt;#0" target="_blank" rel="nofollow" >https://forum.proxmox.com/threads/pve-freezes-during-backup-job.134848/#post-613511](&lt;#0</a></noindex>  >)<br /><br />Вывод `pveversion -v`:<br /><br />```<br />root@test:~# pveversion -v<br />proxmox-ve: 8.1.0 (running kernel: 6.5.11-8-pve)<br />pve-manager: 8.1.4 (running version: 8.1.4/ec5affc9e41f1d79)<br />proxmox-kernel-helper: 8.1.0<br />proxmox-kernel-6.5: 6.5.11-8<br />proxmox-kernel-6.5.11-8-pve-signed: 6.5.11-8<br />proxmox-kernel-6.5.11-4-pve-signed: 6.5.11-4<br />ceph-fuse: 17.2.7-pve1<br />corosync: 3.1.7-pve3<br />criu: 3.17.1-2<br />glusterfs-client: 10.3-5<br />ifupdown2: 3.2.0-1+pmx8<br />ksm-control-daemon: 1.4-1<br />libjs-extjs: 7.0.0-4<br />libknet1: 1.28-pve1<br />libproxmox-acme-perl: 1.5.0<br />libproxmox-backup-qemu0: 1.4.1<br />libproxmox-rs-perl: 0.3.3<br />libpve-access-control: 8.0.7<br />libpve-apiclient-perl: 3.3.1<br />libpve-common-perl: 8.1.0<br />libpve-guest-common-perl: 5.0.6<br />libpve-http-server-perl: 5.0.5<br />libpve-network-perl: 0.9.5<br />libpve-rs-perl: 0.8.8<br />libpve-storage-perl: 8.0.5<br />libspice-server1: 0.15.1-1<br />lvm2: 2.03.16-2<br />lxc-pve: 5.0.2-4<br />lxcfs: 5.0.3-pve4<br />novnc-pve: 1.4.0-3<br />proxmox-backup-client: 3.1.4-1<br />proxmox-backup-file-restore: 3.1.4-1<br />proxmox-kernel-helper: 8.1.0<br />proxmox-mail-forward: 0.2.3<br />proxmox-mini-journalreader: 1.4.0<br />proxmox-offline-mirror-helper: 0.6.4<br />proxmox-widget-toolkit: 4.1.3<br />pve-cluster: 8.0.5<br />pve-container: 5.0.8<br />pve-docs: 8.1.3<br />pve-edk2-firmware: 4.2023.08-3<br />pve-firewall: 5.0.3<br />pve-firmware: 3.9-1<br />pve-ha-manager: 4.0.3<br />pve-i18n: 3.2.0<br />pve-qemu-kvm: 8.1.5-2<br />pve-xtermjs: 5.3.0-3<br />qemu-server: 8.0.10<br />smartmontools: 7.3-pve1<br />spiceterm: 3.3.0<br />swtpm: 0.8.0+pve1<br />vncterm: 1.8.0<br />zfsutils-linux: 2.2.2-pve1<br />```<br /><br />Вывод `zfs list`:<br /><br />```<br />NAME &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;USED &nbsp;AVAIL &nbsp;REFER &nbsp;MOUNTPOINT<br />zfs &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;55.2G &nbsp;1.70T &nbsp; &nbsp;96K &nbsp;/zfs<br />zfs/vm-103-disk-0 &nbsp;2.20G &nbsp;1.70T &nbsp;2.20G &nbsp;-<br />zfs/vm-104-disk-0 &nbsp;53.0G &nbsp;1.75T &nbsp;2.21G &nbsp;-<br />``` <br />
			<i>12.02.2024 23:21:00, Risker.</i>]]></description>
			<link>http://proxmox.su/forum/messages/forum63/message327368/78140-khost-zhestkikh-vyletov_-pve-8.1.4</link>
			<guid>http://proxmox.su/forum/messages/forum63/message327368/78140-khost-zhestkikh-vyletov_-pve-8.1.4</guid>
			<pubDate>Mon, 12 Feb 2024 23:21:00 +0300</pubDate>
			<category>Proxmox Виртуальная Среда</category>
		</item>
	</channel>
</rss>
