Привет всем,
Мы все еще разбираемся с этой проблемой. Примерно каждые 2-3 недели (обычно во время начала бэкапов в Proxmox Backup) мы видим полностью не отвечающий Proxmox сервер. В journalctl видны следующие строки:
Code: Feb 08 23:58:43 proxmoxt kernel: VERIFY3(sa.sa_magic == SA_MAGIC) failed (8192 == 3100762)
Feb 08 23:58:43 proxmoxt kernel: PANIC at zfs_quota.c:88:zpl_get_file_info()
Feb 08 23:58:43 proxmoxt kernel: Showing stack for process 1864533
Feb 08 23:58:43 proxmoxt kernel: CPU: 2 PID: 1864533 Comm: proxmox-backup- Tainted: P IO 6.8.12-7-pve #1
Feb 08 23:58:43 proxmoxt kernel: Hardware name: Dell Inc. Precision WorkStation T3500 /09KPNV, BIOS A17 05/28/2013
Feb 08 23:58:43 proxmoxt kernel: Call Trace:
Feb 08 23:58:43 proxmoxt kernel: <TASK>
Feb 08 23:58:43 proxmoxt kernel: dump_stack_lvl+0x76/0xa0
Feb 08 23:58:43 proxmoxt kernel: dump_stack+0x10/0x20
Feb 08 23:58:43 proxmoxt kernel: spl_dumpstack+0x29/0x40 [spl]
Feb 08 23:58:43 proxmoxt kernel: spl_panic+0xfc/0x120 [spl]
Feb 08 23:58:43 proxmoxt kernel: ? dnode_cons+0x2ab/0x2d0 [zfs]
Feb 08 23:58:43 proxmoxt kernel: zpl_get_file_info+0x23a/0x250 [zfs]
Feb 08 23:58:43 proxmoxt kernel: dmu_objset_userquota_get_ids+0x257/0x4c0 [zfs]
Feb 08 23:58:43 proxmoxt kernel: dnode_setdirty+0x38/0x110 [zfs]
Feb 08 23:58:43 proxmoxt kernel: dnode_allocate+0x16b/0x1f0 [zfs]
Feb 08 23:58:43 proxmoxt kernel: dmu_object_alloc_impl+0x36e/0x420 [zfs]
Feb 08 23:58:43 proxmoxt kernel: ? __kmalloc_node+0x1cb/0x430
Feb 08 23:58:43 proxmoxt kernel: dmu_object_alloc_dnsize+0x1f/0x40 [zfs]
Feb 08 23:58:43 proxmoxt kernel: zfs_mknode+0x1de/0x1020 [zfs]
Feb 08 23:58:43 proxmoxt kernel: zfs_create+0x774/0xa20 [zfs]
Feb 08 23:58:43 proxmoxt kernel: zpl_create+0xca/0x1e0 [zfs]
Feb 08 23:58:43 proxmoxt kernel: path_openat+0xec9/0x1190
Feb 08 23:58:43 proxmoxt kernel: do_filp_open+0xaf/0x170
Feb 08 23:58:43 proxmoxt kernel: do_sys_openat2+0xb3/0xe0
Feb 08 23:58:43 proxmoxt kernel: __x64_sys_openat+0x6c/0xa0
Feb 08 23:58:43 proxmoxt kernel: x64_syscall+0x44/0x48
Feb 08 23:58:43 proxmoxt kernel: entry_SYSCALL_64_after_hwframe+0x78/0x80
Мы уже поставили новый сервер (другое хостинг-провайдер, другой блок питания, другая материнская плата, другой процессор, другая RAM – также протестировали с memtest86+). Просто перенесли четыре HDD с установкой PVE и ZFS пулом. Проблема сохраняется. Значения SMART для четырех HDD кажутся нормальными. Но на этих выходных начали заменять первый HDD после события. Резервирование прошло нормально. Какие есть советы, как действовать дальше?
С уважением,
Йенс