Привет, недавно развернул Proxmox 8 на двух рабочих станциях Minisforum. Вот конфигурация железа: Minisforum Mini Workstation MS-01 Core i5-12600H 2 x Crucial P3 1To M.2 PCIe Gen3 NVMe SSD 2 x Crucial RAM 48Go DDR5 5600MHz
Программное обеспечение:
Proxmox 8
kernel: 6.8.12-2-pv
pve-manager : 8.2.7
Proxmox установлен на ZFS пуле (RAID1) с использованием 2 Crucial NVMe SSD. Без конфигурации кластера, каждый узел независимый.
После нескольких недель работы я получил вот такое предупреждение с одного PVE-сервера: ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue1
time: 2024-08-20 00:29:40+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF8557-part3
vguid: 0x9BE317680434AEC5
pool: rpool (0x18AE03D40E302B68)
Я попробовал перезагрузить PVE-сервер, но SSD все равно считался REMOVED. Поэтому я решил его заменить, что сделал успешно с новым, предполагая, что это аппаратная неисправность.
Теперь я недавно снова получил это предупреждение, причем не только с одного PVE-сервера, но и с обоих моих PVE-серверов с задержкой в 24 часа! Не могу поверить, что это аппаратная неисправность SSD одновременно! И не могу поверить, что у меня одновременно проблемы с железом на обоих моих рабочих станциях Minisforum!
Предупреждение с PVE-сервера 1:
ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue1
time: 2024-10-21 20:49:17+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF8557-part3
vguid: 0x9BE317680434AEC5
pool: rpool (0x18AE03D40E302B68)
Предупреждение с PVE-сервера 2:
ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue2
time: 2024-10-22 19:11:16+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF75C6-part3
vguid: 0xCB81D508174CE412
pool: rpool (0xC88FA9B89DABF1F7)
Поэтому я пришел к выводу, что это может быть связано с проблемой Proxmox и/или ZFS??? Можете помочь найти первопричину?
Некоторые результаты:
root@rescue1:~# zpool status -v rpool
pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.
action: Online the device using zpool online' or replace the device with 'zpool replace'.
scan: scrub repaired 0B in 00:00:08 with 0 errors on Sun Oct 13 00:24:09 2024
config:
NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
nvme-CT1000P3SSD8_231645EF8557-part3 REMOVED 0 0 0
nvme-CT1000P3SSD8_242749BF81B8-part3 ONLINE 0 0 0
root@rescue2:~# zpool status -v rpool
pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.
action: Online the device using zpool online' or replace the device with 'zpool replace'.
scan: scrub repaired 0B in 00:00:07 with 0 errors on Sun Oct 13 00:24:08 2024
config:
NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
nvme-CT1000P3SSD8_231645EF75C6-part3 REMOVED 0 0 0
nvme-CT1000P3SSD8_231645EF80A6-part3 ONLINE 0 0 0
Спасибо
Программное обеспечение:
Proxmox 8
kernel: 6.8.12-2-pv
pve-manager : 8.2.7
Proxmox установлен на ZFS пуле (RAID1) с использованием 2 Crucial NVMe SSD. Без конфигурации кластера, каждый узел независимый.
После нескольких недель работы я получил вот такое предупреждение с одного PVE-сервера: ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue1
time: 2024-08-20 00:29:40+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF8557-part3
vguid: 0x9BE317680434AEC5
pool: rpool (0x18AE03D40E302B68)
Я попробовал перезагрузить PVE-сервер, но SSD все равно считался REMOVED. Поэтому я решил его заменить, что сделал успешно с новым, предполагая, что это аппаратная неисправность.
Теперь я недавно снова получил это предупреждение, причем не только с одного PVE-сервера, но и с обоих моих PVE-серверов с задержкой в 24 часа! Не могу поверить, что это аппаратная неисправность SSD одновременно! И не могу поверить, что у меня одновременно проблемы с железом на обоих моих рабочих станциях Minisforum!
Предупреждение с PVE-сервера 1:
ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue1
time: 2024-10-21 20:49:17+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF8557-part3
vguid: 0x9BE317680434AEC5
pool: rpool (0x18AE03D40E302B68)
Предупреждение с PVE-сервера 2:
ZFS обнаружил, что устройство было удалено. Влияние: Отказоустойчивость пула может быть скомпрометирована.
eid: 18
class: statechange
state: REMOVED
host: rescue2
time: 2024-10-22 19:11:16+0200
vpath: /dev/disk/by-id/nvme-CT1000P3SSD8_231645EF75C6-part3
vguid: 0xCB81D508174CE412
pool: rpool (0xC88FA9B89DABF1F7)
Поэтому я пришел к выводу, что это может быть связано с проблемой Proxmox и/или ZFS??? Можете помочь найти первопричину?
Некоторые результаты:
root@rescue1:~# zpool status -v rpool
pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.
action: Online the device using zpool online' or replace the device with 'zpool replace'.
scan: scrub repaired 0B in 00:00:08 with 0 errors on Sun Oct 13 00:24:09 2024
config:
NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
nvme-CT1000P3SSD8_231645EF8557-part3 REMOVED 0 0 0
nvme-CT1000P3SSD8_242749BF81B8-part3 ONLINE 0 0 0
root@rescue2:~# zpool status -v rpool
pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.
action: Online the device using zpool online' or replace the device with 'zpool replace'.
scan: scrub repaired 0B in 00:00:07 with 0 errors on Sun Oct 13 00:24:08 2024
config:
NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
nvme-CT1000P3SSD8_231645EF75C6-part3 REMOVED 0 0 0
nvme-CT1000P3SSD8_231645EF80A6-part3 ONLINE 0 0 0
Спасибо
