У нас есть сервер Supermicro PIO-620U-TNR-FT019 с прямой связью с NVME-накопителем к материнской плате: Код: rpool mirror-0
nvme-INTEL_SSDPE2KX010T8
nvme-INTEL_SSDPE2KX010T8
rpool3.2 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool3.2_2 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool3.2_3 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool6.4 mirror-0
nvme-INTEL_SSDPE2KE064T8
nvme-INTEL_SSDPE2KE064T8. Нам нужно было заменить массив rpool3.2_2 новым с новыми дисками. Для этого все ВМ из этого пула были мигрированы на веб-интерфейсы. rpool3.2_2 был удален в Datacenter - Storage, а rpool3.2_2 - в Datacenter - node02 - Disks - ZFS (удалить с двумя стандартными флагами). Затем мы извлекли физические диски из отсеков 2 и 3 (диски промаркированы серийными номерами, чтобы их нельзя было перепутать с интерфейсом PROXMOX), после чего на экране физического сервера и в GUI Datacenter - node02 - Disks было отображено множество ошибок. При этом статус пулов rpool3.2 и rpool3.2_3 был установлен в "suspended". При попытке просмотра содержимого в консоли она зависла (ls /rpoo3.2/). Syslog: Код: Apr 08 17:28:45 node02 kernel: pcieport 0000:64:02.0: pciehp: Slot(0-3): Link Down
Apr 08 17:28:46 node02 kernel: pcieport 0000:64:04.0: pciehp: Slot(0-5): Link Down
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: [8086:0a54] type 00 class 0x010802 PCIe Endpoint
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: BAR 0 [mem 0x00000000-0x00003fff 64bit]
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: ROM [mem 0x00000000-0x0000ffff pref]
Apr 08 17:28:47 node02 kernel: pcieport 0000:64:02.0: broken device, retraining non-functional downstream link at 2.5GT/s
Apr 08 17:28:49 node02 kernel: nvme nvme4: Shutdown timeout set to 15 seconds
Apr 08 17:28:49 node02 kernel: nvme nvme4: 128/0/0 default/read/poll queues
Apr 08 17:28:49 node02 kernel: nvme nvme4: Ignoring bogus Namespace Identifiers Среди прочего, было замечено, что после извлечения указанных дисков аварийная индикация работы диска включалась на совершенно другие диски, вероятно, командами (set '/sys/bus/pci/slots/1/attention' LED to 1). Если диски извлекаются в выключенном состоянии и сервер включается, то он загружается нормально и оставшиеся диски и пулы отображаются правильно. Нас беспокоит эта ситуация, поскольку отказ одного диска может привести к отказу других пулов.
nvme-INTEL_SSDPE2KX010T8
nvme-INTEL_SSDPE2KX010T8
rpool3.2 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool3.2_2 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool3.2_3 mirror-0
nvme-INTEL_SSDPE2KE032T8
nvme-INTEL_SSDPE2KE032T8
rpool6.4 mirror-0
nvme-INTEL_SSDPE2KE064T8
nvme-INTEL_SSDPE2KE064T8. Нам нужно было заменить массив rpool3.2_2 новым с новыми дисками. Для этого все ВМ из этого пула были мигрированы на веб-интерфейсы. rpool3.2_2 был удален в Datacenter - Storage, а rpool3.2_2 - в Datacenter - node02 - Disks - ZFS (удалить с двумя стандартными флагами). Затем мы извлекли физические диски из отсеков 2 и 3 (диски промаркированы серийными номерами, чтобы их нельзя было перепутать с интерфейсом PROXMOX), после чего на экране физического сервера и в GUI Datacenter - node02 - Disks было отображено множество ошибок. При этом статус пулов rpool3.2 и rpool3.2_3 был установлен в "suspended". При попытке просмотра содержимого в консоли она зависла (ls /rpoo3.2/). Syslog: Код: Apr 08 17:28:45 node02 kernel: pcieport 0000:64:02.0: pciehp: Slot(0-3): Link Down
Apr 08 17:28:46 node02 kernel: pcieport 0000:64:04.0: pciehp: Slot(0-5): Link Down
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: [8086:0a54] type 00 class 0x010802 PCIe Endpoint
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: BAR 0 [mem 0x00000000-0x00003fff 64bit]
Apr 08 17:28:46 node02 kernel: pci 0000:67:00.0: ROM [mem 0x00000000-0x0000ffff pref]
Apr 08 17:28:47 node02 kernel: pcieport 0000:64:02.0: broken device, retraining non-functional downstream link at 2.5GT/s
Apr 08 17:28:49 node02 kernel: nvme nvme4: Shutdown timeout set to 15 seconds
Apr 08 17:28:49 node02 kernel: nvme nvme4: 128/0/0 default/read/poll queues
Apr 08 17:28:49 node02 kernel: nvme nvme4: Ignoring bogus Namespace Identifiers Среди прочего, было замечено, что после извлечения указанных дисков аварийная индикация работы диска включалась на совершенно другие диски, вероятно, командами (set '/sys/bus/pci/slots/1/attention' LED to 1). Если диски извлекаются в выключенном состоянии и сервер включается, то он загружается нормально и оставшиеся диски и пулы отображаются правильно. Нас беспокоит эта ситуация, поскольку отказ одного диска может привести к отказу других пулов.
