У нас есть аналогичные ошибки в нашей среде, но два различных сервера, на которых наблюдается такое поведение. Оба сервера имеют два пула ZFS с зеркальными VDEV: INI: root@prodnode1:~# zpool list -v
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
pool_spinning 3.62T 1.04T 2.59T - - 12% 28% 1.00x ONLINE -
mirror 928G 220G 708G - - 11% 23.7% - ONLINE
sdm - - - - - - - - ONLINE
sdn - - - - - - - - ONLINE
mirror 928G 266G 662G - - 13% 28.7% - ONLINE
sdo - - - - - - - - ONLINE
sdp - - - - - - - - ONLINE
mirror 928G 290G 638G - - 13% 31.2% - ONLINE
sdq - - - - - - - - ONLINE
sdr - - - - - - - - ONLINE
mirror 928G 284G 644G - - 14% 30.6% - ONLINE
sds - - - - - - - - ONLINE
sdt - - - - - - - - ONLINE
pool_ssd 2.60T 1.67T 955G - - 30% 64% 1.00x ONLINE -
mirror 444G 285G 159G - - 29% 64.2% - ONLINE
sda - - - - - - - - ONLINE
sdb - - - - - - - - ONLINE
mirror 444G 285G 159G - - 30% 64.2% - ONLINE
sdc - - - - - - - - ONLINE
sdd - - - - - - - - ONLINE
mirror 444G 285G 159G - - 30% 64.1% - ONLINE
sde - - - - - - - - ONLINE
sdf - - - - - - - - ONLINE
mirror 444G 285G 159G - - 31% 64.1% - ONLINE
sdg - - - - - - - - ONLINE
sdh - - - - - - - - ONLINE
mirror 444G 285G 159G - - 31% 64.2% - ONLINE
sdi - - - - - - - - ONLINE
sdj - - - - - - - - ONLINE
mirror 444G 285G 159G - - 32% 64.2% - ONLINE
sdk - - - - - - - - ONLINE
sdl - - - - - - - - ONLINE
Похоже, что для возникновения ошибки нагрузка на пул должна превышать среднюю. Когда ошибка происходит, виртуальные машины переключаются на режим Readonly-FS. (Смотрите прикрепленное изображение1) У нас были виртуальные машины, файловая система которых была переполнена ошибками, и восстановление из резервной копии было единственным вариантом. Более того, у нас были виртуальные машины, таблица разделов которых стала нечитаемой, восстановление с помощью testdisk было возможным... Оба рассматриваемых сервера — это машины Supermicro, один из них SC216BE1C-R920LPB с платой X10-DRi-T и RAID-контроллером 9361-8i в режиме JBOD, а другой — SC216BE1C-R920LPB с платой X11-DPi-NT и HBA Broadcom SAS III 9300-8i. Можно было бы сказать, что 9361-8i является проблемой, так как это RAID-контроллер, работающий в режиме JBOD, и если бы ошибка возникала только на этом узле, я бы с этим полностью согласился. Но ошибка происходит на обоих узлах, 9300-8i должен быть вполне подходящим HBA для ZFS... Оба сервера имеют общий бэкплейн (BPN-SAS3-216EL1), используемые диски: - INTEL_SSDSC2KB240G8 - HGST_HTE721010A9E630