Всем привет! Я в тупике с одним странным сценарием и мой Google-фу бесполезен. У меня есть AI-копроцессор Hailo 8 M.2. Он установлен на M.2 bifurcation card с 3 NVMe, NVMe работают нормально. Копроцессор находится в своей собственной IOMMU группе. Он отлично работает на хосте (разумеется, это последнее, что я попробовал, лол). Когда я передаю карту виртуальной машине и когда драйвер загружается в ВМ, весь физический сервер мгновенно перезагружается. В BMC я вижу запись PCI SERR. Нет никаких признаков контролируемого выключения, это жёсткая перезагрузка сервера.
Код:
ID | TimeStamp | Sensor Name | Sensor Type | Description
======|=====================|==================|====================================|============================================================ ====
736 | 05/19/2025 10:29:23 | BIOS | critical_interrupt | PCIe SEL Log - Asserted
| | | | Data1: PCI SERR
| | | | Data2: PCI bus number for failed device: 0x00
| | | | Data3: PCI device number: 0x01 PCI function number: 0x01
Что я пробовал:
* Отправил null в reset_methods на устройстве (чтобы подавить ошибки FLR)
* Добавил несколько опций vfio в modprobe - а именно передал устройство как pci вместо pcie
* Изменил скорость PCIE в BIOS слота x16 (по совету ASRock Rack, которые делают материнскую плату)
* Добавил viommu=intel к типу машины
* Добавил это в файл modprobe.d: options vfio-pci disable_vfio_pci_flr=1
Из-за внезапности проблемы ничего полезного не видно в journalctl на хосте или в гостевой.
Вот журнал хоста:
Код:
May 19 10:27:53 pve-nas1 pvedaemon[2680]: start VM 101: UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:53 pve-nas1 pvedaemon[2008]: <root@pam> starting task UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:54 pve-nas1 chronyd[1807]: Selected source 73.65.80.137 (2.debian.pool.ntp.org)
Это последняя строка. Это буквально очень жёсткая перезагрузка. У кого-нибудь есть какой-нибудь секрет, или это одно из тех случаев, когда это просто не работает, и нужно смириться?
Код:
ID | TimeStamp | Sensor Name | Sensor Type | Description
======|=====================|==================|====================================|============================================================
736 | 05/19/2025 10:29:23 | BIOS | critical_interrupt | PCIe SEL Log - Asserted
| | | | Data1: PCI SERR
| | | | Data2: PCI bus number for failed device: 0x00
| | | | Data3: PCI device number: 0x01 PCI function number: 0x01
Что я пробовал:
* Отправил null в reset_methods на устройстве (чтобы подавить ошибки FLR)
* Добавил несколько опций vfio в modprobe - а именно передал устройство как pci вместо pcie
* Изменил скорость PCIE в BIOS слота x16 (по совету ASRock Rack, которые делают материнскую плату)
* Добавил viommu=intel к типу машины
* Добавил это в файл modprobe.d: options vfio-pci disable_vfio_pci_flr=1
Из-за внезапности проблемы ничего полезного не видно в journalctl на хосте или в гостевой.
Вот журнал хоста:
Код:
May 19 10:27:53 pve-nas1 pvedaemon[2680]: start VM 101: UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:53 pve-nas1 pvedaemon[2008]: <root@pam> starting task UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:54 pve-nas1 chronyd[1807]: Selected source 73.65.80.137 (2.debian.pool.ntp.org)
Это последняя строка. Это буквально очень жёсткая перезагрузка. У кого-нибудь есть какой-нибудь секрет, или это одно из тех случаев, когда это просто не работает, и нужно смириться?
