+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

[РЕШЕНО] Видеокарта Hailo-8 AI m.2 вызывает сбой сервера при использовании passthrough., Proxmox Виртуальная Среда

scyto

Guest

19.05.2025 20:27:00

Всем привет! Я в тупике с одним странным сценарием и мой Google-фу бесполезен. У меня есть AI-копроцессор Hailo 8 M.2. Он установлен на M.2 bifurcation card с 3 NVMe, NVMe работают нормально. Копроцессор находится в своей собственной IOMMU группе. Он отлично работает на хосте (разумеется, это последнее, что я попробовал, лол). Когда я передаю карту виртуальной машине и когда драйвер загружается в ВМ, весь физический сервер мгновенно перезагружается. В BMC я вижу запись PCI SERR. Нет никаких признаков контролируемого выключения, это жёсткая перезагрузка сервера.

Код:
ID | TimeStamp | Sensor Name | Sensor Type | Description
======|=====================|==================|====================================|================================================================
736 | 05/19/2025 10:29:23 | BIOS | critical_interrupt | PCIe SEL Log - Asserted
| | | | Data1: PCI SERR
| | | | Data2: PCI bus number for failed device: 0x00
| | | | Data3: PCI device number: 0x01 PCI function number: 0x01

Что я пробовал:
* Отправил null в reset_methods на устройстве (чтобы подавить ошибки FLR)
* Добавил несколько опций vfio в modprobe - а именно передал устройство как pci вместо pcie
* Изменил скорость PCIE в BIOS слота x16 (по совету ASRock Rack, которые делают материнскую плату)
* Добавил viommu=intel к типу машины
* Добавил это в файл modprobe.d: options vfio-pci disable_vfio_pci_flr=1

Из-за внезапности проблемы ничего полезного не видно в journalctl на хосте или в гостевой.

Вот журнал хоста:

Код:
May 19 10:27:53 pve-nas1 pvedaemon[2680]: start VM 101: UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:53 pve-nas1 pvedaemon[2008]: <root@pam> starting task UPID:pve-nas1:00000A78:00004CBB:682B6A19:qmstart:101:root@pam:
May 19 10:27:54 pve-nas1 chronyd[1807]: Selected source 73.65.80.137 (2.debian.pool.ntp.org)

Это последняя строка. Это буквально очень жёсткая перезагрузка. У кого-нибудь есть какой-нибудь секрет, или это одно из тех случаев, когда это просто не работает, и нужно смириться?

scyto Guest	#2 0 21.05.2025 22:00:00 Я разобрался с этим. Оказывается, когда устройство загружает драйвер, происходит событие hotplug. Решение — включить hotplug в BIOS на слоте PCIe, к которому подключена карта. Есть небольшая проблема: устройство исчезает с шины PCIe в виртуальной машине через 2 секунды после загрузки драйвера.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры