Всем привет! У меня есть сервер Proxmox 8.2.4 со всеми настройками PCI passthrough, включая iommu и т.д. Сегодня успешно использую vGPU с несколькими виртуальными машинами, всё отлично. У меня есть SAS-карта: 5e:00.0 Serial Attached SCSI controller: ATTO Technology, Inc. ExpressSAS 6Gb/s SAS/SATA HBA, которую я хочу передать Debian VM для использования с механизмом перемотки ленты для резервного копирования. Обратите внимание, что к этому SAS-диску подключён ТОЛЬКО механизм перемотки ленты; нет дисков, и определённо нет дисков системного/VM-хранилища, используемых Proxmox. Я добавил устройство PCI, но при включении VM весь хост Proxmox сразу перезагружается. Никаких предупреждений, никаких сообщений об ошибках... Как будто кто-то нажал кнопку перезагрузки. К счастью, VM не настроена на автоматический запуск при загрузке, поэтому, когда она завершает загрузку, все исходные VM снова онлайн. Я заблокировал оригинальный драйвер:
Code: 5e:00.0 Serial Attached SCSI controller: ATTO Technology, Inc. ExpressSAS 6Gb/s SAS/SATA HBA
Subsystem: ATTO Technology, Inc. ExpressSAS H644
Flags: bus master, fast devsel, latency 0, IRQ 255, NUMA node 0, IOMMU group 1
Memory at b8800000 (64-bit, non-prefetchable) [size=64K]
Memory at b8810000 (64-bit, non-prefetchable) [size=64K]
Memory at b8830000 (32-bit, non-prefetchable) [size=64K]
Memory at b8820000 (32-bit, non-prefetchable) [size=64K]
Expansion ROM at <ignored> [disabled]
Capabilities: [40] Power Management version 3
Capabilities: [50] MSI: Enable- Count=1/32 Maskable- 64bit+
Capabilities: [70] Express Endpoint, MSI 00
Capabilities: [ac] MSI-X: Enable- Count=16 Masked-
Capabilities: [100] Advanced Error Reporting
Kernel driver in use: vfio-pci
Kernel modules: pm80xx
И похоже, блокировка работает, так как /dev/sg3, который обычно появляется от карты, отсутствует. Я также убедился, что у него своя группа IOMMU (группа # 1 из всех групп!), и другие устройства не разделяют эту группу. Я ошеломлён и удивлён, как простое включение этой VM с подключенной PCI-картой может вызвать полную аппаратную перезагрузку системы. Кстати, это сервер Dell EMC, модель PowerEdge R740xd с BIOS 2.21.2 (который должен быть самым актуальным). Он был куплен у одного из онлайн-перепродавцов серверов... Я также заметил в контроллере iDRAC, что похоже, хост и iDRAC знают, что установлено в каждом слоте PCI, и если устройство предоставляет мониторинг температуры, сервер знает, какая у него температура и регулирует свои системные вентиляторы, чтобы PCI-карты оставались достаточно холодными. Одна из карт в системе — nVidia Tesla T4, и когда она загружена, скорость вращения системных вентиляторов увеличивается, поскольку у неё нет собственного вентилятора. Интересно, есть ли какая-то взаимосвязь между iDRAC/чем-то, что отслеживает карты, и тем, как Proxmox берёт карту под контроль для PCI Passthrough, что заставляет iDRAC перезагружать систему? В любом случае, я был бы очень благодарен за любую помощь в решении этой проблемы! Proxmox великолепен, это первая настоящая головоломка, которую до сих пор не удалось решить.
Code: 5e:00.0 Serial Attached SCSI controller: ATTO Technology, Inc. ExpressSAS 6Gb/s SAS/SATA HBA
Subsystem: ATTO Technology, Inc. ExpressSAS H644
Flags: bus master, fast devsel, latency 0, IRQ 255, NUMA node 0, IOMMU group 1
Memory at b8800000 (64-bit, non-prefetchable) [size=64K]
Memory at b8810000 (64-bit, non-prefetchable) [size=64K]
Memory at b8830000 (32-bit, non-prefetchable) [size=64K]
Memory at b8820000 (32-bit, non-prefetchable) [size=64K]
Expansion ROM at <ignored> [disabled]
Capabilities: [40] Power Management version 3
Capabilities: [50] MSI: Enable- Count=1/32 Maskable- 64bit+
Capabilities: [70] Express Endpoint, MSI 00
Capabilities: [ac] MSI-X: Enable- Count=16 Masked-
Capabilities: [100] Advanced Error Reporting
Kernel driver in use: vfio-pci
Kernel modules: pm80xx
И похоже, блокировка работает, так как /dev/sg3, который обычно появляется от карты, отсутствует. Я также убедился, что у него своя группа IOMMU (группа # 1 из всех групп!), и другие устройства не разделяют эту группу. Я ошеломлён и удивлён, как простое включение этой VM с подключенной PCI-картой может вызвать полную аппаратную перезагрузку системы. Кстати, это сервер Dell EMC, модель PowerEdge R740xd с BIOS 2.21.2 (который должен быть самым актуальным). Он был куплен у одного из онлайн-перепродавцов серверов... Я также заметил в контроллере iDRAC, что похоже, хост и iDRAC знают, что установлено в каждом слоте PCI, и если устройство предоставляет мониторинг температуры, сервер знает, какая у него температура и регулирует свои системные вентиляторы, чтобы PCI-карты оставались достаточно холодными. Одна из карт в системе — nVidia Tesla T4, и когда она загружена, скорость вращения системных вентиляторов увеличивается, поскольку у неё нет собственного вентилятора. Интересно, есть ли какая-то взаимосвязь между iDRAC/чем-то, что отслеживает карты, и тем, как Proxmox берёт карту под контроль для PCI Passthrough, что заставляет iDRAC перезагружать систему? В любом случае, я был бы очень благодарен за любую помощь в решении этой проблемы! Proxmox великолепен, это первая настоящая головоломка, которую до сих пор не удалось решить.
