Привет! У меня на десктопе Proxmox, вот характеристики:
- Intel 13600K
- MSI Z690 A WiFi D4
- AMD RX 6650 XT
- 2x32 GB оперативной памяти
- 2x Samsung 870 Evo 500 GB как загрузочные диски в ZFS RAID1 конфигурации
- XPG S70 Blade 1 TB в LVM-thin для запуска моих ВМ.
Сценарий использования: ВМ с Windows/Linux) с пробросом GPU.
Что работает: Нет чёрного списка драйверов, нет VFIO ids. Только 'driverctl' для передачи GPU в vfio и обратно с помощью perl хук-скрипта (прилагается для справки).
Вот выдержка из лога 'после' выключения ВМ, чтобы доказать, что хост (Proxmox) возвращает контроль и начинает использовать драйвер amdgpu, так что VFIO больше не управляет им:
03:00.0 VGA compatible controller [0300]: Advanced Micro Devices, Inc. [AMD/ATI] Navi 23 [Radeon RX 6650 XT / 6700S / 6800S] [1002:73ef] (rev c1) Subsystem: ASUSTeK Computer Inc. Navi 23 [Radeon RX 6650 XT / 6700S / 6800S] [1043:05e3] Kernel driver in use: amdgpu Kernel modules: amdgpu
03:00.1 Audio device [0403]: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21/23 HDMI/DP Audio Controller [1002:ab28] Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21/23 HDMI/DP Audio Controller [1002:ab28] Kernel driver in use: snd_hda_intel Kernel modules: snd_hda_intel
Итак, в чем проблема: Не зависимо от подхода, который я использую для проброса GPU или дистрибутива, используемого для ВМ, её температура начинает расти каждый раз, когда она возвращается к хосту (Proxmox), и она становится очень горячей без использования. У меня нет проблем с пробросом GPU на разные ВМ, поскольку хук-скрипт работает отлично. Температура в порядке, пока это не хост, а какая-либо ВМ контролирует её своими собственными драйверами (amdgpu для linux ВМ или проприетарные драйверы в Windows). Но это нагрев GPU сводит меня с ума. Я даже рассматриваю возможность попрощаться с Proxmox, если не смогу найти решение. Я борюсь с этим уже несколько месяцев. Я знаю, что я могу оставить ВМ работать, чтобы управлять ею, но это решение не очень интуитивно - запускать ВМ без цели с тем же драйвером amdgpu, особенно когда тот же драйвер amdgpu активно управляет им в хосте, как это делает linux ВМ, когда GPU проброшен к ней. Интересно, есть ли лучшее решение для обработки этого на самом хосте, или я что-то упускаю?
Спасибо,
- Intel 13600K
- MSI Z690 A WiFi D4
- AMD RX 6650 XT
- 2x32 GB оперативной памяти
- 2x Samsung 870 Evo 500 GB как загрузочные диски в ZFS RAID1 конфигурации
- XPG S70 Blade 1 TB в LVM-thin для запуска моих ВМ.
Сценарий использования: ВМ с Windows/Linux) с пробросом GPU.
Что работает: Нет чёрного списка драйверов, нет VFIO ids. Только 'driverctl' для передачи GPU в vfio и обратно с помощью perl хук-скрипта (прилагается для справки).
Вот выдержка из лога 'после' выключения ВМ, чтобы доказать, что хост (Proxmox) возвращает контроль и начинает использовать драйвер amdgpu, так что VFIO больше не управляет им:
03:00.0 VGA compatible controller [0300]: Advanced Micro Devices, Inc. [AMD/ATI] Navi 23 [Radeon RX 6650 XT / 6700S / 6800S] [1002:73ef] (rev c1) Subsystem: ASUSTeK Computer Inc. Navi 23 [Radeon RX 6650 XT / 6700S / 6800S] [1043:05e3] Kernel driver in use: amdgpu Kernel modules: amdgpu
03:00.1 Audio device [0403]: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21/23 HDMI/DP Audio Controller [1002:ab28] Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21/23 HDMI/DP Audio Controller [1002:ab28] Kernel driver in use: snd_hda_intel Kernel modules: snd_hda_intel
Итак, в чем проблема: Не зависимо от подхода, который я использую для проброса GPU или дистрибутива, используемого для ВМ, её температура начинает расти каждый раз, когда она возвращается к хосту (Proxmox), и она становится очень горячей без использования. У меня нет проблем с пробросом GPU на разные ВМ, поскольку хук-скрипт работает отлично. Температура в порядке, пока это не хост, а какая-либо ВМ контролирует её своими собственными драйверами (amdgpu для linux ВМ или проприетарные драйверы в Windows). Но это нагрев GPU сводит меня с ума. Я даже рассматриваю возможность попрощаться с Proxmox, если не смогу найти решение. Я борюсь с этим уже несколько месяцев. Я знаю, что я могу оставить ВМ работать, чтобы управлять ею, но это решение не очень интуитивно - запускать ВМ без цели с тем же драйвером amdgpu, особенно когда тот же драйвер amdgpu активно управляет им в хосте, как это делает linux ВМ, когда GPU проброшен к ней. Интересно, есть ли лучшее решение для обработки этого на самом хосте, или я что-то упускаю?
Спасибо,
