Привет всем! У меня работает Proxmox сервер, настроенный для тяжелых симуляций. Идея проста: я запускаю либо Windows, либо Linux VM (никогда не одновременно, использую хукскрипт), и хочу, чтобы они использовали как можно больше CPU и RAM. Ещё есть TrueNAS VM, которая постоянно работает, обеспечивая общий доступ к хранилищу для обеих. Проблема с Windows VM. Каждый раз, когда я запускаю симуляцию, в какой-то момент выполнения весь сервер становится недоступным — нет веб-UI, нет SSH, даже ping не проходит. Приходится идти в серверную и перезагружать его сбросом питания несколько раз.
Системный обзор:
* Proxmox VE: 6.8.12-9
* CPU: AMD Ryzen Threadripper 7980X (64 ядра / 128 потоков)
* RAM: 512 GB
* Диск загрузки: 1TB Samsung 990 PRO (ZFS)
* Общий диск: 500 GB раздел с того же SSD, экспортируется через NFS
* Swap: 16 GB файловый
Настройка VM:
* Windows VM: 400 GB RAM (ballooning отключен), 56 ядер, 1 сокет CPU, включен GPU passthrough
* Основной диск на local-zfs
* Linux VM: Не работает одновременно с Windows, тоже предназначена для тяжелых симуляций с аналогичным распределением ресурсов
* TrueNAS VM: 16 GB RAM, диск хранится в rpool, чтобы избежать проблем ZFS-on-ZFS. Постоянно работает для NFS общего хранилища.
Что происходит:
* Сначала всё работает отлично. А как только Windows VM начинает делать серьезную работу (симуляцию), весь хост становится недоступным. Это не краш VM — это весь узел Proxmox.
* Я уже:
* Отключил ballooning
* Проверил наличие OOM kills или PCI ошибок в dmesg и journalctl (ничего очевидного)
* Добавил swap
* Убедился, что ZFS не использует слишком много памяти ARC (проверил ARC stats)
* Но ничего не помогает. Единственная закономерность в том, что это происходит, когда Windows начинает тяжелую симуляцию.
За что я бы хотел получить помощь:
* Не слишком ли много 56 ядер + 400 GB? Нужно ли резервировать больше для хоста?
* Есть ли лучший способ настроить Windows VM для этого варианта использования?
* Может ли GPU passthrough вызывать нестабильность, даже если он работает сначала?
* Известны ли проблемы с назначением больших ресурсов в Proxmox 8.x?
* Поможет ли переход с local-zfs на файловое хранилище?
Системный обзор:
* Proxmox VE: 6.8.12-9
* CPU: AMD Ryzen Threadripper 7980X (64 ядра / 128 потоков)
* RAM: 512 GB
* Диск загрузки: 1TB Samsung 990 PRO (ZFS)
* Общий диск: 500 GB раздел с того же SSD, экспортируется через NFS
* Swap: 16 GB файловый
Настройка VM:
* Windows VM: 400 GB RAM (ballooning отключен), 56 ядер, 1 сокет CPU, включен GPU passthrough
* Основной диск на local-zfs
* Linux VM: Не работает одновременно с Windows, тоже предназначена для тяжелых симуляций с аналогичным распределением ресурсов
* TrueNAS VM: 16 GB RAM, диск хранится в rpool, чтобы избежать проблем ZFS-on-ZFS. Постоянно работает для NFS общего хранилища.
Что происходит:
* Сначала всё работает отлично. А как только Windows VM начинает делать серьезную работу (симуляцию), весь хост становится недоступным. Это не краш VM — это весь узел Proxmox.
* Я уже:
* Отключил ballooning
* Проверил наличие OOM kills или PCI ошибок в dmesg и journalctl (ничего очевидного)
* Добавил swap
* Убедился, что ZFS не использует слишком много памяти ARC (проверил ARC stats)
* Но ничего не помогает. Единственная закономерность в том, что это происходит, когда Windows начинает тяжелую симуляцию.
За что я бы хотел получить помощь:
* Не слишком ли много 56 ядер + 400 GB? Нужно ли резервировать больше для хоста?
* Есть ли лучший способ настроить Windows VM для этого варианта использования?
* Может ли GPU passthrough вызывать нестабильность, даже если он работает сначала?
* Известны ли проблемы с назначением больших ресурсов в Proxmox 8.x?
* Поможет ли переход с local-zfs на файловое хранилище?
