+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Windows Server гостевой CPU зависает каждые несколько секунд., Proxmox Виртуальная Среда

sdettmer

Guest

19.04.2024 18:31:00

Привет всем! У меня странная проблема с Windows Server 2022 VM: каждые несколько секунд вся система зависает на секунду или около того. Кажется, чем больше нагрузка, тем чаще это происходит, но только на короткие моменты, обычно секунда или меньше, иногда до 2 секунд, но не больше. Это RDP сервер, и работать с этими "задержками" очень неудобно. Проблема есть с RDP, но также и с веб-консолью (noVNC), и её можно наблюдать внутри VM без необходимости в сетевом соединении. Я занимаюсь этим уже несколько дней, провел много тестов и читал очень много, но пока не смог решить проблему.

VM работает на двухсокетовом сервере (2 x 24C32T старенький Xeon) с 2 x PM1653 SAS (ZFS зеркало) плюс несколько вращающихся дисков (для резервного копирования, не используются VM), 256 GB RAM, всё ZFS только. На странице сводки узла PVE использование RAM ниже 50% (~115 GB), CPU max 40%. У узла нет swap-пространства. У VM использование RAM ~30%, но в рабочее время высокая загрузка CPU, 60-80% в течение рабочих часов. Внутри VM я вижу несколько процессов с загрузкой 2-5%, и в общей сложности до 80% (но я думаю, что суммирование всех процессов дает 30%, а не 80%). Кроме того, я часто вижу "прерывания" ("Systemunterbrechnungen") с загрузкой CPU ~2%.

Сама VM, кажется, не замечает этих зависаний, как будто она полностью зависает на моменте. "Мировая заморозка". Когда я пингую снаружи, я вижу высокую ping RTT (500-2000 мс), которая идеально коррелирует с задержками ввода/зависаниями. Когда я пингую изнутри, я вижу, что пинг зависает, но он показывает =<3мс, как будто "часы" для пинга тоже зависают. Однако, когда я использую HD Tune Pro, инструмент для тестирования дисков, я вижу не только то, что инструмент зависает на секунду или две, но и впоследствии получаю "просадку" скорости чтения, опять же на 100% коррелирует с "зависаниями".

Итак, Windows ping не видит проблему, но HD Tune Pro видит. Из последнего я делаю вывод, что у меня нет проблем, связанных с сетью. Проблема намного хуже в рабочее время, чем ночью, но я не смог искусственно спровоцировать ее (чтобы я мог тестировать ночью в окно обслуживания):

* Не удалось нагрузить сервер, чтобы спровоцировать зависания.
* Не могу перезагрузить его без окна обслуживания (на нем работают ночные смены).

Я испробовал следующее:

* Высокие нагрузки на сервер не приводят к зависанию.
* Использование HD Tune Pro показывает просадку скорости чтения.
* Вижу много прерываний ("Systemunterbrechnungen").

Внутри VM, как правило, ни CPU, ни I/O диска не выглядят плохо, отчет Windows Performance Indicator показывает все зеленое. В диспетчере задач есть всего несколько процессов с загрузкой 2-5%, но сверху часто я вижу "прерывания" которые, как я думаю, связаны с прерываниями.

Я зашел в тупик и надеюсь, что кто-то сможет подсказать, что еще можно попробовать, пожалуйста!

```
Code: pve-manager/8.1.4/ec5affc9e41f1d79 (running kernel: 6.5.11-8-pve)
Code: root@pve-2:~# cat /etc/pve/qemu-server/107.conf
agent: 1
bios: ovmf
boot: order=virtio0;ide2;net0
cores: 12
cpu: host
efidisk0: local-zfs:vm-107-disk-0,efitype=4m,pre-enrolled-keys=1,size=1M
ide2: none,media=cdrom
machine: pc-q35-8.0
memory: 49152
meta: creation-qemu=8.0.2,ctime=1695813306
name: w2k22-ts
net0: virtio=0E:4B:CB:cc:bb:cc,bridge=vmbr0,firewall=1
numa: 1
onboot: 1
ostype: win11
scsihw: virtio-scsi-single
smbios1: uuid=28f74c6e-bde3-49d5-b215-68a4031512803
sockets: 2
virtio0: local-zfs:vm-102-disk-1,cache=writethrough,iothread=1,size=432G
vmgenid: d16b6ad8-226f-4baf-a4d8-564331511392f

[PENDING]
balloon: 0
vga: virtio
```

gfngfn256

Guest

24.04.2024 19:16:00

Рад, что у тебя получилось разобраться. Думаю, твои текущие настройки не будут сохраняться после перезагрузки. Скорее всего, нужно добавить в командную строку (насколько я знаю) numa_balancing=disable. Или, в качестве альтернативы, можно написать скрипт для твоего мода и настроить его автоматического запуска при загрузке системы.

VictorSTS

Guest

24.04.2024 23:16:00

Я использую systemd, чтобы такие вещи делались постоянными:
```
cat <<EOT >> /etc/systemd/system/sysfs_disable_ksm_numa_merge.service
[Unit]
Description=Disable KSM merge across NUMA nodes
After=multi-user.target
StartLimitBurst=0

[Service]
Type=oneshot
Restart=on-failure
ExecStart=/bin/bash -c 'echo 0 > /sys/kernel/mm/ksm/merge_across_nodes'

[Install]
WantedBy=multi-user.target
EOT
```
А потом:
```
systemctl daemon-reload
systemctl enable --now sysfs_disable_ksm_numa_merge.service
```
Это сохраняется после перезагрузок и обновлений системы.

sdettmer

Guest

05.05.2024 13:54:00

systemd делает всё так просто! Раньше кто-нибудь должен был написать код: `echo 'echo 0 > /sys/kernel/mm/ksm/merge_across_nodes' >> /etc/rc.local`, и это даже работало в однопользовательском режиме. Какая удача, что нам это больше не нужно. SCNR.

Petbotson

Guest

21.11.2024 08:36:00

Всем привет, у меня возникла проблема на нескольких Windows Servers 2019, 2022 и 2025. Я использую ядро версии 6.8.

Код: proxmox-ve: 8.2.0 (ядро: 6.8.12-2-pve)
pve-manager: 8.2.7 (версия: 8.2.7/3e0176e6bb2ade3b)
proxmox-kernel-helper: 8.1.0
proxmox-kernel-6.8: 6.8.12-2
proxmox-kernel-6.8.12-2-pve-signed: 6.8.12-2
proxmox-kernel-6.8.8-4-pve-signed: 6.8.8-4
proxmox-kernel-6.8.8-3-pve-signed: 6.8.8-3
proxmox-kernel-6.8.4-2-pve-signed: 6.8.4-2
proxmox-kernel-6.5.13-5-pve: 6.5.13-5
ceph-fuse: 17.2.7-pve3
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx9
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.1
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.4
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.7
libpve-cluster-perl: 8.0.7
libpve-common-perl: 8.2.3
libpve-guest-common-perl: 5.1.4
libpve-http-server-perl: 5.1.1
libpve-network-perl: 0.9.8
libpve-rs-perl: 0.8.10
libpve-storage-perl: 8.2.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-4
proxmox-backup-client: 3.2.7-1
proxmox-backup-file-restore: 3.2.7-1
proxmox-firewall: 0.5.0
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.7
proxmox-widget-toolkit: 4.2.3
pve-cluster: 8.0.7
pve-container: 5.2.0
pve-docs: 8.2.3
pve-edk2-firmware: 4.2023.08-4
pve-esxi-import-tools: 0.7.2
pve-firewall: 5.0.7
pve-firmware: 3.13-2
pve-ha-manager: 4.0.5
pve-i18n: 3.2.3
pve-qemu-kvm: 9.0.2-3
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.4
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.6-pve1

Мои серверы оснащены только одним процессором: AMD EPYC 7302P 16-Core Processor. Когда я проверяю NUMA с помощью `numactl -H`, я вижу только один доступный узел:

Код: root@cc-vh03:~# numactl -H
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
node 0 size: 515620 MB
node 0 free: 248847 MB
node distances:
node 0
0: 1

Думаете, может ли помочь решение `echo 0 | sudo tee /proc/sys/kernel/numa_balancing` в моем случае? И устранили ли проблемы ядро 6.8?

scheibling

Guest

16.06.2025 00:22:00

Наконец-то, то, что сработало для меня — это переход с 2 сокета/8 ядер на 1 сокет/16 ядер. Похоже, процессору не понравилась эта комбинация типа "host" и несколько виртуальных процессоров, что, в принципе, логично.

Scott Devs

Guest

21.04.2024 11:43:00

У меня та же проблема, что и у тебя. Ничего подходящего по сети не нашёл. Думал, я один такой. Материнская плата: EP2C621D12 WS, CPU: 8222L * 2 (Два процессора), Память: 64G * 6, GPU: P40 * 2 + RX6600XT, HDD: Seagate ST20000NM007D 20T, SSD: Samsung 990 Pro 4T, Блок питания (PSU?): 1200W.

gfngfn256

Guest

21.04.2024 12:25:00

Не знаю, в чем у тебя проблема, но если ты, вероятно, не используешь Live Migration (или у тебя идентичные CPU системы), попробуй использовать другой тип CPU и посмотри на результаты. И, может, убедись, что Virtio драйвера в Windows Server VM обновлены. Насчет типов CPU: смотри тут для лучших практик.

sdettmer

Guest

22.04.2024 20:31:00

Привет, спасибо за быстрый ответ. Я использую тип CPU "host", потому что не использую Live Migration (иначе, насколько я знаю, нужно выбирать другой тип CPU). Ты думаешь, может быть, есть какая-то связь между временем CPU и моими кратковременными зависаниями? Какой тип стоит использовать для тестирования? У меня уже есть последняя стабильная версия (virtio-win-0.1.240.iso). Какие есть идеи, что попробовать дальше?

gfngfn256 Guest	#10 0 23.04.2024 21:34:00 Как насчет попробовать x86-64-v2-AES?

VictorSTS

Guest

#11

23.04.2024 22:24:00

Это звучит похоже на эту проблему [1], которая уже несколько месяцев существует, несмотря на многочисленные попытки её решить. Попробуйте использовать opt-in ядро 6.8 [2], кажется, что с ним она устранена. [1] https://forum.proxmox.com/threads/p...pu-issue-with-windows-server-2019-vms.130727/ [2] https://forum.proxmox.com/threads/o...le-on-test-no-subscription.144557/post-652354

sdettmer

Guest

#12

24.04.2024 14:40:00

Большое спасибо за подсказки! На самом деле, я уже читал, но подумал, что это не подойдет к моей проблеме, так как я не вижу 100% загрузки ЦП, но несколько сообщений пользователей действительно очень хорошо совпадают, поэтому думаю, что я могу столкнуться с той же проблемой. Спасибо, что обратил внимание, я планирую обновиться до ядра 6.8 (сегодня идеальный день для этого, как мне кажется).

sdettmer Guest	#13 0 24.04.2024 17:40:00 Спасибо большое, это оно! Смягчение (a-sdettmer@pve2:~$ echo 0 \| sudo tee /proc/sys/kernel/numa_balancing) действительно похоже, решило проблему!

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры