+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

KVM теряет дисковые накопители., Proxmox Виртуальная Среда

PretoX

Guest

14.01.2017 08:30:00

Привет всем!

Вот информация о системе:
pveversion -v proxmox-ve: 4.4-76 (running kernel: 4.4.21-1-pve)
pve-manager: 4.4-2 (running version: 4.4-2/80259e05)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-4.4.13-1-pve: 4.4.13-56
pve-kernel-4.4.35-1-pve: 4.4.35-76
pve-kernel-4.2.6-1-pve: 4.2.6-36
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-4.4.19-1-pve: 4.4.19-66
pve-kernel-4.4.10-1-pve: 4.4.10-54
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-48
qemu-server: 4.0-102
pve-firmware: 1.1-10
libpve-common-perl: 4.0-84
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-70
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.4-1
pve-qemu-kvm: 2.7.0-9
pve-container: 1.0-89
pve-firewall: 2.0-33
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.6-2
lxcfs: 2.0.5-pve1
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80

К сожалению, у меня пока нет текстовых логов, только скриншоты. Проблема в том, что раз в 2-3 дня VM’s падают с сообщениями, показанными на приложенных картинках:
[Список изображений]

Первый случай: получали сообщения об ошибках e1000, поэтому заменил сетевые карты на RTL и ошибки исчезли.
Второй случай: Судя по всему, потерялся хотя бы диск подкачки. Также отмечаю высокую загрузку CPU с длинной очередью ожидания ввода/вывода (WA queue) перед падением VM, что указывает на проблему с дисками. Смена планировщика с cfq не помогла.

И вчера у меня упала FreeBSD VM:
[Изображение FreeBSD VM]

Мы используем ZFS и pve-zsync для резервного копирования. Предположил, что pve-zsync блокирует RAID-массив, особенно при резервном копировании через агрегированные интерфейсы с максимальной скоростью. Снизил скорость до 20 МБ/с, но падения продолжаются.

Предположил, что проблема может быть связана с Cloudlinux 6.8/Centos 6 и ядром 2.6 (есть сообщения о плохой работе ядра 2.6 с KVM), но эти проблемы уже считаются решенными несколько лет назад.

Пожалуйста, помогите! Просто подумал, может быть, смена типа хранилища с ZFS на QCOW2 файлы поможет?

fabian

Guest

01.02.2017 10:54:00

Этот патч, на который ты дал ссылку, ещё в 4.3 включён в основной Linux. Ты, наверное, имеешь в виду гостевой ядро, верно? Предполагаю, что ты говоришь о PVE 4.3 (эта "близость" номеров версий ядра и PVE иногда сбивает с толку, извини). Если да, то я бы посоветовал попробовать с более старой версией Qemu (например, 2.6.x), чтобы сузить круг подозреваемых. Что-нибудь видишь в логах хоста? Ты отслеживаешь ситуацию с памятью и вводом/выводом на хосте?

PretoX

Guest

31.01.2017 18:21:00

Ребята из CL предложили новый ядро: Мы выпустили ядро, в которое включен необходимый патч, пожалуйста, рассмотрите возможность обновления и перезагрузки, чтобы начать его использовать: yum install kernel-2.6.32-673.26.1.lve1.4.21.el6 kmod-lve-1.4-21.el6 --enablerepo=cloudlinux-updates-testing Но это не помогло. Пока что виноват он: https://github.com/zfsonlinux/zfs/issues/4345 Тестирование лимитов для arc

fabian Guest	#4 0 01.02.2017 10:34:00 Случайно это было связано с ядром 4.4.35-1? @PretoX: если я правильно понимаю, это проблема с виртуальными машинами, использующими устаревшие ядра?

PretoX

Guest

01.02.2017 10:40:00

Нет, мой последний пост был сделан с новым тестовым ядром, собранным по моему запросу в службу поддержки CloudLinux. Они внесли обновления ядра на основе наших дампов памяти. Виртуальная машина снова упала сегодня на 4.4.35-2-pve. Это не происходило на 4.3.

Спойлер: pveversion -v
# pveversion -v
proxmox-ve: 4.4-78 (ядро: 4.4.35-2-pve)
pve-manager: 4.4-5 (версия: 4.4-5/c43015a5)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-4.4.13-1-pve: 4.4.13-56
pve-kernel-4.4.35-1-pve: 4.4.35-77
pve-kernel-4.2.6-1-pve: 4.2.6-36
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.35-2-pve: 4.4.35-78
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-4.4.19-1-pve: 4.4.19-66
pve-kernel-4.4.10-1-pve: 4.4.10-54
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-48
qemu-server: 4.0-102
pve-firmware: 1.1-10
libpve-common-perl: 4.0-85
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-71
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.4-1
pve-qemu-kvm: 2.7.0-10
pve-container: 1.0-90
pve-firewall: 2.0-33
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u3
lxc-pve: 2.0.6-5
lxcfs: 2.0.5-pve2
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80

PretoX

Guest

01.02.2017 11:57:00

Да, извините, патч для гостевого ядра CloudLinux. Да, я мониторю оперативку (около 90 Гб из 190 используется), и задержка ввода-вывода на уровне 16% во время остановки ВМ. Насколько я помню, ВМ была стабильна 23 ноября 2016 года, не уверен, какое ядро было последним в то время.

Вот лог загрузки ВМ, во время этих сообщений ВМ полностью зависает.

Спойлер: логи

Feb 1 10:13:22 PM1-BNE2 pvedaemon[35464]: start VM 102: UPID M1-BNE2:00008A88:04249E8F:58912822:qmstart:102 retox@pam:
Feb 1 10:13:22 PM1-BNE2 systemd[1]: Starting 102.scope.
Feb 1 10:13:22 PM1-BNE2 systemd[1]: Started 102.scope.
Feb 1 10:13:22 PM1-BNE2 kernel: [695059.736954] device tap102i0 entered promiscuous mode
Feb 1 10:13:22 PM1-BNE2 kernel: [695059.742538] vmbr0: port 28(tap102i0) entered forwarding state
Feb 1 10:13:22 PM1-BNE2 kernel: [695059.742561] vmbr0: port 28(tap102i0) entered forwarding state
Feb 1 10:13:23 PM1-BNE2 kernel: [695060.176056] device tap102i1 entered promiscuous mode
Feb 1 10:13:23 PM1-BNE2 kernel: [695060.181259] vmbr0: port 29(tap102i1) entered forwarding state
Feb 1 10:13:23 PM1-BNE2 kernel: [695060.181281] vmbr0: port 29(tap102i1) entered forwarding state
Feb 1 10:13:25 PM1-BNE2 kernel: [695062.317207] kvm: zapping shadow pages for mmio generation wraparound
Feb 1 10:13:25 PM1-BNE2 kernel: [695062.319280] kvm: zapping shadow pages for mmio generation wraparound
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.288111] kvm [35472]: vcpu0 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.427009] kvm [35472]: vcpu1 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.458670] kvm [35472]: vcpu2 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.490319] kvm [35472]: vcpu3 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.522057] kvm [35472]: vcpu4 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.553692] kvm [35472]: vcpu5 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.585286] kvm [35472]: vcpu6 unhandled rdmsr: 0xce
Feb 1 10:13:55 PM1-BNE2 kernel: [695092.617008] kvm [35472]: vcpu7 unhandled rdmsr: 0xce

Alessandro 123 Guest	#7 0 02.02.2017 20:47:00 И вот, эта проблема затрагивает только ВМ с ядром CloudLinux?

rdtsupport Guest	#8 0 15.11.2024 14:03:00 Похожая проблема замечена в дистрибутивах Fedora: https://forum.proxmox.com/threads/f...t2-0-0-target-reset-operation-started.157452/

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры