Привет всем!
Вот информация о системе:
pveversion -v proxmox-ve: 4.4-76 (running kernel: 4.4.21-1-pve)
pve-manager: 4.4-2 (running version: 4.4-2/80259e05)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-4.4.13-1-pve: 4.4.13-56
pve-kernel-4.4.35-1-pve: 4.4.35-76
pve-kernel-4.2.6-1-pve: 4.2.6-36
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-4.4.19-1-pve: 4.4.19-66
pve-kernel-4.4.10-1-pve: 4.4.10-54
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-48
qemu-server: 4.0-102
pve-firmware: 1.1-10
libpve-common-perl: 4.0-84
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-70
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.4-1
pve-qemu-kvm: 2.7.0-9
pve-container: 1.0-89
pve-firewall: 2.0-33
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.6-2
lxcfs: 2.0.5-pve1
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80
К сожалению, у меня пока нет текстовых логов, только скриншоты. Проблема в том, что раз в 2-3 дня VM’s падают с сообщениями, показанными на приложенных картинках:
[Список изображений]
Первый случай: получали сообщения об ошибках e1000, поэтому заменил сетевые карты на RTL и ошибки исчезли.
Второй случай: Судя по всему, потерялся хотя бы диск подкачки. Также отмечаю высокую загрузку CPU с длинной очередью ожидания ввода/вывода (WA queue) перед падением VM, что указывает на проблему с дисками. Смена планировщика с cfq не помогла.
И вчера у меня упала FreeBSD VM:
[Изображение FreeBSD VM]
Мы используем ZFS и pve-zsync для резервного копирования. Предположил, что pve-zsync блокирует RAID-массив, особенно при резервном копировании через агрегированные интерфейсы с максимальной скоростью. Снизил скорость до 20 МБ/с, но падения продолжаются.
Предположил, что проблема может быть связана с Cloudlinux 6.8/Centos 6 и ядром 2.6 (есть сообщения о плохой работе ядра 2.6 с KVM), но эти проблемы уже считаются решенными несколько лет назад.
Пожалуйста, помогите! Просто подумал, может быть, смена типа хранилища с ZFS на QCOW2 файлы поможет?
Вот информация о системе:
pveversion -v proxmox-ve: 4.4-76 (running kernel: 4.4.21-1-pve)
pve-manager: 4.4-2 (running version: 4.4-2/80259e05)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-4.4.13-1-pve: 4.4.13-56
pve-kernel-4.4.35-1-pve: 4.4.35-76
pve-kernel-4.2.6-1-pve: 4.2.6-36
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-4.4.19-1-pve: 4.4.19-66
pve-kernel-4.4.10-1-pve: 4.4.10-54
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-48
qemu-server: 4.0-102
pve-firmware: 1.1-10
libpve-common-perl: 4.0-84
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-70
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.4-1
pve-qemu-kvm: 2.7.0-9
pve-container: 1.0-89
pve-firewall: 2.0-33
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.6-2
lxcfs: 2.0.5-pve1
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80
К сожалению, у меня пока нет текстовых логов, только скриншоты. Проблема в том, что раз в 2-3 дня VM’s падают с сообщениями, показанными на приложенных картинках:
[Список изображений]
Первый случай: получали сообщения об ошибках e1000, поэтому заменил сетевые карты на RTL и ошибки исчезли.
Второй случай: Судя по всему, потерялся хотя бы диск подкачки. Также отмечаю высокую загрузку CPU с длинной очередью ожидания ввода/вывода (WA queue) перед падением VM, что указывает на проблему с дисками. Смена планировщика с cfq не помогла.
И вчера у меня упала FreeBSD VM:
[Изображение FreeBSD VM]
Мы используем ZFS и pve-zsync для резервного копирования. Предположил, что pve-zsync блокирует RAID-массив, особенно при резервном копировании через агрегированные интерфейсы с максимальной скоростью. Снизил скорость до 20 МБ/с, но падения продолжаются.
Предположил, что проблема может быть связана с Cloudlinux 6.8/Centos 6 и ядром 2.6 (есть сообщения о плохой работе ядра 2.6 с KVM), но эти проблемы уже считаются решенными несколько лет назад.
Пожалуйста, помогите! Просто подумал, может быть, смена типа хранилища с ZFS на QCOW2 файлы поможет?
