У нас есть 2 лаборатории, настроенные на Proxmox VE 4.0 с последней ISO-версии. В одной лаборатории стоят серверы HP ProLiant, и у нас возникает массовый kernel panic на модуле hpwdt.ko. К сожалению, у нас нет трассировки из-за проклятого ILO от HP
, но я дам больше информации, как только смогу это поймать. У нас есть кластер Ceph с 3 хостами, 3 монитора работают в этой лаборатории, и всё, кажется, в порядке. Мы можем запускать виртуальные машины, а также мигрировать их, но как только вы активируете HA для любой ВМ, мы получаем kernel panic на модуле hhwdt.ko. У нас есть DL 360 G6 (с последними патчами BIOS) и DL 380 G, работающие в этой лаборатории. Вот версии, которые мы используем: proxmox-ve: 4.0-16 (работающий ядро: 4.2.2-1-pve) pve-manager: 4.0-50 (работающая версия: 4.0-50/d3a6b7e5) pve-kernel-4.2.2-1-pve: 4.2.2-16 lvm2: 2.02.116-pve1 corosync-pve: 2.3.5-1 libqb0: 0.17.2-1 pve-cluster: 4.0-23 qemu-server: 4.0-31 pve-firmware: 1.1-7 libpve-common-perl: 4.0-32 libpve-access-control: 4.0-9 libpve-storage-perl: 4.0-27 pve-libspice-server1: 0.12.5-1 vncterm: 1.2-1 pve-qemu-kvm: 2.4-10 pve-container: 1.0-10 pve-firewall: 2.0-12 pve-ha-manager: 1.0-10 ksm-control-daemon: 1.2-1 glusterfs-client: 3.5.2-2+deb8u1 lxc-pve: 1.1.3-1 lxcfs: 0.9-pve2 cgmanager: 0.37-pve2 criu: 1.6.0-1 zfsutils: 0.6.5-pve4~jessie. Известно ли что-то о таких kernel panic? Я нашёл несколько подсказок в поисках. - Предлагалось добавить hpwdt в черный список, но это не является решением для VE, так как нам нужны интерфейсы watchdog. - Я также пробовал параметры grub: -- noautogroup и -- intel_idle.max_cstates=0, но безуспешно. Поскольку у нас нет отладочных символов для ядра (я не нашёл ни одного пакета по этому поводу...), я не смог использовать kdump для захвата panic. Есть ли какие-то советы, которые могут помочь, или кто-то сталкивался с подобной проблемой?
, но я дам больше информации, как только смогу это поймать. У нас есть кластер Ceph с 3 хостами, 3 монитора работают в этой лаборатории, и всё, кажется, в порядке. Мы можем запускать виртуальные машины, а также мигрировать их, но как только вы активируете HA для любой ВМ, мы получаем kernel panic на модуле hhwdt.ko. У нас есть DL 360 G6 (с последними патчами BIOS) и DL 380 G, работающие в этой лаборатории. Вот версии, которые мы используем: proxmox-ve: 4.0-16 (работающий ядро: 4.2.2-1-pve) pve-manager: 4.0-50 (работающая версия: 4.0-50/d3a6b7e5) pve-kernel-4.2.2-1-pve: 4.2.2-16 lvm2: 2.02.116-pve1 corosync-pve: 2.3.5-1 libqb0: 0.17.2-1 pve-cluster: 4.0-23 qemu-server: 4.0-31 pve-firmware: 1.1-7 libpve-common-perl: 4.0-32 libpve-access-control: 4.0-9 libpve-storage-perl: 4.0-27 pve-libspice-server1: 0.12.5-1 vncterm: 1.2-1 pve-qemu-kvm: 2.4-10 pve-container: 1.0-10 pve-firewall: 2.0-12 pve-ha-manager: 1.0-10 ksm-control-daemon: 1.2-1 glusterfs-client: 3.5.2-2+deb8u1 lxc-pve: 1.1.3-1 lxcfs: 0.9-pve2 cgmanager: 0.37-pve2 criu: 1.6.0-1 zfsutils: 0.6.5-pve4~jessie. Известно ли что-то о таких kernel panic? Я нашёл несколько подсказок в поисках. - Предлагалось добавить hpwdt в черный список, но это не является решением для VE, так как нам нужны интерфейсы watchdog. - Я также пробовал параметры grub: -- noautogroup и -- intel_idle.max_cstates=0, но безуспешно. Поскольку у нас нет отладочных символов для ядра (я не нашёл ни одного пакета по этому поводу...), я не смог использовать kdump для захвата panic. Есть ли какие-то советы, которые могут помочь, или кто-то сталкивался с подобной проблемой?