+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

VE 4.0 Ядро паника на серверах HP Proliant, Proxmox Виртуальная Среда

mensinck

Guest

19.10.2015 18:09:00

У нас есть 2 лаборатории, настроенные на Proxmox VE 4.0 с последней ISO-версии. В одной лаборатории стоят серверы HP ProLiant, и у нас возникает массовый kernel panic на модуле hpwdt.ko. К сожалению, у нас нет трассировки из-за проклятого ILO от HP

, но я дам больше информации, как только смогу это поймать. У нас есть кластер Ceph с 3 хостами, 3 монитора работают в этой лаборатории, и всё, кажется, в порядке. Мы можем запускать виртуальные машины, а также мигрировать их, но как только вы активируете HA для любой ВМ, мы получаем kernel panic на модуле hhwdt.ko. У нас есть DL 360 G6 (с последними патчами BIOS) и DL 380 G, работающие в этой лаборатории. Вот версии, которые мы используем: proxmox-ve: 4.0-16 (работающий ядро: 4.2.2-1-pve) pve-manager: 4.0-50 (работающая версия: 4.0-50/d3a6b7e5) pve-kernel-4.2.2-1-pve: 4.2.2-16 lvm2: 2.02.116-pve1 corosync-pve: 2.3.5-1 libqb0: 0.17.2-1 pve-cluster: 4.0-23 qemu-server: 4.0-31 pve-firmware: 1.1-7 libpve-common-perl: 4.0-32 libpve-access-control: 4.0-9 libpve-storage-perl: 4.0-27 pve-libspice-server1: 0.12.5-1 vncterm: 1.2-1 pve-qemu-kvm: 2.4-10 pve-container: 1.0-10 pve-firewall: 2.0-12 pve-ha-manager: 1.0-10 ksm-control-daemon: 1.2-1 glusterfs-client: 3.5.2-2+deb8u1 lxc-pve: 1.1.3-1 lxcfs: 0.9-pve2 cgmanager: 0.37-pve2 criu: 1.6.0-1 zfsutils: 0.6.5-pve4~jessie. Известно ли что-то о таких kernel panic? Я нашёл несколько подсказок в поисках. - Предлагалось добавить hpwdt в черный список, но это не является решением для VE, так как нам нужны интерфейсы watchdog. - Я также пробовал параметры grub: -- noautogroup и -- intel_idle.max_cstates=0, но безуспешно. Поскольку у нас нет отладочных символов для ядра (я не нашёл ни одного пакета по этому поводу...), я не смог использовать kdump для захвата panic. Есть ли какие-то советы, которые могут помочь, или кто-то сталкивался с подобной проблемой?

pipomambo

Guest

11.11.2015 16:18:00

Здравствуйте, у нас точно такая же проблема. У нас кластер на Proxmox V4.0-48 с двумя Dell R900 и одним HP DL380 G9. Это происходит только на сервере HP. При загруженном модуле hpwdt случайно происходит паника ядра. Без модуля сервер перезагружается. Это случается случайным образом, но в основном, когда мы используем живую миграцию. Вы нашли обходное решение?

adamb

Guest

11.11.2015 16:27:00

Это не совсем та же проблема. Я вижу, что паника ядра возникает только во время запуска виртуальной машины, и в это время загрузка процессора взлетает до небес. Возможно, они связаны, но звучат немного иначе. Если вернуться к ядру 4.1 или 3.9 на HP, проблема исчезает?

pipomambo Guest	#4 0 11.11.2015 16:53:00 Я только что обновил ядро с 4.2.2-1 до 4.2.3-2 для теста. Проблема возникает чаще всего при использовании живой миграции. В каком-то смысле ВМ останавливается и запускается... но это немного по-другому, ты прав.

adamb Guest	#5 0 11.11.2015 17:17:00 Все еще стоит попробовать старые ядра 4.1 или 3.9. Моя проблема решена на старых ядрах.

debi@n

Guest

12.11.2015 08:31:00

Привет всем! Это мой первый пост на forum.proxmox. Спасибо за этот пост и помощь. Я протестировал это на серверах HP ProLiant. ILO+Watchdog на Linux вызывает ядро паники, когда вы используете HA на Proxmox. Но вы можете решить это следующим образом: модуль, который это вызывает, — hpwdt. Вам нужно сделать следующее на каждом HP узле: Код: lsmod|grep hpwdt (проверьте, загружен ли этот модуль) Остановите службу watchdog-mux Код: service watchdog-mux stop Добавьте модуль в черный список: Код: nano /etc/modprobe.d/pve-blacklist.conf Запишите в файл следующее: Код: blacklist hpwdt Сохраните файл и перезагрузите Код: reboot Проверьте снова, что модуль больше не загружается. Код: lsmod|grep hpwdt Моя конфигурация: 2 сервера HP ProLiant + 1 другая машина с Proxmox 4. HA теперь работает.

tatyrza Guest	#7 0 16.11.2015 08:44:00 Привет! У меня есть HP DL320e Gen8 v2, и ваше решение подошло мне. Спасибо, что поделились!

aderumier Guest	#8 0 16.11.2015 11:28:00 ubuntu также отключил это по умолчанию. https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1432837 Но это может быть проблемой конфигурации ilo, когда таймер watchdog включен через hpwdt. Возможно, есть настройка таймаута где-то в ilo?

aderumier

Guest

16.11.2015 11:37:00

Я также нашел заметку здесь: https://lkml.org/lkml/2014/4/25/184 "hpwdt может не работать должным образом, если одновременно запущен hp-asrd. +Поскольку и hpwdt, и hp-asrd обновляют один и тот же таймер наблюдения iLO." У вас запущен демон hp-asrd? (возможно, из каких-то пакетов управления hp?)

aderumier Guest	#10 0 20.11.2015 11:00:00 Привет, другой способ — отключить контроллер платы, чтобы по умолчанию использовать контроллер HP iLO. Код: редактировать: /etc/default/grub GRUB_CMDLINE_LINUX_DEFAULT="nmi_watchdog=0" #update-grub #reboot

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры