+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

ложные сообщения ядра с момента обновления до 7.2, Proxmox Виртуальная Среда

Bruno Félix

Guest

24.05.2022 16:49:00

Привет, я недавно обновил наш кластер до версии 7.2.4 (с последней 7.1), и файл /var/log/messages начал заполняться отчетами о крахах ядра: Код: 19 мая 17:00:05 pve01 kernel: [16498.218023] <TASK> 19 мая 17:00:05 pve01 kernel: [16498.266312] kthread+0x127/0x150 19 мая 17:00:05 pve01 kernel: [16498.271642] ? set_kthread_struct+0x50/0x50 19 мая 17:00:05 pve01 kernel: [16498.278014] ? throttle_active_work+0xe2/0x1f0 19 мая 17:00:05 pve01 kernel: [16498.304283] kthread+0x127/0x150 19 мая 17:00:06 pve01 kernel: [16499.239798] process_one_work+0x228/0x3d0 19 мая 17:00:06 pve01 kernel: [16499.337357] <TASK> 19 мая 17:00:06 pve01 kernel: [16499.341011] ? throttle_active_work+0xe2/0x1f0 19 мая 17:00:06 pve01 kernel: [16499.350852] ? process_one_work+0x3d0/0x3d0 19 мая 17:00:07 pve01 kernel: [16500.325987] Call Trace: 19 мая 17:00:07 pve01 kernel: [16500.329407] kthread+0x127/0x150 19 мая 17:00:07 pve01 kernel: [16500.330798] ? process_one_work+0x3d0/0x3d0 19 мая 17:00:08 pve01 kernel: [16501.350924] <TASK> 19 мая 17:00:08 pve01 kernel: [16501.354426] ? set_kthread_struct+0x50/0x50 19 мая 17:00:08 pve01 kernel: [16501.354885] <TASK> 19 мая 17:00:09 pve01 kernel: [16502.376740] worker_thread+0x53/0x410 19 мая 17:00:10 pve01 kernel: [16503.337078] ? set_kthread_struct+0x50/0x50 19 мая 17:00:10 pve01 kernel: [16503.462301] <TASK> 19 мая 17:00:11 pve01 kernel: [16504.359709] worker_thread+0x53/0x410 19 мая 17:00:12 pve01 kernel: [16505.516017] ? process_one_work+0x3d0/0x3d0 19 мая 17:00:13 pve01 kernel: [16506.471940] <TASK> 19 мая 17:00:13 pve01 kernel: [16506.477785] ? process_one_work+0x3d0/0x3d0 19 мая 17:00:13 pve01 kernel: [16506.480187] ? set_kthread_struct+0x50/0x50 19 мая 17:00:14 pve01 kernel: [16507.436723] ? set_kthread_struct+0x50/0x50 19 мая 17:00:14 pve01 kernel: [16507.437515] </TASK> 19 мая 17:00:15 pve01 kernel: [16508.588336] ? set_kthread_struct+0x50/0x50 19 мая 17:00:16 pve01 kernel: [16509.484090] kthread+0x127/0x150 19 мая 17:00:16 pve01 kernel: [16509.543859] worker_thread+0x53/0x410 19 мая 17:00:16 pve01 kernel: [16509.613053] </TASK> 19 мая 17:00:17 pve01 kernel: [16510.629877] Call Trace: 19 мая 17:00:18 pve01 kernel: [16511.591705] worker_thread+0x53/0x410 19 мая 17:00:18 pve01 kernel: [16511.660203] worker_thread+0x53/0x410 19 мая 17:00:19 pve01 kernel: [16512.615358] ? throttle_active_work+0xe2/0x1f0 19 мая 17:00:19 pve01 kernel: [16512.678853] ? throttle_active_work+0xe2/0x1f0 19 мая 17:00:20 pve01 kernel: [16513.637848] Call Trace: 19 мая 17:00:20 pve01 kernel: [16513.640556] worker_thread+0x53/0x410 19 мая 17:00:21 pve01 kernel: [16514.600594] worker_thread+0x53/0x410 19 мая 17:00:21 pve01 kernel: [16514.668270] worker_thread+0x53/0x410 19 мая 17:00:22 pve01 kernel: [16515.688179] worker_thread+0x53/0x410. Мы используем пул ceph, репликацию zfs, cgroup-v1, ошибка проявлялась только на вычислительных узлах. Использование ядра 5.13.19-6-pve вместо 5.15.35-1-pve решило проблему.

Bruno Félix Guest	#2 0 06.07.2022 09:36:00 проблема все еще существует в версии ядра 5.15.35-2-pve

kyriazis Guest	#3 0 03.08.2022 16:41:00 У меня тоже так происходит, хотя это касается не одного хоста. Есть идеи, когда это исправят? Спасибо!

Bruno Félix Guest	#4 0 09.08.2022 10:34:00 Надеялся на 5.15.39-1-pve... Это заняло больше времени, но потом снова случилось: логи сообщений теперь делают 250 Мб в день, возвращаясь к 5.13.19-6-pve. Есть идеи, как выявить причину?

kyriazis Guest	#5 0 03.10.2022 22:29:00 Есть какие-либо обновления по этому вопросу? Всё еще происходит с 5.15.60-1-pve Спасибо!

kyriazis

Guest

05.10.2022 04:35:00

@Bruno Félix, если ты всё ещё это видишь, можешь, пожалуйста, проверить, есть ли у узлов с этой проблемой установленная карта Intel Omnipath HFI? Если нет, может, какая-то другая карточка? Мы наблюдаем это только на машинах с HFI-картами.

zima

Guest

06.10.2022 00:50:00

Привет, у меня такая же проблема, идентичные серверы, те, что с BCM57412 NetXtreme-E 10Gb, имеют проблему, а вот с картами Intel все нормально. В логах на всех узлах проблема начинается с кода: Oct 5 14:11:45 kernel: [135939.389881] unchecked MSR access error: WRMSR to 0x19c (попробовали записать 0x0000000000002a80) на rIP: 0xffffffff99495074 (native_write_msr+0x4/0x30) Oct 5 14:11:45 kernel: [135939.389895] Call Trace: Oct 5 14:11:45 kernel: [135939.389896] <TASK> Oct 5 14:11:45 kernel: [135939.389897] ? throttle_active_work+0xe2/0x1f0 Oct 5 14:11:45 kernel: [135939.389905] process_one_work+0x228/0x3d0 Oct 5 14:11:45 kernel: [135939.389909] worker_thread+0x53/0x420 Oct 5 14:11:45 kernel: [135939.389911] ? process_one_work+0x3d0/0x3d0 Oct 5 14:11:45 kernel: [135939.389913] kthread+0x127/0x150 Oct 5 14:11:45 kernel: [135939.389917] ? set_kthread_struct+0x50/0x50 Oct 5 14:11:45 kernel: [135939.389920] ret_from_fork+0x1f/0x30 Oct 5 14:11:45 kernel: [135939.389925] </TASK>

kyriazis

Guest

06.10.2022 18:26:00

Провел небольшое исследование и выяснил, что это ложные логи для термического троттлинга prochot. Обратите внимание на следующую ссылку: https://www.spinics.net/lists/kernel/msg4380894.html Я могу подтвердить, что следующая команда: # wrmsr -a 0x19c 0x0a80 действительно устраняет ложные сообщения. Надеюсь, это не повлияет на поведение системного prochot, а только на логирование. Это касается процессоров Cascade Lake 8260. Это временное решение. Предположительно, в "скором" времени выйдет обновленный ядро/микрокод, который это исправит.

jt-socal Guest	#9 0 08.04.2023 16:07:00 Я решил эту проблему, установив последний микрокод с помощью команды "apt install intel-microcode", что потребовало включения non-free в источниках, что привело к необходимости включения contrib в источниках. Ранее из /proc/cpuinfo: microcode : 0x2006a08 Теперь: microcode : 0x2006d05

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры