У меня проблема с одним LXC-контейнером, который вызывает полную остановку/сбой системы уже 1,5 года. Это началось 15 ноября 2023 года, тогда использовалось ядро 6.2.16-19-pve (pve-enterprise), и проблема всё ещё возникает с самым свежим ядром Proxmox VE 6.8.12-9-pve (pve-no-subscription). Проблема возникает только из-за этого контейнера, в то время как 50+ других контейнеров (все на последних Debian Bookworm и все на последних Proxmox VE с ZFS) никогда не вызывали подобных проблем. Я уже переносил этот проблемный контейнер на 5 разных физических серверов, и он умудрялся их все поломать. Иногда контейнер работает 5-10 дней, а иногда падает несколько раз в день. В 80% случаев хост просто зависает, и единственный способ его оживить – перезагрузка питания. В 20% случаев он просто перезагружается после сбоя. Я проверяю логи после каждого сбоя, но никогда не находил ничего подозрительного (кроме долго работающих PHP FPM процессов, которые распределены по всему дню) до сбоя. При перезагрузке syslog сообщает: Code: 2025-04-03T10:29:13.430445+02:00 hn7 systemd-pstore[833]: PStore dmesg-erst-7489000355091447809.enc.z перемещён в /var/lib/systemd/pstore/dmesg-erst-7489000355091447809.enc.z. Я не знаю, как декодировать этот файл. Предыдущий (из старого ядра, в данном случае 6.8.12-1-pve), не закодированный `dmesg-erst-7403549738764599297`, сообщал о segfaults: Code: <6>[34266.440354] perf: interrupt took too long (6279 > 2673), lowering kernel.perf_event_max_sample_rate to 31000
<6>[36428.354318] connection[4951]: segfault at 20 ip 000078e4427c8cdc sp 000078e435ffd600 error 4 in libc.so.6[78e442757000+155000] likely on CPU 7 (core 1, socket 1)
<6>[36428.354337] Code: c0 04 0f 85 98 03 00 00 4c 39 c0 72 e9 44 89 6c 24 18 74 61 48 8b 46 28 66 48 0f 6e c6 66 48 0f 6e d0 66 0f 6c c2 0f 11 42 20 <48> 39 70 20 0f 85 be 01 00 00 48 89 56 28 48 8b 42 28 49 89 f0 48
<6>[36428.354430] connection[2915]: segfault at 0 ip 000057b03063c99f sp 000078e4379788a0 error 4 in mysqld[57b02efaf000+1dc0000] likely on CPU 12 (core 0, socket 0)
<6>[36428.354457] Code: 8d 05 75 fa ed 01 48 0f af d1 48 29 d6 48 8b 10 31 c0 48 39 ce 0f 93 c0 48 0f af c1 48 29 c6 48 8d 04 76 48 c1 e0 06 48 03 02 <8b> 00 48 83 bd a0 f2 ff ff 02 77 0b 3d 00 00 00 10 0f 8f 62 21 00
<6>[36428.367509] php-fpm8.2[514910]: segfault at 0 ip 000060b28a765455 sp 00007ffd3037e800 error 4 in php-fpm8.2[60b28a544000+309000] likely on CPU 11 (core 5, socket 1)
<6>[36428.367522] Code: 31 c0 c7 47 10 ff ff ff ff f3 0f 6f 07 48 c7 47 18 00 00 00 00 48 8d 3d d9 5b 27 00 0f 29 04 24 0f 29 4c 24 10 e8 8b ef ff ff <48> 8b 00 48 8b 00 48 85 c0 74 05 48 89 e7 ff d0 48 8b 44 24 28 64
<4>[36428.367811] slab proc_inode_cache start ffff9d8c06a21e98
<4>[36428.367815] slab proc_inode_cache
<4>[36428.367816] pointer offset 384
<4>[36428.367819] size 704 На сегодняшнем сбое я был залогинен на (физическом) хосте во время происшествия и появились эти сообщения: Code: :
Сообщение из syslogd@hn7 от Apr 3 10:26:13 ...
kernel:[13981.116924] usercopy: Обнаружена попытка перезаписи памяти ядра в vmalloc 'no area' (смещение 0, размер 4096)!
Сообщение из syslogd@hn7 от Apr 3 10:26:13 ...
kernel:[13981.116924] usercopy: Обнаружена попытка перезаписи памяти ядра в vmalloc 'no area' (смещение 0, размер 4096)! LXC конфигурация: Bash: hn7$ pct config 172
arch: amd64
cpulimit: 16
cpuunits: 256
features: nesting=1
hostname: s002.example.com
memory: 49152
net0: name=eth0,bridge=vmbr0,gw=x.x.x.x,hwaddr=XX:XX:XX:XX:XX:6B,ip=x.x.x.x/25,type=veth
onboot: 1
ostype: debian
rootfs: zfsvols:subvol-172-disk-1,acl=1
swap: 1024 Я никогда не видел сообщения OOM в syslog. В текущей настройке я запускаю этот LXC контейнер как единственный на хост-ноде, в котором 128 ГБ памяти, поэтому выделенные 48 ГБ для этого контейнера не должны быть проблемой. Буду очень благодарен за любую помощь!
<6>[36428.354318] connection[4951]: segfault at 20 ip 000078e4427c8cdc sp 000078e435ffd600 error 4 in libc.so.6[78e442757000+155000] likely on CPU 7 (core 1, socket 1)
<6>[36428.354337] Code: c0 04 0f 85 98 03 00 00 4c 39 c0 72 e9 44 89 6c 24 18 74 61 48 8b 46 28 66 48 0f 6e c6 66 48 0f 6e d0 66 0f 6c c2 0f 11 42 20 <48> 39 70 20 0f 85 be 01 00 00 48 89 56 28 48 8b 42 28 49 89 f0 48
<6>[36428.354430] connection[2915]: segfault at 0 ip 000057b03063c99f sp 000078e4379788a0 error 4 in mysqld[57b02efaf000+1dc0000] likely on CPU 12 (core 0, socket 0)
<6>[36428.354457] Code: 8d 05 75 fa ed 01 48 0f af d1 48 29 d6 48 8b 10 31 c0 48 39 ce 0f 93 c0 48 0f af c1 48 29 c6 48 8d 04 76 48 c1 e0 06 48 03 02 <8b> 00 48 83 bd a0 f2 ff ff 02 77 0b 3d 00 00 00 10 0f 8f 62 21 00
<6>[36428.367509] php-fpm8.2[514910]: segfault at 0 ip 000060b28a765455 sp 00007ffd3037e800 error 4 in php-fpm8.2[60b28a544000+309000] likely on CPU 11 (core 5, socket 1)
<6>[36428.367522] Code: 31 c0 c7 47 10 ff ff ff ff f3 0f 6f 07 48 c7 47 18 00 00 00 00 48 8d 3d d9 5b 27 00 0f 29 04 24 0f 29 4c 24 10 e8 8b ef ff ff <48> 8b 00 48 8b 00 48 85 c0 74 05 48 89 e7 ff d0 48 8b 44 24 28 64
<4>[36428.367811] slab proc_inode_cache start ffff9d8c06a21e98
<4>[36428.367815] slab proc_inode_cache
<4>[36428.367816] pointer offset 384
<4>[36428.367819] size 704 На сегодняшнем сбое я был залогинен на (физическом) хосте во время происшествия и появились эти сообщения: Code: :
Сообщение из syslogd@hn7 от Apr 3 10:26:13 ...
kernel:[13981.116924] usercopy: Обнаружена попытка перезаписи памяти ядра в vmalloc 'no area' (смещение 0, размер 4096)!
Сообщение из syslogd@hn7 от Apr 3 10:26:13 ...
kernel:[13981.116924] usercopy: Обнаружена попытка перезаписи памяти ядра в vmalloc 'no area' (смещение 0, размер 4096)! LXC конфигурация: Bash: hn7$ pct config 172
arch: amd64
cpulimit: 16
cpuunits: 256
features: nesting=1
hostname: s002.example.com
memory: 49152
net0: name=eth0,bridge=vmbr0,gw=x.x.x.x,hwaddr=XX:XX:XX:XX:XX:6B,ip=x.x.x.x/25,type=veth
onboot: 1
ostype: debian
rootfs: zfsvols:subvol-172-disk-1,acl=1
swap: 1024 Я никогда не видел сообщения OOM в syslog. В текущей настройке я запускаю этот LXC контейнер как единственный на хост-ноде, в котором 128 ГБ памяти, поэтому выделенные 48 ГБ для этого контейнера не должны быть проблемой. Буду очень благодарен за любую помощь!
