У меня есть контейнер, который не удалось запустить, и зависший pveproxy, который блокирует любую новую активность на узле, отображаясь с серым вопросительным знаком в интерфейсе. Сам pveproxy, похоже, работает: Код: # service pveproxy status
● pveproxy.service - PVE API Proxy Server
Загрузен: загружен (/lib/systemd/system/pveproxy.service; включено; предустановка: включено)
Активен: активен (работает) с вт 2018-01-09 09:18:38 PST; 1 неделя 5 дней назад
Процесс: 3186117 ExecReload=/usr/bin/pveproxy restart (код=выход, статус=0/УСПЕХ)
Процесс: 15563 ExecStart=/usr/bin/pveproxy start (код=выход, статус=0/УСПЕХ)
Основной PID: 15628 (pveproxy)
Задачи: 4 (ограничение: 4915)
Память: 179.8М
ЦП: 6мин 36.275с
CGroup: /system.slice/pveproxy.service
├─ 15628 pveproxy
├─569289 pveproxy worker
├─681981 pveproxy worker
└─761737 pveproxy worker
21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:46:47 sky11 pveproxy[3186692]: рабочий процесс завершился
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 3186692 завершен
21 янв 13:46:47 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 681981 запущен
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 310902 завершен
21 янв 14:06:24 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 761737 запущен
21 янв 14:06:25 sky11 pveproxy[761736]: рабочий процесс завершен, однако команда pct list просто висит. Просматривая ps, я вижу это: 581286 ? Ds 0:13 [lxc monitor] /var/lib/lxc 20103 вместе с множеством соответствующих lxc-info. Попытка убить процесс с помощью kill -9 ничего не дает, и strace также ничего не показывает. Перезапуск pveproxy ничего не меняет. Нет зависших монтирований, и ceph показывает, что все в порядке. rbd для контейнера можно смонтировать с помощью pct mount, но попытка выполнить fsck сообщает, что диск все еще используется (что логично, задача контейнера все еще присутствует). У меня два вопроса: 1. Что вызывает это? 2. Есть ли способ исправить это, не перезагружая узел? диагностические данные: Код: # cat /proc/581286/wchan
call_rwsem_down_write_failedroot
# cat /proc/581286/stack
[<ffffffffbc3283f7>] call_rwsem_down_write_failed+0x17/0x30
[<ffffffffbbbd1a29>] unregister_shrinker+0x19/0x60
[<ffffffffbbc5641b>] deactivate_locked_super+0x3b/0x70
[<ffffffffbbc5693e>] deactivate_super+0x4e/0x60
[<ffffffffbbc785ff>] cleanup_mnt+0x3f/0x80
[<ffffffffbbc78682>] __cleanup_mnt+0x12/0x20
[<ffffffffbbaa5480>] task_work_run+0x80/0xa0
[<ffffffffbba031c4>] exit_to_usermode_loop+0xc4/0xd0
[<ffffffffbba03a19>] syscall_return_slowpath+0x59/0x60
[<ffffffffbc4000ec>] entry_SYSCALL_64_fastpath+0x7f/0x81
[<ffffffffffffffff>] 0xffffffffffffffff
# cat /proc/581286/status
Имя: lxc-start
Umask: 0022
Состояние: D (диск спит)
Tgid: 581286
Ngid: 0
Pid: 581286
PPid: 1
TracerPid: 0
Uid: 0 0 0 0
Gid: 0 0 0 0
FDSize: 64
Группы:
NStgid: 581286
NSpid: 581286
NSpgid: 581286
NSsid: 581286
VmPeak: 50260 кБ
VmSize: 50216 кБ
VmLck: 0 кБ
VmPin: 0 кБ
VmHWM: 3616 кБ
VmRSS: 3600 кБ
RssAnon: 744 кБ
RssFile: 2856 кБ
RssShmem: 0 кБ
VmData: 496 кБ
VmStk: 132 кБ
VmExe: 16 кБ
VmLib: 6312 кБ
VmPTE: 116 кБ
VmPMD: 12 кБ
VmSwap: 0 кБ
HugetlbPages: 0 кБ
Потоки: 1
SigQ: 9/644304
SigPnd: 0000000000000100
ShdPnd: 0000000000000100
SigBlk: fffffffe77fbfab7
SigIgn: 0000000000001000
SigCgt: 0000000180000000
CapInh: 0000000000000000
CapPrm: 0000003fffffffff
CapEff: 0000003fffffffff
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
NoNewPrivs: 0
Seccomp: 0
Cpus_allowed: ffffffff
Cpus_allowed_list: 0-31
Mems_allowed: 00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000003
Mems_allowed_list: 0-1
добровольные_переключения_контекста: 580526
недобровольные_переключения_контекста: 393 системная информация: Код: # pveversion -v
proxmox-ve: 5.1-34 (работает ядро: 4.13.13-3-pve)
pve-manager: 5.1-41 (работает версия: 5.1-41/0b958203)
pve-kernel-4.13.4-1-pve: 4.13.4-26
pve-kernel-4.13.13-2-pve: 4.13.13-33
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.13.8-3-pve: 4.13.8-30
pve-kernel-4.13.13-3-pve: 4.13.13-34
pve-kernel-4.10.17-3-pve: 4.10.17-23
libpve-http-server-perl: 2.0-8
lvm2: 2.02.168-pve6
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-19
qemu-server: 5.0-18
pve-firmware: 2.0-3
libpve-common-perl: 5.0-25
libpve-guest-common-perl: 2.0-14
libpve-access-control: 5.0-7
libpve-storage-perl: 5.0-17
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-3
pve-docs: 5.1-15
pve-qemu-kvm: 2.9.1-5
pve-container: 2.0-18
pve-firewall: 3.0-5
pve-ha-manager: 2.0-4
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.1.1-2
lxcfs: 2.0.8-1
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.7.3-pve1~bpo9
ceph: 12.2.2-pve1
● pveproxy.service - PVE API Proxy Server
Загрузен: загружен (/lib/systemd/system/pveproxy.service; включено; предустановка: включено)
Активен: активен (работает) с вт 2018-01-09 09:18:38 PST; 1 неделя 5 дней назад
Процесс: 3186117 ExecReload=/usr/bin/pveproxy restart (код=выход, статус=0/УСПЕХ)
Процесс: 15563 ExecStart=/usr/bin/pveproxy start (код=выход, статус=0/УСПЕХ)
Основной PID: 15628 (pveproxy)
Задачи: 4 (ограничение: 4915)
Память: 179.8М
ЦП: 6мин 36.275с
CGroup: /system.slice/pveproxy.service
├─ 15628 pveproxy
├─569289 pveproxy worker
├─681981 pveproxy worker
└─761737 pveproxy worker
21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:46:47 sky11 pveproxy[3186692]: рабочий процесс завершился
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 3186692 завершен
21 янв 13:46:47 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 681981 запущен
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 310902 завершен
21 янв 14:06:24 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 761737 запущен
21 янв 14:06:25 sky11 pveproxy[761736]: рабочий процесс завершен, однако команда pct list просто висит. Просматривая ps, я вижу это: 581286 ? Ds 0:13 [lxc monitor] /var/lib/lxc 20103 вместе с множеством соответствующих lxc-info. Попытка убить процесс с помощью kill -9 ничего не дает, и strace также ничего не показывает. Перезапуск pveproxy ничего не меняет. Нет зависших монтирований, и ceph показывает, что все в порядке. rbd для контейнера можно смонтировать с помощью pct mount, но попытка выполнить fsck сообщает, что диск все еще используется (что логично, задача контейнера все еще присутствует). У меня два вопроса: 1. Что вызывает это? 2. Есть ли способ исправить это, не перезагружая узел? диагностические данные: Код: # cat /proc/581286/wchan
call_rwsem_down_write_failedroot
# cat /proc/581286/stack
[<ffffffffbc3283f7>] call_rwsem_down_write_failed+0x17/0x30
[<ffffffffbbbd1a29>] unregister_shrinker+0x19/0x60
[<ffffffffbbc5641b>] deactivate_locked_super+0x3b/0x70
[<ffffffffbbc5693e>] deactivate_super+0x4e/0x60
[<ffffffffbbc785ff>] cleanup_mnt+0x3f/0x80
[<ffffffffbbc78682>] __cleanup_mnt+0x12/0x20
[<ffffffffbbaa5480>] task_work_run+0x80/0xa0
[<ffffffffbba031c4>] exit_to_usermode_loop+0xc4/0xd0
[<ffffffffbba03a19>] syscall_return_slowpath+0x59/0x60
[<ffffffffbc4000ec>] entry_SYSCALL_64_fastpath+0x7f/0x81
[<ffffffffffffffff>] 0xffffffffffffffff
# cat /proc/581286/status
Имя: lxc-start
Umask: 0022
Состояние: D (диск спит)
Tgid: 581286
Ngid: 0
Pid: 581286
PPid: 1
TracerPid: 0
Uid: 0 0 0 0
Gid: 0 0 0 0
FDSize: 64
Группы:
NStgid: 581286
NSpid: 581286
NSpgid: 581286
NSsid: 581286
VmPeak: 50260 кБ
VmSize: 50216 кБ
VmLck: 0 кБ
VmPin: 0 кБ
VmHWM: 3616 кБ
VmRSS: 3600 кБ
RssAnon: 744 кБ
RssFile: 2856 кБ
RssShmem: 0 кБ
VmData: 496 кБ
VmStk: 132 кБ
VmExe: 16 кБ
VmLib: 6312 кБ
VmPTE: 116 кБ
VmPMD: 12 кБ
VmSwap: 0 кБ
HugetlbPages: 0 кБ
Потоки: 1
SigQ: 9/644304
SigPnd: 0000000000000100
ShdPnd: 0000000000000100
SigBlk: fffffffe77fbfab7
SigIgn: 0000000000001000
SigCgt: 0000000180000000
CapInh: 0000000000000000
CapPrm: 0000003fffffffff
CapEff: 0000003fffffffff
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
NoNewPrivs: 0
Seccomp: 0
Cpus_allowed: ffffffff
Cpus_allowed_list: 0-31
Mems_allowed: 00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000003
Mems_allowed_list: 0-1
добровольные_переключения_контекста: 580526
недобровольные_переключения_контекста: 393 системная информация: Код: # pveversion -v
proxmox-ve: 5.1-34 (работает ядро: 4.13.13-3-pve)
pve-manager: 5.1-41 (работает версия: 5.1-41/0b958203)
pve-kernel-4.13.4-1-pve: 4.13.4-26
pve-kernel-4.13.13-2-pve: 4.13.13-33
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.13.8-3-pve: 4.13.8-30
pve-kernel-4.13.13-3-pve: 4.13.13-34
pve-kernel-4.10.17-3-pve: 4.10.17-23
libpve-http-server-perl: 2.0-8
lvm2: 2.02.168-pve6
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-19
qemu-server: 5.0-18
pve-firmware: 2.0-3
libpve-common-perl: 5.0-25
libpve-guest-common-perl: 2.0-14
libpve-access-control: 5.0-7
libpve-storage-perl: 5.0-17
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-3
pve-docs: 5.1-15
pve-qemu-kvm: 2.9.1-5
pve-container: 2.0-18
pve-firewall: 3.0-5
pve-ha-manager: 2.0-4
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.1.1-2
lxcfs: 2.0.8-1
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.7.3-pve1~bpo9
ceph: 12.2.2-pve1
