+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

LXC-контейнер застрял при запуске, завис pveproxy., Proxmox Виртуальная Среда

alexskysilk

Guest

21.01.2018 23:36:00

У меня есть контейнер, который не удалось запустить, и зависший pveproxy, который блокирует любую новую активность на узле, отображаясь с серым вопросительным знаком в интерфейсе. Сам pveproxy, похоже, работает: Код: # service pveproxy status
● pveproxy.service - PVE API Proxy Server
Загрузен: загружен (/lib/systemd/system/pveproxy.service; включено; предустановка: включено)
Активен: активен (работает) с вт 2018-01-09 09:18:38 PST; 1 неделя 5 дней назад
Процесс: 3186117 ExecReload=/usr/bin/pveproxy restart (код=выход, статус=0/УСПЕХ)
Процесс: 15563 ExecStart=/usr/bin/pveproxy start (код=выход, статус=0/УСПЕХ)
Основной PID: 15628 (pveproxy)
Задачи: 4 (ограничение: 4915)
Память: 179.8М
ЦП: 6мин 36.275с
CGroup: /system.slice/pveproxy.service
├─ 15628 pveproxy
├─569289 pveproxy worker
├─681981 pveproxy worker
└─761737 pveproxy worker

21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:40:28 sky11 pveproxy[310902]: прокси обнаружил исчезнувшее клиентское соединение
21 янв 13:46:47 sky11 pveproxy[3186692]: рабочий процесс завершился
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 3186692 завершен
21 янв 13:46:47 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 13:46:47 sky11 pveproxy[15628]: рабочий процесс 681981 запущен
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 310902 завершен
21 янв 14:06:24 sky11 pveproxy[15628]: запускаю 1 рабочий процесс
21 янв 14:06:24 sky11 pveproxy[15628]: рабочий процесс 761737 запущен
21 янв 14:06:25 sky11 pveproxy[761736]: рабочий процесс завершен, однако команда pct list просто висит. Просматривая ps, я вижу это: 581286 ? Ds 0:13 [lxc monitor] /var/lib/lxc 20103 вместе с множеством соответствующих lxc-info. Попытка убить процесс с помощью kill -9 ничего не дает, и strace также ничего не показывает. Перезапуск pveproxy ничего не меняет. Нет зависших монтирований, и ceph показывает, что все в порядке. rbd для контейнера можно смонтировать с помощью pct mount, но попытка выполнить fsck сообщает, что диск все еще используется (что логично, задача контейнера все еще присутствует). У меня два вопроса: 1. Что вызывает это? 2. Есть ли способ исправить это, не перезагружая узел? диагностические данные: Код: # cat /proc/581286/wchan
call_rwsem_down_write_failedroot

# cat /proc/581286/stack
[<ffffffffbc3283f7>] call_rwsem_down_write_failed+0x17/0x30
[<ffffffffbbbd1a29>] unregister_shrinker+0x19/0x60
[<ffffffffbbc5641b>] deactivate_locked_super+0x3b/0x70
[<ffffffffbbc5693e>] deactivate_super+0x4e/0x60
[<ffffffffbbc785ff>] cleanup_mnt+0x3f/0x80
[<ffffffffbbc78682>] __cleanup_mnt+0x12/0x20
[<ffffffffbbaa5480>] task_work_run+0x80/0xa0
[<ffffffffbba031c4>] exit_to_usermode_loop+0xc4/0xd0
[<ffffffffbba03a19>] syscall_return_slowpath+0x59/0x60
[<ffffffffbc4000ec>] entry_SYSCALL_64_fastpath+0x7f/0x81
[<ffffffffffffffff>] 0xffffffffffffffff

# cat /proc/581286/status
Имя: lxc-start
Umask: 0022
Состояние: D (диск спит)
Tgid: 581286
Ngid: 0
Pid: 581286
PPid: 1
TracerPid: 0
Uid: 0 0 0 0
Gid: 0 0 0 0
FDSize: 64
Группы:
NStgid: 581286
NSpid: 581286
NSpgid: 581286
NSsid: 581286
VmPeak: 50260 кБ
VmSize: 50216 кБ
VmLck: 0 кБ
VmPin: 0 кБ
VmHWM: 3616 кБ
VmRSS: 3600 кБ
RssAnon: 744 кБ
RssFile: 2856 кБ
RssShmem: 0 кБ
VmData: 496 кБ
VmStk: 132 кБ
VmExe: 16 кБ
VmLib: 6312 кБ
VmPTE: 116 кБ
VmPMD: 12 кБ
VmSwap: 0 кБ
HugetlbPages: 0 кБ
Потоки: 1
SigQ: 9/644304
SigPnd: 0000000000000100
ShdPnd: 0000000000000100
SigBlk: fffffffe77fbfab7
SigIgn: 0000000000001000
SigCgt: 0000000180000000
CapInh: 0000000000000000
CapPrm: 0000003fffffffff
CapEff: 0000003fffffffff
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
NoNewPrivs: 0
Seccomp: 0
Cpus_allowed: ffffffff
Cpus_allowed_list: 0-31
Mems_allowed: 00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000003
Mems_allowed_list: 0-1
добровольные_переключения_контекста: 580526
недобровольные_переключения_контекста: 393 системная информация: Код: # pveversion -v
proxmox-ve: 5.1-34 (работает ядро: 4.13.13-3-pve)
pve-manager: 5.1-41 (работает версия: 5.1-41/0b958203)
pve-kernel-4.13.4-1-pve: 4.13.4-26
pve-kernel-4.13.13-2-pve: 4.13.13-33
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.13.8-3-pve: 4.13.8-30
pve-kernel-4.13.13-3-pve: 4.13.13-34
pve-kernel-4.10.17-3-pve: 4.10.17-23
libpve-http-server-perl: 2.0-8
lvm2: 2.02.168-pve6
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-19
qemu-server: 5.0-18
pve-firmware: 2.0-3
libpve-common-perl: 5.0-25
libpve-guest-common-perl: 2.0-14
libpve-access-control: 5.0-7
libpve-storage-perl: 5.0-17
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-3
pve-docs: 5.1-15
pve-qemu-kvm: 2.9.1-5
pve-container: 2.0-18
pve-firewall: 3.0-5
pve-ha-manager: 2.0-4
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.1.1-2
lxcfs: 2.0.8-1
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.7.3-pve1~bpo9
ceph: 12.2.2-pve1

Alwin Guest	#2 0 05.02.2018 11:13:00 Узел серый, так как демон pvestatd пытается установить состояние контейнера и зависает. Возможно ли создать снимок вручную с помощью инструментов ceph (rbd snap), а затем его подключить?

alexskysilk Guest	#3 0 05.02.2018 17:27:00 Предполагаю, что да, но не могу это подтвердить, пока ситуация не повторится. Сделаю это на следующих выходных, но было бы полезно, если бы ты сказал, что это могло бы доказать (или опровергнуть).

Alwin Guest	#4 0 06.02.2018 10:57:00 Нет, я имел в виду в общем. Если так, то это может означать, что есть проблема с сопоставлением снимка, и мы могли бы начать более глубокое расследование в этой области.

Alwin Guest	#5 0 12.03.2018 09:48:00 Ваш тред похож на этот: https://forum.proxmox.com/threads/lxc-container-reboot-fails-lxc-becomes-unusable.41264

alexskysilk Guest	#6 0 12.03.2018 18:13:00 Не совсем. Есть сущственное различие в проблеме; а именно, что зависший процесс в ситуации @denos можно восстановить. В моем случае процесс lxc представляет собой зомби и не может быть убит. Хотя оба варианта используют модули ядра для доступа к хранилищу, я не знаю, специфична ли эта проблема для ceph (меня), zfs (denos) или касается ли она ядра в целом...

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры