+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

[SOLVED]Невозможно корректно удалить узел из кластера, Proxmox Виртуальная Среда

Dragonn

Guest

19.02.2021 15:52:00

Привет, у меня возникли проблемы с правильным удалением отдельного узла Proxmox из кластера. Я следую руководству в документации https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_remove_a_cluster_node, но похоже, что узел удален только частично. В общем, я сделал что-то вроде этого:

# убедился, что на узле нет ВМ
systemctl stop pve-ha-lrm pve-ha-crm corosync pve-cluster pvedaemon pveproxy
dd if=/dev/urandom of=/dev/sda
shutdown now

Затем я попытался удалить узел из кластера и получил ошибку:

P virt1[root](15:01:30)-(~)
-> pvecm delnode virt98
Убиваем узел 98
Не удалось убить узел (ошибка = CS_ERR_NOT_EXIST)
ошибка во время операции cfs-locked 'file-corosync_conf': команда 'corosync-cfgtool -k 98' завершилась с ошибкой: код выхода 1

На многих местах я не могу найти никаких следов:

P virt1[root](15:01:38)-(~)
-> grep virt98 /etc/pve/.members

P virt1[root](15:01:43)-(~)
-> grep 98 /etc/corosync/corosync.conf

P virt1[root](15:02:15)-(~)
-> pvecm delnode virt98
ошибка во время операции cfs-locked 'file-corosync_conf': Узел/IP: virt98 не известен в кластере.

Но я все еще вижу его в GUI и на многих других местах:

P virt1[root](15:44:28)-(~)
-> jq .node_status.virt98 /etc/pve/ha/manager_status
"gone"

P virt1[root](15:44:30)-(~)
-> ls -l /etc/pve/nodes/virt98
всего 2
-rw-r----- 1 root www-data 84 Feb 19 14:58 lrm_status
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 lxc
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 openvz
drwx------ 2 root www-data 0 Feb 1 16:18 priv
-rw-r----- 1 root www-data 1675 Feb 1 16:18 pve-ssl.key
-rw-r----- 1 root www-data 1712 Feb 1 16:18 pve-ssl.pem
drwxr-xr-x 2 root www-data 0 Feb 1 16:18 qemu-server

Также я не смог найти причину, по которой удаление узла из corosync не удалось. Syslog выглядел как обычно для меня:

Feb 19 15:01:39 virt1 pvecm[30430]: <root@pam> удаление узла virt98 из кластера
Feb 19 15:01:39 virt1 pmxcfs[34727]: [dcdb] уведомление: записана новая конфигурация corosync '/etc/corosync/corosync.conf' (версия = 21)
Feb 19 15:01:39 virt1 corosync[6398]: [CFG ] Перезагрузка конфигурации запрошена узлом 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 0
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 0: локальный адрес: 192.168.248.76, порт=5405
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настройка канала 1
Feb 19 15:01:39 virt1 corosync[6398]: [TOTEM ] Настроен канал номер 1: локальный адрес: 192.168.232.60, порт=5406
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 (пассивный) лучший канал: 0 (приоритет: 0)
Feb 19 15:01:39 virt1 corosync[6398]: [KNET ] хост: хост: 98 не имеет активных каналов
Feb 19 15:01:39 virt1 pmxcfs[34727]: [status] уведомление: обновление информации о кластере (имя кластера virt, версия = 21)

Есть ли у вас идеи, как правильно его удалить и (что самое важное) что я сделал не так? Спасибо за ваше время.

Asano

Guest

05.09.2021 05:31:00

@dylanw просто хотел сказать, что столкнулся с точно такой же ситуацией, как у автора сообщения, но без каких-либо особых действий. В общем, я выключил узел, чтобы удалить его окончательно, и выполнил команду `pvecm delnode node4` на оставшемся узле. Кластер гораздо меньше, чем у автора (3 узла после удаления), но ошибка и оставшиеся папки были абсолютно такими же. Как и у автора, я вручную убрал всё, что осталось, и благодаря этой теме я надеюсь, что кластер сейчас в порядке и всё хорошо. Но это сбивает с толку и, возможно, воспроизводимо, если у меня тоже такое было. Так что, возможно, стоит investigar больше.

whataboutpereira

Guest

09.09.2021 14:45:00

Та же последовательность событий здесь. Переместил контейнеры с узла, который нужно удалить, выключил его и затем: Код: $ pvecm delnode silencio Уничтожение узла 3 Не удалось уничтожить узел (ошибка = CS_ERR_NOT_EXIST) команда 'corosync-cfgtool -k 3' завершилась с кодом 1

$ pvecm delnode silencio Узел/IP: silencio не является известным хостом кластера.

woloss

Guest

13.09.2021 00:16:00

Похоже, что что-то изменилось в версии 7.0 (возможно, в последних сборках 6.x), у меня такая же проблема. Поскольку это лаборатория у себя дома и я немного ленился, я выключил узел на полдня, а потом решил наконец удалить его из corosync и столкнулся с той же самой проблемой. Ручное удаление папок сработало.

whataboutpereira Guest	#5 0 13.09.2021 00:24:00 Забыл упомянуть, что у меня здесь версия 6.4-13.

dylanw

Guest

13.09.2021 10:54:00

Чтобы прояснить, сообщение об ошибке, которое вы видите, не обязательно является проблемой (команда 'corosync-cfgtool -k 3' завершилась с кодом выхода 1). Это просто означает, что corosync не смог остановить узел, поскольку, если вы правильно следуете документации, узел уже должен быть оффлайн. Шаги по удалению узла все равно выполняются. Обратите внимание также на то, что предполагаемое поведение заключается в том, что конфигурация узла остается в каталоге кластера /etc/pve/nodes, так как этот каталог содержит важную конфигурационную информацию, которая может потребоваться вам позже. Наличие этого каталога не должно вызывать никаких проблем. Видите ли вы удаленные узлы как оффлайн в GUI после их удаления и обновления браузера? Если да, остались ли у вас какие-либо конфигурационные файлы на сервере, например, конфигурации ВМ? Я знаком с другими подобными проблемами, которые могут вызвать более серьезные трудности здесь [1], и скоро обновлю документацию, чтобы отразить это. При этом я также упомяну о пунктах, указанных здесь. [1] https://bugzilla.proxmox.com/show_bug.cgi?id=3375

whataboutpereira Guest	#7 0 13.09.2021 11:29:00 Пока что проблем нет. Так что можем считать, что это просто излишне настойчивое сообщение об ошибке.

Binary Bandit Guest	#8 0 03.11.2021 23:07:00 Просто хотел подтвердить, что это чрезмерное сообщение об ошибке... та же самая проблема с нашим кластером из 5 узлов (7.0), когда уменьшали его до 3 узлов.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры