+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

RSS

У меня просто худшее, самое ужасное, что можно себе представить, случилось с Proxmox VE (повреждён datastore iSCSI LVM)., Proxmox Виртуальная Среда

beta_2017

Guest

10.04.2025 06:26:00

С последним этим дерьмом, которое произошло, я хотел протестировать Proxmox в своем домашнем лаб и потом поделиться результатами с командой на работе. У меня есть 2 одинаковых хоста с установкой TrueNAS Core, работающей с хранилищами iSCSI через 10G DAC-кабели к хостам на другом хосте. Я настроил один из хостов на запуск Proxmox и начал миграцию, которая, надо сказать, прошла отлично. Были небольшие проблемы с первоначальной настройкой сети, но как только я все настроил, я подключил iSCSI (не с мультипатингом, так как не было резервных соединений к одному из хостов, но отмечено как общее в Proxmox) к одному хосту, чтобы начать работу с хранилищами для ВМ. У меня не было достаточно места на TrueNAS для миграции, поэтому я использовал запасной QNAP с жесткими дисками, на котором хранились большие ВМ, пока я переносил меньшие ВМ на меньшее хранилище, которое можно было бы использовать вместе с хранилищами VMFS, которые у меня были с ESXi. Затем я установил Proxmox на другом хосте и создал кластер. Такая же конфигурация, за исключением разных IP-адресов, конечно. Хранилища iSCSI с первого хоста были немедленно обнаружены и использованы на втором, что позволило проводить горячую миграцию (что намного быстрее, чем VMware, круто!), HA, все дела... Я создал одно хранилище, на котором работали все ВМ... что теперь я знаю, плохая идея для IOPS (и потому что я идиот и не додумался до этого). Как только я заметил, что все замедляется, если ВМ делает что-то, я решил создать другое хранилище. Вот тут все полетело к черту. Я перечислю свой процесс, надеюсь, кто-нибудь сможет подсказать, где я накосячил: (К слову: в VMware у меня был один iSCSI-таргет с несколькими хранилищами (экстентами) под ним. Я собирался сделать так же в Proxmox, потому что думал, что это будет работать без проблем.) Я зашел в TrueNAS и создал еще один том хранилища с совершенно другим ID LUN, который никогда раньше не был известен Proxmox, и поместил его под тот же таргет, который я уже создал ранее. Затем я зашел в Proxmox и велел ему обновить хранилище, перезапустил iscsiadm, потому что он сразу не запускался. Я не перезапускал iscsid. Я не увидел новый LUN в доступном хранилище, поэтому я перенес все ВМ с одного из хостов и перезагрузил его. Когда хост загрузился, все ВМ превратились из зеленого в «?» в консоли. Я гадал, что происходит, потому что казалось, что все ВМ работают нормально. Теперь я знаю, что они могли казаться работающими, но, черт возьми, они ЭТОГО НЕ ДЕЛАЛИ. Затем я копнул глубже в CLI, чтобы посмотреть доступные LVM, и "маленькое" хранилище, которое я использовал во время миграции, просто исчезло. 100% отсутствовало. Потом у меня чуть не случился вывих диска. Я перезагрузился, перезапустил iscsid, iscsiadm, сервисы Proxmox... все без толку. В это время iSCSI-путь был активен, но LVM не видели. Я запаниковал и начал искать инструменты для восстановления файловых систем. Я сделал сканирование testdisk на хранилище, подключенное через iSCSI, и он ничего не увидел в течение первых 200 блоков хранилища, но файлы ВМ были нетронуты, без возможности их восстановить (я выяснил, что извлечение/повторная миграция заняла бы слишком много времени)! Что-то между шагами 1-4 повредило заголовки LVM до такой степени, что их невозможно было восстановить. Я попробовал все команды восстановления LVM, но они не работали, потому что UUID LVM был потерян... Я сказал достаточно, и восстановил среду в VMware (получил NFR-ключи, чтобы лаб продолжал работать) из Veeam (слава богу, я не удалил цепочки из среды VMware) и даже не задумался о Proxmox. Что может означать, что что-то настолько простое, как добавление нового LUN к одному и тому же пункту таргета, абсолютно разрушает совершенно отдельное хранилище??? Чего я не понимаю?! Может быть, это действительно связано с тем, что я не настроил мультипасинг?! Это было настолько странно и, если честно, самым страшным, что я когда-либо делал, и я хочу узнать, чтобы если мы в будущем решим перейти на Proxmox на работе, этого не повторилось. TL;DR - я (или Proxmox, не знаю) повредил заголовок целого "производственного" LVM с данными ВМ после добавления второго LUN к экстенту в Proxmox, и я не смог восстановить LVM.

bbgeek17

Guest

10.04.2025 14:54:00

Привет @beta_2017, добро пожаловать на форум. Мне жаль слышать о твоем опыте. Тем не менее, мое первоначальное предложение – исключить эмоции и не относящуюся к делу информацию из твоего отчета о технической проблеме, когда ты ищешь помощь. Судя по твоему отчету, ты создал двухнодовый кластер, а затем перезагрузил один из узлов. Обрати внимание, что потеря 50% популяции узлов кластера означает, что у тебя больше нет большинства ни на одной из сторон. Когда HA включен, оставшиеся члены кластера (или член в твоем случае) должны предпринять действие, такое как самоперезагрузка или остановка сервиса, чтобы предотвратить потенциальное разделение мозга HA. Непонятно, произошло ли это в твоем случае. Рекомендуется использовать трехнодовый кластер или, по крайней мере, включить режим "обслуживание" перед обслуживанием. Тебе, вероятно, было бы лучше запустить: `pvesm scan iscsi <portal>`, `lsscsi` и проверить "dmesg". Это указывает на проблемы связи внутри кластера. Это указывает на проблемы связи iSCSI. В сочетании с предыдущим пунктом, возможно, проблема в конфигурации сети. Ты говоришь, что LUNы были видны через `lsscsi`, `lsblk` и другие методы? Но `lvs/pvs/vgs` показывали ничего? Мне неясно, что ты делал с LVM. Кажется, что ты добавил второй LUN к целевому устройству, а затем потерял доступ после ручной перезагрузки. Расширение Physical Volume Group (примерно эквивалент "добавления расширения" в ESXi) требует ручных шагов в оболочке Linux, вне интерфейса PVE. Судя по всему твоему отчету, твоя система перестала видеть сигнатуру диска LVM после манипуляций с SAN-конфигурацией через SAN-интерфейс. Без каких-либо логов так же вероятно, что манипуляции с SAN вызвали потерю данных. Я не знаю о каком-либо процессе в PVE, который перезаписывал первые 200 блоков на диске после перезагрузки. Учитывая лабораторный характер твоей настройки, я бы рекомендовал начать с нуля. Либо настроить среду, используя лучшие практики, либо попытаться повторить шаги, которые ты предпринял, чтобы воспроизвести проблему. Ведение хорошей записи шагов, команд и выходов позволит сообществу оказать помощь.

Cheers Blockbridge : Ultra low latency all-NVME shared storage for Proxmox - https://www.blockbridge.com/proxmox

fweber Guest	#3 0 10.04.2025 16:01:00 Привет, к сожалению, сейчас, оглядываясь назад, сложно понять, что именно пошло не так, без логов или диагностического вывода. Добавив к тому, что написал @bbgeek17, у меня есть несколько вопросов, чтобы лучше понять ваши шаги: Я правильно понимаю, что вы настроили iSCSI-хранилище для вашей цели TrueNAS (снимали ли вы галочку с "Использовать LUNs напрямую") настроили хранилище LVM, указывающее на новую группу томов LVM поверх одного большого iSCSI-LUN, а затем создали диски VM в этом хранилище LVM? У вас все еще есть какие-нибудь выводы pvs/vgs/lvs? Итак, на этом этапе у вас было два LUN на TrueNAS (один для VMFS/ESXi, один для вашего двухузлового кластера Proxmox VE), и один LUN на QNAP. Этот LUN QNAP использовался как хранилище для ESXi или Proxmox VE (иначе говоря, большие VM работали на ESXi или Proxmox VE на этом этапе)? Можете ли вы уточнить, что вы имеете в виду под "обновить хранилище"? Где вы проверяли новое наличие LUN под "доступное хранилище"? Я понимаю, что это маловероятно, но все же: у вас случайно нет логов за этот период, с любого из узлов? Тот факт, что VM отображались серым цветом в GUI, указывает на то, что были какие-то проблемы с pvestatd, и в логах содержалась бы полезная дополнительная информация.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры