С последним этим дерьмом, которое произошло, я хотел протестировать Proxmox в своем домашнем лаб и потом поделиться результатами с командой на работе. У меня есть 2 одинаковых хоста с установкой TrueNAS Core, работающей с хранилищами iSCSI через 10G DAC-кабели к хостам на другом хосте. Я настроил один из хостов на запуск Proxmox и начал миграцию, которая, надо сказать, прошла отлично. Были небольшие проблемы с первоначальной настройкой сети, но как только я все настроил, я подключил iSCSI (не с мультипатингом, так как не было резервных соединений к одному из хостов, но отмечено как общее в Proxmox) к одному хосту, чтобы начать работу с хранилищами для ВМ. У меня не было достаточно места на TrueNAS для миграции, поэтому я использовал запасной QNAP с жесткими дисками, на котором хранились большие ВМ, пока я переносил меньшие ВМ на меньшее хранилище, которое можно было бы использовать вместе с хранилищами VMFS, которые у меня были с ESXi. Затем я установил Proxmox на другом хосте и создал кластер. Такая же конфигурация, за исключением разных IP-адресов, конечно. Хранилища iSCSI с первого хоста были немедленно обнаружены и использованы на втором, что позволило проводить горячую миграцию (что намного быстрее, чем VMware, круто!), HA, все дела... Я создал одно хранилище, на котором работали все ВМ... что теперь я знаю, плохая идея для IOPS (и потому что я идиот и не додумался до этого). Как только я заметил, что все замедляется, если ВМ делает что-то, я решил создать другое хранилище. Вот тут все полетело к черту. Я перечислю свой процесс, надеюсь, кто-нибудь сможет подсказать, где я накосячил: (К слову: в VMware у меня был один iSCSI-таргет с несколькими хранилищами (экстентами) под ним. Я собирался сделать так же в Proxmox, потому что думал, что это будет работать без проблем.) Я зашел в TrueNAS и создал еще один том хранилища с совершенно другим ID LUN, который никогда раньше не был известен Proxmox, и поместил его под тот же таргет, который я уже создал ранее. Затем я зашел в Proxmox и велел ему обновить хранилище, перезапустил iscsiadm, потому что он сразу не запускался. Я не перезапускал iscsid. Я не увидел новый LUN в доступном хранилище, поэтому я перенес все ВМ с одного из хостов и перезагрузил его. Когда хост загрузился, все ВМ превратились из зеленого в «?» в консоли. Я гадал, что происходит, потому что казалось, что все ВМ работают нормально. Теперь я знаю, что они могли казаться работающими, но, черт возьми, они ЭТОГО НЕ ДЕЛАЛИ. Затем я копнул глубже в CLI, чтобы посмотреть доступные LVM, и "маленькое" хранилище, которое я использовал во время миграции, просто исчезло. 100% отсутствовало. Потом у меня чуть не случился вывих диска. Я перезагрузился, перезапустил iscsid, iscsiadm, сервисы Proxmox... все без толку. В это время iSCSI-путь был активен, но LVM не видели. Я запаниковал и начал искать инструменты для восстановления файловых систем. Я сделал сканирование testdisk на хранилище, подключенное через iSCSI, и он ничего не увидел в течение первых 200 блоков хранилища, но файлы ВМ были нетронуты, без возможности их восстановить (я выяснил, что извлечение/повторная миграция заняла бы слишком много времени)! Что-то между шагами 1-4 повредило заголовки LVM до такой степени, что их невозможно было восстановить. Я попробовал все команды восстановления LVM, но они не работали, потому что UUID LVM был потерян... Я сказал достаточно, и восстановил среду в VMware (получил NFR-ключи, чтобы лаб продолжал работать) из Veeam (слава богу, я не удалил цепочки из среды VMware) и даже не задумался о Proxmox. Что может означать, что что-то настолько простое, как добавление нового LUN к одному и тому же пункту таргета, абсолютно разрушает совершенно отдельное хранилище??? Чего я не понимаю?! Может быть, это действительно связано с тем, что я не настроил мультипасинг?! Это было настолько странно и, если честно, самым страшным, что я когда-либо делал, и я хочу узнать, чтобы если мы в будущем решим перейти на Proxmox на работе, этого не повторилось. TL;DR - я (или Proxmox, не знаю) повредил заголовок целого "производственного" LVM с данными ВМ после добавления второго LUN к экстенту в Proxmox, и я не смог восстановить LVM.
У меня просто худшее, самое ужасное, что можно себе представить, случилось с Proxmox VE (повреждён datastore iSCSI LVM)., Proxmox Виртуальная Среда
|
10.04.2025 06:26:00
|
|
|
|
|
Читают тему
