+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Срочный/важный вопрос по поводу хранения proxmox/ceph и виртуализации kvm!, Proxmox Виртуальная Среда

Daniel S.

Guest

04.02.2022 13:56:00

Здравствуйте, мы запускаем несколько ВМ в следующей среде: кластер proxmox с хранилищем ceph - блочное хранилище - все osd на корпоративных SSD (пул RBD с тройным репликацией). Версия ceph: 15.2.11. Все узлы внутри кластера имеют точно такую же версию: https://pastebin.com/ugjzptQ9. Мы установили ОС на базе redhat на одной ВМ и начали миграцию данных на нее с другой машины (rsync) (машина, с которой мы начали восстановление, находится вне этого кластера). ВМ имела добавленные 3 диска virtio-scsi, полную информацию о конфигурации дисков смотрите ниже. ВМ имела диск EFI (все диски, включая EFI, находились на одном хранилище ceph rbd) - использовался OVMF uefi в качестве BIOS. Это из конфигурационного файла ВМ: Код: efidisk0: rbd:vm-108-disk-1,size=1M
scsi0: rbd:vm-108-disk-0,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=250G - /dev/sda1 раздел ext4
scsi1: rbd:vm-108-disk-2,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=500G - /dev/sdb1 раздел ext4
scsi2: rbd:vm-108-disk-3,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=2T - /dev/sdc1 раздел ext4. ВМ была внезапно убита oom-killer, здесь нет проблемы, так как мы выделили слишком много памяти для ВМ (узел имеет 256 ГБ оперативной памяти) и на нем работает еще несколько ВМ, мы добавили 192 ГБ этой конкретной ВМ, так что нам, вероятно, нужно больше оперативной памяти, хорошо, но посмотрите, что произошло дальше. Проверьте логи с узла, на котором находилась ВМ, когда она была убита: https://pastebin.com/EUPZa9m7. Очень серьезная проблема в том, что разделы /dev/sda1 и /dev/sdb1 больше не существуют в системе после загрузки, похоже, что что-то стерло/удалило их, это недопустимо. Мы загрузились с live cd, диски все там, но больше нет разделов на дисках /dev/sda и /dev/sdb - единственный, который все еще существует и может быть смонтирован, это /dev/sdc1. У вас есть какие-нибудь идеи по этому поводу? Что могло вызвать такое поведение? Ничего не произошло на ceph, никаких подозрительных логов, нет сбойных osd или pg, состояние все время было и есть в порядке. Это очень странная ситуация - мы работаем в этих средах уже несколько лет, используя множество разных ОС на ВМ, никогда не сталкивались с такими проблемами, это нужно расследовать. Если у кого-то есть_hint/clue/idea, дайте знать. Спасибо.

RolandK

Guest

26.02.2022 11:07:00

Привет, можешь проверить, просто ли затерта таблица разделов и сможешь ли ты восстановить её с помощью testdisk/gpart? Использовалась ли резервная копия с помощью vzdump или pbs? Существует давняя проблема с потерей таблицы разделов (https://bugzilla.proxmox.com/show_bug.cgi?id=2874), и я думаю, что поскольку как минимум несколько человек уже пострадали от этого, ей действительно нужно больше приоритета на мой взгляд, потому что это ошибка, которая может привести к утрате доверия к этому отличному продукту. В любом случае, пока нет воспроизводимого случая, поэтому довольно тяжело определить, что её вызывает.

Daniel S.

Guest

28.02.2022 08:37:00

Не может быть восстановлено, диски существуют, но таблица разделов была стерта. Резервное копирование не выполнялось, только то, что я указал в первом посте. Это должно иметь более высокий приоритет, потому что это очень тревожно и может произойти в рабочей среде.

d1_sen

Guest

22.03.2022 05:34:00

Я столкнулся с такой же проблемой с одной из моих виртуальных машин. Пытался использовать TestDisk, но ничего не получилось. Теперь собираюсь попробовать gpart. @Daniel S., удалось ли тебе восстановить свою ВМ? Я вижу этот баг https://bugzilla.proxmox.com/show_bug.cgi?id=2874, но все еще нет исправления.

Daniel S.

Guest

22.03.2022 07:18:00

Нет никакой возможности восстановить что-либо. Ошибка кажется схожей, потому что при выполнении резервного копирования использование I/O и ресурсов, вероятно, выше нормы, хотя мы не запускали никаких резервных копий, но начали удаленное восстановление rsync на виртуальную машину, что и привело к высокому использованию I/O и других ресурсов, что стало катастрофой. Как уже было сказано выше, к этому нужно относиться очень серьезно, так как не важно, сколько реплик у вас в ваших пуллах/хранилищах Ceph или насколько в порядке здоровье Ceph, данные потеряны. Не говоря уже о простое, даже если другие резервные копии сохранены... пока вы не восстановите... так или иначе, данные потеряны и могут быть потеряны.

d1_sen

Guest

22.03.2022 07:56:00

У меня есть резервные копии на PBS, однако восстановление их не дало никакой пользы. У нас работают более 150 ВМ в облаке proxmox, и использование PBS для резервных копий стало настоящей проблемой, так как у нас нет других резервных копий. Интересно, что делает proxmox по этому поводу, как минимум они могли бы предоставить поддержку и рекомендации.

RolandK Guest	#7 0 24.11.2022 22:12:00 Ты все еще сталкиваешься с этой ошибкой @Daniel S. @d1_sen? Если да, не мог бы ты выложить все детали своей системы(ов) и затронутых ВМ(ов) (конфигурация ВМ...) ?

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры