Здравствуйте, мы запускаем несколько ВМ в следующей среде: кластер proxmox с хранилищем ceph - блочное хранилище - все osd на корпоративных SSD (пул RBD с тройным репликацией). Версия ceph: 15.2.11. Все узлы внутри кластера имеют точно такую же версию: . Мы установили ОС на базе redhat на одной ВМ и начали миграцию данных на нее с другой машины (rsync) (машина, с которой мы начали восстановление, находится вне этого кластера). ВМ имела добавленные 3 диска virtio-scsi, полную информацию о конфигурации дисков смотрите ниже. ВМ имела диск EFI (все диски, включая EFI, находились на одном хранилище ceph rbd) - использовался OVMF uefi в качестве BIOS. Это из конфигурационного файла ВМ: Код: efidisk0: rbd:vm-108-disk-1,size=1M
scsi0: rbd:vm-108-disk-0,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=250G - /dev/sda1 раздел ext4
scsi1: rbd:vm-108-disk-2,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=500G - /dev/sdb1 раздел ext4
scsi2: rbd:vm-108-disk-3,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=2T - /dev/sdc1 раздел ext4. ВМ была внезапно убита oom-killer, здесь нет проблемы, так как мы выделили слишком много памяти для ВМ (узел имеет 256 ГБ оперативной памяти) и на нем работает еще несколько ВМ, мы добавили 192 ГБ этой конкретной ВМ, так что нам, вероятно, нужно больше оперативной памяти, хорошо, но посмотрите, что произошло дальше. Проверьте логи с узла, на котором находилась ВМ, когда она была убита: . Очень серьезная проблема в том, что разделы /dev/sda1 и /dev/sdb1 больше не существуют в системе после загрузки, похоже, что что-то стерло/удалило их, это недопустимо. Мы загрузились с live cd, диски все там, но больше нет разделов на дисках /dev/sda и /dev/sdb - единственный, который все еще существует и может быть смонтирован, это /dev/sdc1. У вас есть какие-нибудь идеи по этому поводу? Что могло вызвать такое поведение? Ничего не произошло на ceph, никаких подозрительных логов, нет сбойных osd или pg, состояние все время было и есть в порядке. Это очень странная ситуация - мы работаем в этих средах уже несколько лет, используя множество разных ОС на ВМ, никогда не сталкивались с такими проблемами, это нужно расследовать. Если у кого-то есть_hint/clue/idea, дайте знать. Спасибо.
scsi0: rbd:vm-108-disk-0,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=250G - /dev/sda1 раздел ext4
scsi1: rbd:vm-108-disk-2,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=500G - /dev/sdb1 раздел ext4
scsi2: rbd:vm-108-disk-3,backup=0,cache=writeback,discard=on,iothread=1,queues=8,size=2T - /dev/sdc1 раздел ext4. ВМ была внезапно убита oom-killer, здесь нет проблемы, так как мы выделили слишком много памяти для ВМ (узел имеет 256 ГБ оперативной памяти) и на нем работает еще несколько ВМ, мы добавили 192 ГБ этой конкретной ВМ, так что нам, вероятно, нужно больше оперативной памяти, хорошо, но посмотрите, что произошло дальше. Проверьте логи с узла, на котором находилась ВМ, когда она была убита: . Очень серьезная проблема в том, что разделы /dev/sda1 и /dev/sdb1 больше не существуют в системе после загрузки, похоже, что что-то стерло/удалило их, это недопустимо. Мы загрузились с live cd, диски все там, но больше нет разделов на дисках /dev/sda и /dev/sdb - единственный, который все еще существует и может быть смонтирован, это /dev/sdc1. У вас есть какие-нибудь идеи по этому поводу? Что могло вызвать такое поведение? Ничего не произошло на ceph, никаких подозрительных логов, нет сбойных osd или pg, состояние все время было и есть в порядке. Это очень странная ситуация - мы работаем в этих средах уже несколько лет, используя множество разных ОС на ВМ, никогда не сталкивались с такими проблемами, это нужно расследовать. Если у кого-то есть_hint/clue/idea, дайте знать. Спасибо.
