Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    Необъяснимая неизвестная аварийная ситуация узла в кластере с Ceph/"серый вопросительный знак".

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Необъяснимая неизвестная аварийная ситуация узла в кластере с Ceph/"серый вопросительный знак"., Proxmox Виртуальная Среда
     
    lewinernst
    Guest
    #1
    0
    16.06.2024 17:49:00
    Привет,

    У меня проблема с одним сервером, на котором виртуальные машины работают под управлением Ceph.

    В последнее время сервер иногда зависает, и я получаю сообщения об ошибках ядра, указывающие на проблему с KSM (Kernel Samepage Merging).  Это происходит в основном, когда виртуальные машины активно используют память.

    В логах ядра я вижу:

    *   Сообщения об ошибках ядра, связанные с KSM.
    *   Запись «note: ksmd[pid] exited with irqs disabled».
    *   Сообщения о выходе из системы ksmd.

    Я перепробовал следующее:

    *   Обновил ядро до последней стабильной версии.
    *   Проверил целостность файловой системы.
    *   Проверил состояние памяти сервера (free, vmstat).
    *   Проверил наличие ошибок оборудования.

    Подскажите, как можно дальше диагностировать и устранить эту проблему? Заранее спасибо за помощь.
     
     
     
    fweber
    Guest
    #2
    0
    05.07.2024 11:09:00
    Привет,

    Два обращения к NULL указателю в ядре, о которых сообщалось здесь, на первый взгляд кажутся похожими, но, скорее всего, это разные проблемы. Обращения к NULL указателю могут происходить в разных участках кода ядра, поэтому, чтобы определить, являются ли два обращения к NULL указателю одной и той же проблемой, нужно смотреть детали. Обращение к NULL указателю, о котором сообщал @Ksdmg, имеет RIP (указатель на инструкцию), указывающий на blk_flush_complete_seq ... ... что связано с ошибкой в ранних версиях ядра 6.8, которая должна быть исправлена в proxmox-kernel-6.8 6.8.8-1 и более поздних. Подробности смотрите [1]. Обращение к NULL указателю, о котором сообщал @lewinernst, имеет RIP, указывающий на get_ksm_page ... что означает, что это, скорее всего, другая проблема. Я вижу, что сбой в get_ksm_page уже был зафиксирован [3]. Моя первоначальная версия — неисправная RAM, но вы упомянули, что ее уже заменили (может быть, все же запустите memtest86+ на всякий случай?). Можете ли вы проверить, сталкиваетесь ли вы с таким же сбоем при использовании ядра 6.5 и ядра 6.8.8-2? Если это хост на базе Intel, то одним из отличий между ядрами 6.5 и 6.8 является то, что intel_iommu теперь по умолчанию включен [4, в разделе "Kernel: intel_iommu now defaults to on"]. Если вы не видите сбоя в ядре 6.5, но видите его в ядре 6.8.8-2, можете ли вы проверить, помогает ли отключение intel_iommu=off в ядре 6.8.8-2? [3] Трассировка вызовов упоминает KSM [2], так что отключение [2] этого может быть обходным путем (если оно вам не нужно), но также возможно, что сбой снова появится в другом месте вызова. Если вы попробуете что-нибудь из вышеперечисленного и столкнетесь с другим сбоем, пожалуйста, предоставьте полное сообщение.

    [1] https://forum.proxmox.com/threads/random-6-8-4-2-pve-kernel-crashes.145760/post-674842
    [2] https://pve.proxmox.com/wiki/Kernel_Samepage_Merging_(KSM)
    [3] https://forum.proxmox.com/threads/ideas-about-general-protection-fault.148773/#post-673069
     
     
     
    lewinernst
    Guest
    #3
    0
    11.07.2024 17:17:00
    Привет, спасибо за подробный фидбек. Я попробовал все 6.8 версии и откатился обратно к 6.5.13-5-pve — всё равно происходит. Раз ты упомянул iommu, я заметил, что если вообще не запускаю ВМ с использованием pcie passthrough (у меня переданы SATA-контроллеры и сетевые карты, иногда и GPU), то краши происходят и на более поздних, и на более ранних версиях ядра (тестировал обе по 24 часа). 6.5 была версией ядра, которая фактически сломала pcie passthrough для моей GPU (раньше всё работало нормально с 5.x, потом появилась ошибка 43 в Windows), но в 6.8 эта ошибка исчезла. Я очень тщательно прогонял memtest86+ на обоих комплектах RAM, так что это, боюсь, не оно — возможно, это была какая-то ошибка ядра, и из-за того, что теперь приходится часто перезагружать систему, какие-то файлы на диске могли повредиться, или это проявлялось бы иначе? Это последнее подобие активности крашей, насколько я могу судить, на этот раз всё крашнулось без той же ошибки. Я не совсем уверен, когда система перешла в "серый режим", потому что меня не было дома, а я заметил, когда вернулся, но в 98% случаев так и происходит. Слишком много ошибок в течение 5 минут, поэтому вот pastebin: https://pastebin.com/xkbNBECC
     
     
     
    nbevans
    Guest
    #4
    0
    03.10.2024 13:49:00
    Эта проблема с "dereference страницы get_ksm_page" уже случалась со мной трижды. Первый раз, когда это произошло, я обновился до Linux 6.8.12-1-pve. Но на этой версии это случилось уже дважды.
     
     
     
    nbevans
    Guest
    #5
    0
    03.10.2024 13:50:00
    Я отключил KSM сейчас, чтобы проверить, ошибка в KSM (скорее всего) или проблема просто переместится в другое место ядра.
     
     
     
    nbevans
    Guest
    #6
    0
    15.10.2024 10:41:00
    Постукиваем по дереву – работает стабильно с тех пор, как отключил KSM...
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры