Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Виртуальная Среда
    mce: [Аппаратная ошибка]: зарегистрированы события проверки машины

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    mce: [Аппаратная ошибка]: зарегистрированы события проверки машины, Proxmox Виртуальная Среда
     
    trendco
    Guest
    #1
    0
    01.04.2016 10:39:00
    Время от времени в моём Syslog появляются такие сообщения:  
    Код:  
    mce: [Hardware Error]: Machine check events logged

    Я установил mcelog, и вот что он показывает:  
    Код:  
    TIME 1459479366 Fri Apr  1 04:56:06 2016  
    MCG status:  
    MCi status:  
    Исправленная ошибка  
    Ошибка включена  
    MCA: Внутренняя ошибка чётности  
    STATUS 90000040000f0005 MCGSTATUS 0  
    MCGCAP c09 APICID 6 SOCKETID 0  
    CPUID Vendor Intel Family 6 Model 60  
    Событие аппаратное. Это не программная ошибка.  
    MCE 0  
    CPU 2 BANK 0  

    TIME 1459480198 Fri Apr  1 05:09:58 2016  
    MCG status:  
    MCi status:  
    Исправленная ошибка  
    Ошибка включена  
    MCA: Внутренняя ошибка чётности  
    STATUS 90000040000f0005 MCGSTATUS 0  
    MCGCAP c09 APICID 4 SOCKETID 0  
    CPUID Vendor Intel Family 6 Model 60  
    Событие аппаратное. Это не программная ошибка.  
    MCE 0  
    CPU 1 BANK 0  

    TIME 1459480814 Fri Apr  1 05:20:14 2016  
    MCG status:  
    MCi status:  
    Исправленная ошибка  
    Ошибка включена  
    MCA: Внутренняя ошибка чётности  
    STATUS 90000040000f0005 MCGSTATUS 0  
    MCGCAP c09 APICID 2 SOCKETID 0  
    CPUID Vendor Intel Family 6 Model 60  
    Событие аппаратное. Это не программная ошибка.  
    MCE 0  
    CPU 1 BANK 0  

    TIME 1459487750 Fri Apr  1 07:15:50 2016  
    MCG status:  
    MCi status:  
    Исправленная ошибка  
    Ошибка включена  
    MCA: Внутренняя ошибка чётности  
    STATUS 90000040000f0005 MCGSTATUS 0  
    MCGCAP c09 APICID 2 SOCKETID 0  
    CPUID Vendor Intel Family 6 Model 60  
    Событие аппаратное. Это не программная ошибка.  
    MCE 0  
    CPU 3 BANK 0  

    TIME 1459492990 Fri Apr  1 08:43:10 2016  
    MCG status:  
    MCi status:  
    Исправленная ошибка  
    Ошибка включена  
    MCA: Внутренняя ошибка чётности  
    STATUS 90000040000f0005 MCGSTATUS 0  
    MCGCAP c09 APICID 6 SOCKETID 0  
    CPUID Vendor Intel Family 6 Model 60  

    Что это означает? Для информации: процессор — Xeon E3-1246V3.
     
     
     
    trendco
    Guest
    #2
    0
    20.04.2016 08:50:00
    Какие-нибудь идеи? У меня эта проблема почти каждый день.
     
     
     
    t.lamprecht
    Guest
    #3
    0
    20.04.2016 09:25:00
    Какую материнскую плату используешь? Установлены ли на неё самые свежие обновления BIOS/UEFI?
     
     
     
    trendco
    Guest
    #4
    0
    20.04.2016 09:44:00
    http://www.supermicro.com/products/motherboard/Xeon/C220/X10SAE.cfm Самая новая версия BIOS
     
     
     
    t.lamprecht
    Guest
    #5
    0
    20.04.2016 10:19:00
    Хмм, понятно. Несколько недель назад у них были похожие, но ещё более серьёзные проблемы с платами, но пользователь особо не повезло с поддержкой Supermicro :/ Ты запускаешь 32-битные виртуальные машины? Судя по всему, это HSW131 из http://www.intel.com/content/dam/ww...cation-updates/xeon-e3-1200v3-spec-update.pdf (просто поищи там). Твой статус — "STATUS 90000040000f0005", что в двоичном виде выглядит так:

    Код: 1 0 0 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 1 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 1 1 1 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 1 0 1  
    ↑   ↑  
    |-         бит[31:16] = 0x000F -|
    |-         бит[15:0] = 0x0005 -|
    |   61-й бит не установлен  
    63-й бит установлен  

    Так что можешь это игнорировать.
     
     
     
    trendco
    Guest
    #6
    0
    20.04.2016 11:04:00
    Да, я также использую 32-битные системы: одну с Win-2000 и одну с Win-XP. Остальные системы — 64-битные. Извините за вопрос, но что это теперь значит? Я не понимаю, в чём конкретно проблема, запутался.
     
     
     
    t.lamprecht
    Guest
    #7
    0
    20.04.2016 11:26:00
    Эмм, мог бы выразиться чуть яснее, извиняюсь. Это значит, что у Intel тоже бывают баги, и тебе просто не повезло столкнуться с одним из них. Но, к счастью, этот баг настолько безобиден, насколько это возможно, как и говорится в заключении Intel. Они публикуют так называемые "Errata" — документы, в которых рассказывается о конкретной модели процессора и её проблемах, связанных с железом или софтом, а также о способах исправления или обхода, если это возможно. Твоя конкретная проблема (HSW131) не требует вмешательства, так как это внутренняя ошибка чётности, которая сама себя исправляет, что подтверждается твоим логом, в котором есть множество сообщений "Error corrected". "Ошибка" в логе здесь скорее информация для пользователя, но этот конкретный случай можно спокойно игнорировать и не принимать во внимание. Понимаю, что немного странно просто игнорировать такое (или любое "сообщение об ошибке"), но так как твоя модель явно подвержена этой проблеме, статус сообщения тоже ссылается на HSW131, а у Intel хорошая репутация в подобных errata, поэтому, по моему мнению, так и надо делать.
     
     
     
    trendco
    Guest
    #8
    0
    20.04.2016 11:38:00
    Большое спасибо за такой подробный ответ. Это баг когда-нибудь исправят? И если да, то в BIOS материнской платы или в ядре? Моя проблема сейчас в следующем: у меня настроен cron-задача, которая запускается каждый час. Она проверяет dmesg и syslog на наличие ошибок, и если ошибка обнаружена, я получаю email. Но там просто написано "mce: [Hardware Error]: Machine check events logged", поэтому я не могу отфильтровать это, потому что подробная ошибка содержится в mcelog. Есть идеи?
     
     
     
    t.lamprecht
    Guest
    #9
    0
    20.04.2016 11:46:00
    Я не знаю конкретных внутренних деталей этой ошибки, но подозреваю, что её нельзя исправить с помощью обновлений микрокода процессора, либо же просто не видят смысла её исправлять (она ни на что не влияет), иначе Intel уже бы сделал это и описал решение в errata. Исправление на уровне ядра или BIOS просто подавит эту конкретную ошибку, но саму проблему не решит. Один из вариантов решения — всё-таки фильтровать эту ошибку, но чтобы не пропустить другую, отличную и потенциально опасную ошибку MCE, при этом сканировать лог MCE и отправлять письмо, если в логе возникнет какая-то ошибка, кроме этой конкретной. Не самое крутое решение, но оно должно работать.
     
     
     
    trendco
    Guest
    #10
    0
    20.04.2016 12:06:00
    Окей, большое спасибо за информацию.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры