Я совсем новичок в ProxMox VE и PBS. В прошлом месяце я купил Minisforum MS-01 на Amazon и установил на него ProxMox VE и пару ВМ. Потом я купил еще один MS-01 и настроил их как двухузловой кластер. Проблемы возникают только со вторым приобретенным блоком. Он нормально работает с небольшими нагрузками, например, с онлайн-миграцией Linux ВМ с 4 ГБ ОЗУ и 32 ГБ диска. Но если попробовать что-то большее, например, с 75 ГБ диска, то миграция на проблемный MS-01 (новый блок) не завершается. Иногда целевой блок зависает, обычно ошибка обнаруживается отправителем, и все откатывается. Изучая логи, я нашел ошибки MCE, которые фиксируются только на этом проблемном блоке. Вот пример типичного вывода во время большой миграции. Код: root@ms-01-20250512:~# journalctl -k -f | grep -iE 'mce|cmci|error'
May 25 09:22:24 ms-01-20250512 kernel: CPU12 BANK1 CMCI storm detected
May 25 09:22:24 ms-01-20250512 kernel: CPU16 BANK1 CMCI storm detected
May 25 09:22:24 ms-01-20250512 kernel: mce: [Hardware Error]: Machine check events logged
May 25 09:22:24 ms-01-20250512 kernel: mce: [Hardware Error]: Machine check events logged Если я реплицирую ZFS для гостей для быстрой миграции, репликация работает некоторое время, генерирует ошибки как выше, затем целевой блок жестко зависает, требуя выключения/сброса питания. Я отключил репозиторий pve.enterprise и включил pve.no-subscription, apt update/apt upgrade, установил Intel microcode. Я обновил BIOS до версии 1.26. В обоих блоках одинаковое оборудование и, насколько я могу судить, одинаковое программное обеспечение. Чтобы сравнить MS-01, который может принимать большую репликацию, с тем, который этого не может, я собрал это, чтобы убедиться, что я получаю одинаковый вывод на каждом блоке, и действительно получаю его - отличаются только серийные номера. В BIOS я ничего не настраивал по разгону и т.д. и отключил только Secure Boot. Код: dmidecode -s system-serial-number
pveversion -v
grep -i microcode /proc/cpuinfo | uniq
dmesg | grep -i microcode
dpkg -l | grep intel-microcode
dmidecode -t bios Немного раздражает, что я могу запустить memtest86 для 5+ проходов, и он не обнаруживает ошибок. Но я слышал, что эти ошибки могут возникать из-за проблем с L2-кэшем ЦП, которые memtest не показывает? Мне было бы спокойнее, если бы у меня было что-то вроде memtest86, которое выдает сбой, вместо того, чтобы только моя реальная нагрузка ставила под сомнение, правильно ли я установил и настроил все. Ты никогда не знаешь, чего не знаешь. Спасибо за любые комментарии!
May 25 09:22:24 ms-01-20250512 kernel: CPU12 BANK1 CMCI storm detected
May 25 09:22:24 ms-01-20250512 kernel: CPU16 BANK1 CMCI storm detected
May 25 09:22:24 ms-01-20250512 kernel: mce: [Hardware Error]: Machine check events logged
May 25 09:22:24 ms-01-20250512 kernel: mce: [Hardware Error]: Machine check events logged Если я реплицирую ZFS для гостей для быстрой миграции, репликация работает некоторое время, генерирует ошибки как выше, затем целевой блок жестко зависает, требуя выключения/сброса питания. Я отключил репозиторий pve.enterprise и включил pve.no-subscription, apt update/apt upgrade, установил Intel microcode. Я обновил BIOS до версии 1.26. В обоих блоках одинаковое оборудование и, насколько я могу судить, одинаковое программное обеспечение. Чтобы сравнить MS-01, который может принимать большую репликацию, с тем, который этого не может, я собрал это, чтобы убедиться, что я получаю одинаковый вывод на каждом блоке, и действительно получаю его - отличаются только серийные номера. В BIOS я ничего не настраивал по разгону и т.д. и отключил только Secure Boot. Код: dmidecode -s system-serial-number
pveversion -v
grep -i microcode /proc/cpuinfo | uniq
dmesg | grep -i microcode
dpkg -l | grep intel-microcode
dmidecode -t bios Немного раздражает, что я могу запустить memtest86 для 5+ проходов, и он не обнаруживает ошибок. Но я слышал, что эти ошибки могут возникать из-за проблем с L2-кэшем ЦП, которые memtest не показывает? Мне было бы спокойнее, если бы у меня было что-то вроде memtest86, которое выдает сбой, вместо того, чтобы только моя реальная нагрузка ставила под сомнение, правильно ли я установил и настроил все. Ты никогда не знаешь, чего не знаешь. Спасибо за любые комментарии!
