Привет всем,
В последнее время у меня периодически происходит перезагрузка окружения. Детали аппаратного обеспечения (2 x Dell R6525): AMD EPYC 74F3, BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet, PERC H745 (с RAID 5 и 5x3.84ssd 12g). Полностью обновлено (BIOS/сеть/iDRAC/SAS). Proxmox: Proxmox 7.1.8, ядро 5.13.19-2-pve.
Я связался со службой поддержки Dell, мы провели опрос логов, и они заверили меня, что это не проблема оборудования (полагаю, это только потому, что проблема возникает на другом сервере, точно таком же). Изучая логи, я нашел вот что (kern.log):
[ 2.989605] BERT: Error records from previous boot:
[ 2.989606] [Hardware Error]: event severity: fatal
[ 2.989607] [Hardware Error]: Error 0, type: fatal
[ 2.989608] [Hardware Error]: section_type: IA32/X64 processor error
[ 2.989609] [Hardware Error]: Local APIC_ID: 0x4a
[ 2.989611] [Hardware Error]: CPUID Info:
[ 2.989613] [Hardware Error]: 00000000: 00a00f11 00000000 4a300800 00000000
[ 2.989614] [Hardware Error]: 00000010: 76fa320b 00000000 178bfbff 00000000
[ 2.989614] [Hardware Error]: 00000020: 00000000 00000000 00000000 00000000
[ 2.989615] [Hardware Error]: Error Information Structure 0:
[ 2.989616] [Hardware Error]: Error Structure Type: bus error
[ 2.989617] [Hardware Error]: Check Information: 0x00000000164267ff
[ 2.989618] [Hardware Error]: Transaction Type: 2, Generic
[ 2.989619] [Hardware Error]: Operation: 0, generic error
[ 2.989620] [Hardware Error]: Level: 1
[ 2.989620] [Hardware Error]: Processor Context Corrupt: true
[ 2.989621] [Hardware Error]: Uncorrected: true
[ 2.989621] [Hardware Error]: Precise IP: false
[ 2.989621] [Hardware Error]: Restartable IP: true
[ 2.989622] [Hardware Error]: Overflow: false
[ 2.989622] [Hardware Error]: Participation Type: 0, Local Processor originated request
[ 2.989623] [Hardware Error]: Time Out: false
[ 2.989624] [Hardware Error]: Address Space: 0, Memory Access
[ 2.989624] [Hardware Error]: Context Information Structure 0:
[ 2.989625] [Hardware Error]: Register Context Type: MSR Registers (Machine Check and other MSRs)
[ 2.989626] [Hardware Error]: Register Array Size: 0x0058
[ 2.989626] [Hardware Error]: MSR Address: 0xc0002010
[ 2.989627] [Hardware Error]: Register Array:
[ 2.989627] [Hardware Error]: 00000000: 0000000000000000 b2a00000060e0809
[ 2.989628] [Hardware Error]: 00000010: 0000000000000000 d010000000000000
[ 2.989629] [Hardware Error]: 00000020: 00000003000001f9 000100b00000004a
[ 2.989629] [Hardware Error]: 00000030: 000000005d000030 0000000000000000
[ 2.989630] [Hardware Error]: 00000040: 0000000000000000 0000000000000000
[ 2.989630] [Hardware Error]: 00000050: 0000000000000000
[ 2.989652] PM: Magic number: 6:347:782
Хотелось бы узнать, есть ли другие случаи, подобные этому, поскольку проблема возникает на других серверах. Есть ли какие-либо предложения по исправлению или обходные пути?
Прилагаю.
В последнее время у меня периодически происходит перезагрузка окружения. Детали аппаратного обеспечения (2 x Dell R6525): AMD EPYC 74F3, BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet, PERC H745 (с RAID 5 и 5x3.84ssd 12g). Полностью обновлено (BIOS/сеть/iDRAC/SAS). Proxmox: Proxmox 7.1.8, ядро 5.13.19-2-pve.
Я связался со службой поддержки Dell, мы провели опрос логов, и они заверили меня, что это не проблема оборудования (полагаю, это только потому, что проблема возникает на другом сервере, точно таком же). Изучая логи, я нашел вот что (kern.log):
[ 2.989605] BERT: Error records from previous boot:
[ 2.989606] [Hardware Error]: event severity: fatal
[ 2.989607] [Hardware Error]: Error 0, type: fatal
[ 2.989608] [Hardware Error]: section_type: IA32/X64 processor error
[ 2.989609] [Hardware Error]: Local APIC_ID: 0x4a
[ 2.989611] [Hardware Error]: CPUID Info:
[ 2.989613] [Hardware Error]: 00000000: 00a00f11 00000000 4a300800 00000000
[ 2.989614] [Hardware Error]: 00000010: 76fa320b 00000000 178bfbff 00000000
[ 2.989614] [Hardware Error]: 00000020: 00000000 00000000 00000000 00000000
[ 2.989615] [Hardware Error]: Error Information Structure 0:
[ 2.989616] [Hardware Error]: Error Structure Type: bus error
[ 2.989617] [Hardware Error]: Check Information: 0x00000000164267ff
[ 2.989618] [Hardware Error]: Transaction Type: 2, Generic
[ 2.989619] [Hardware Error]: Operation: 0, generic error
[ 2.989620] [Hardware Error]: Level: 1
[ 2.989620] [Hardware Error]: Processor Context Corrupt: true
[ 2.989621] [Hardware Error]: Uncorrected: true
[ 2.989621] [Hardware Error]: Precise IP: false
[ 2.989621] [Hardware Error]: Restartable IP: true
[ 2.989622] [Hardware Error]: Overflow: false
[ 2.989622] [Hardware Error]: Participation Type: 0, Local Processor originated request
[ 2.989623] [Hardware Error]: Time Out: false
[ 2.989624] [Hardware Error]: Address Space: 0, Memory Access
[ 2.989624] [Hardware Error]: Context Information Structure 0:
[ 2.989625] [Hardware Error]: Register Context Type: MSR Registers (Machine Check and other MSRs)
[ 2.989626] [Hardware Error]: Register Array Size: 0x0058
[ 2.989626] [Hardware Error]: MSR Address: 0xc0002010
[ 2.989627] [Hardware Error]: Register Array:
[ 2.989627] [Hardware Error]: 00000000: 0000000000000000 b2a00000060e0809
[ 2.989628] [Hardware Error]: 00000010: 0000000000000000 d010000000000000
[ 2.989629] [Hardware Error]: 00000020: 00000003000001f9 000100b00000004a
[ 2.989629] [Hardware Error]: 00000030: 000000005d000030 0000000000000000
[ 2.989630] [Hardware Error]: 00000040: 0000000000000000 0000000000000000
[ 2.989630] [Hardware Error]: 00000050: 0000000000000000
[ 2.989652] PM: Magic number: 6:347:782
Хотелось бы узнать, есть ли другие случаи, подобные этому, поскольку проблема возникает на других серверах. Есть ли какие-либо предложения по исправлению или обходные пути?
Прилагаю.
