Привет, у нас проблема с двухпортовой сетевой картой на 25Гб, которая «вылетает» через 3-4 часа. Вот отчет об ошибке:
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: ICE OICR event notification: oicr = 0x04000003
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: HMC Error
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: Requesting a reset
Feb 07 11:27:19 pve-03 kernel: ice 0000:98:00.0: Removed PTP clock
Feb 07 11:27:19 pve-03 kernel: ice 0000:98:00.0: Clearing default VSI, re-enable after reset completes
Feb 07 11:27:30 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered disabled state
Feb 07 11:27:30 pve-03 kernel: ice 0000:98:00.0: PTP init successful
Feb 07 11:27:32 pve-03 pvestatd[2632]: Backup: error fetching datastores - 500 Can't connect to 172.16.110.233:8007 (Connection timed out)
Feb 07 11:27:32 pve-03 pvestatd[2632]: status update time (14.178 seconds)
Feb 07 11:27:35 pve-03 kernel: ice 0000:98:00.0: VSI rebuilt. VSI index 0, type ICE_VSI_PF
Feb 07 11:27:35 pve-03 kernel: ice 0000:98:00.0: VSI rebuilt. VSI index 383, type ICE_VSI_CTRL
Feb 07 11:27:37 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered blocking state
Feb 07 11:27:37 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered forwarding state
enp152s0f0 является vlan-aware и настроен только по vlan на vmbr0. Нет бондинга, используется стандартный порт Linux. После этой ошибки сеть вроде бы не рушится, но все виртуальные машины на узле теряют сетевое подключение. Перезагрузка виртуалок не помогает. Единственный способ восстановить — перезагрузить сервер Proxmox. Перезапуск службы сети, похоже, приводит к перезагрузке компьютера.
Версия Proxmox — последняя, 7.3.4 с ядром 5.15.83-1-pve.
У кого-нибудь была такая ошибка?
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: ICE OICR event notification: oicr = 0x04000003
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: HMC Error
Feb 07 11:27:17 pve-03 kernel: ice 0000:98:00.0 irdma0: Requesting a reset
Feb 07 11:27:19 pve-03 kernel: ice 0000:98:00.0: Removed PTP clock
Feb 07 11:27:19 pve-03 kernel: ice 0000:98:00.0: Clearing default VSI, re-enable after reset completes
Feb 07 11:27:30 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered disabled state
Feb 07 11:27:30 pve-03 kernel: ice 0000:98:00.0: PTP init successful
Feb 07 11:27:32 pve-03 pvestatd[2632]: Backup: error fetching datastores - 500 Can't connect to 172.16.110.233:8007 (Connection timed out)
Feb 07 11:27:32 pve-03 pvestatd[2632]: status update time (14.178 seconds)
Feb 07 11:27:35 pve-03 kernel: ice 0000:98:00.0: VSI rebuilt. VSI index 0, type ICE_VSI_PF
Feb 07 11:27:35 pve-03 kernel: ice 0000:98:00.0: VSI rebuilt. VSI index 383, type ICE_VSI_CTRL
Feb 07 11:27:37 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered blocking state
Feb 07 11:27:37 pve-03 kernel: vmbr0: port 1(enp152s0f0) entered forwarding state
enp152s0f0 является vlan-aware и настроен только по vlan на vmbr0. Нет бондинга, используется стандартный порт Linux. После этой ошибки сеть вроде бы не рушится, но все виртуальные машины на узле теряют сетевое подключение. Перезагрузка виртуалок не помогает. Единственный способ восстановить — перезагрузить сервер Proxmox. Перезапуск службы сети, похоже, приводит к перезагрузке компьютера.
Версия Proxmox — последняя, 7.3.4 с ядром 5.15.83-1-pve.
У кого-нибудь была такая ошибка?

Мой сценарий: HPE ProLiant DL380 Gen10 Plus, два сетевых адаптера настроены как LACP OVS bonding: Intel® Eth E810-XXVDA2 и Intel® Eth Ntwk Adptr OCP3.0 E810-XXVDA2. Оба с прошивкой версии 3.20. На обоих успешно загружен DDP пакет ICE COMMS Package версии 1.3.40.0. Proxmox VE 7.4 работает на ядре 5.15.85-1-pve или 5.19.17-2-pve. PVE стабильно работает, если запущен на ядре 5.15.39-1-pve. Обновление ядра до 6.2 — не вариант, насколько я знаю, оно несовместимо с DRBD/LINSTOR.