Привет, у меня есть кластер Proxmox из 6 узлов на версии 7.2-4. Каждый из этих узлов имеет задачу резервного копирования: - узел-1 в 2:00 - узел-2 в 2:30 ... - узел-6 в 4:30 Целевое хранилище на NFS с примерно 2 ТБ свободного места. У меня всегда зависает 2 или 3 задачи резервного копирования с последней строкой логов: INFO: include disk 'scsi0' 'pve-shared:502/vm-502-disk-0.qcow2' 32G Вот полный лог одной из этих неудачных задач резервного копирования: Код: INFO: starting new backup job: vzdump --node pve-a84d07 --mode snapshot --prune-backups 'keep-last=7' --mailnotification failure --all 1 --compress zstd --quiet 1 --notes-template '{{guestname}}' --storage pve-shared INFO: Starting Backup of VM 203 (qemu) INFO: Backup started at 2022-05-27 02:30:03 INFO: status = running INFO: VM Name: Docker-Host-16E229 INFO: include disk 'scsi0' 'pve-shared:203/vm-203-disk-1.qcow2' 32G INFO: backup mode: snapshot INFO: ionice priority: 7 INFO: skip unused drive 'pve-shared:203/vm-203-disk-0.qcow2' (not included into backup) INFO: creating vzdump archive '/mnt/pve/pve-shared/dump/vzdump-qemu-203-2022_05_27-02_30_03.vma.zst' INFO: issuing guest-agent 'fs-freeze' command INFO: issuing guest-agent 'fs-thaw' command INFO: started backup task 'cf8e3543-d959-4756-a400-a57b28cf8c53' INFO: resuming VM again INFO: 1% (369.0 MiB из 32.0 GiB) за 3с, чтение: 123.0 MiБ/с, запись: 90.2 МиБ/с [...] INFO: 100% (32.0 GiБ из 32.0 GiБ) за 5м 39с, чтение: 95.5 МиБ/с, запись: 0 Б/с INFO: backup is sparse: 22.48 GiБ (70%) всего нулевых данных INFO: transferred 32.00 GiБ за 339 секунд (96.7 МиБ/с) INFO: archive file size: 3.45ГБ INFO: adding notes to backup INFO: prune older backups with retention: keep-last=7 INFO: removing backup 'pve-shared:backup/vzdump-qemu-203-2022_05_20-15_32_10.vma.zst' INFO: pruned 1 backup(s) not covered by keep-retention policy INFO: Finished Backup of VM 203 (00:05:41) INFO: Backup finished at 2022-05-27 02:35:44 INFO: Starting Backup of VM 502 (qemu) INFO: Backup started at 2022-05-27 02:35:44 INFO: status = running INFO: VM Name: K3S-Master-2 INFO: include disk 'scsi0' 'pve-shared:502/vm-502-disk-0.qcow2' 32G ################################################## ################################################## Завис здесь, запросил перезагрузку этого узла ################################################## ################################################## interrupted by signal could not parse qemu-img info command output for '/mnt/pve/pve-shared/images/502/vm-502-disk-0.qcow2' - malformed JSON string, neither tag, array, object, number, string or atom, at character offset 0 (before "(end of string)") at /usr/share/perl5/PVE/Storage/Plugin.pm line 894. INFO: backup mode: snapshot INFO: ionice priority: 7 INFO: creating vzdump archive '/mnt/pve/pve-shared/dump/vzdump-qemu-502-2022_05_27-02_35_44.vma.zst' ERROR: got timeout INFO: aborting backup job ERROR: VM 502 qmp command 'backup-cancel' failed - interrupted by signal INFO: resuming VM again ipcc_send_rec[1] failed: Connection refused ipcc_send_rec[2] failed: Connection refused ipcc_send_rec[3] failed: Connection refused Connection refused ERROR: Backup of VM 502 failed - VM 502 qmp command 'cont' failed - unable to connect to VM 502 qmp socket - timeout after 449 retries INFO: Failed at 2022-05-27 09:43:52 ERROR: Backup job failed - Connection refused TASK ERROR: Connection refused Как видите, резервное копирование первой ВМ прошло успешно, а вот со второй зависло (из трех). Утром, чтобы всё вернуть в норму, я перезагружаю каждый неудавшийся узел. Кто-нибудь знает, что происходит? Есть ли способ получить уровень отладки для задач резервного копирования? Спасибо, что прочитали!
Ежедневное резервное копирование зависло 'включить диск', Proxmox Виртуальная Среда
|
27.05.2022 10:20:00
|
|
|
|
|
|
04.08.2022 09:26:00
на каком типе хранения находятся диски? кажется, это блоки qemu-img, что может случиться с сетевым хранилищем, таким как NFS или CIFS, если есть проблема с доступом к хранилищу.
|
|
|
|
|
|
04.08.2022 09:32:00
ну вот, еще один бэкап завершен прямо перед этим — так что, возможно, он занят очисткой этого файла..
|
|
|
|
|
Читают тему

Все другие задачи происходят до и после окна резервного копирования и не пересекаются. Странно то, что я часто мог перезапускать резервное копирование в течение дня, когда используется больше клиентов - хотя мне удалось воспроизвести это сегодня утром, когда я запустил его вручную. Возможно, добавлю отдельный диск для резервного копирования, чтобы провести некоторые тесты.