Запускаю Hashcat просто так, в качестве хобби-проекта, чтобы лучше разобраться в этом, с Tesla P4, в Windows VM. И Tesla подволакивает прилично. Просто интересно, может кто-то сталкивался с подобным и есть какие-то решения/предложения?
nvidia-smi установлен в persistent mode, P0 performance state, драйвера настроены для максимальной производительности, Hashcat использует максимальный профиль нагрузки (-w 4). Пробовал и CUDA, и OpenCL инстанс для устройства (производительность примерно одинаковая). На тестах вижу, например, 29.9GH/s NTLM с P4, а у меня 1.838 - 2.167 GH/s NTLM. Для справки, это как 6-7% производительности по сравнению с "голым железу". Может, есть что-то, что стоит подкрутить/изменить, чтобы выжать больше из неё, или это баг в Proxmox, который как-то снижает производительность CUDA? Похоже, что-то не так. Всё кажется настроенным правильно, я потратил много времени и сил, чтобы убедиться в этом, но производительность отвратительная для многих задач. Просто хватает для большинства задач, даже для игр. Но на задачах, требующих высокой производительности, я заметил это и в AI-приложениях, например (другие сообщают о более высокой производительности P4 на IT/s для AI, чем я вижу, но я думал, что это просто модели, которые используются, или что-то вроде этого). Теперь я вижу, что это не так...
nvidia-smi установлен в persistent mode, P0 performance state, драйвера настроены для максимальной производительности, Hashcat использует максимальный профиль нагрузки (-w 4). Пробовал и CUDA, и OpenCL инстанс для устройства (производительность примерно одинаковая). На тестах вижу, например, 29.9GH/s NTLM с P4, а у меня 1.838 - 2.167 GH/s NTLM. Для справки, это как 6-7% производительности по сравнению с "голым железу". Может, есть что-то, что стоит подкрутить/изменить, чтобы выжать больше из неё, или это баг в Proxmox, который как-то снижает производительность CUDA? Похоже, что-то не так. Всё кажется настроенным правильно, я потратил много времени и сил, чтобы убедиться в этом, но производительность отвратительная для многих задач. Просто хватает для большинства задач, даже для игр. Но на задачах, требующих высокой производительности, я заметил это и в AI-приложениях, например (другие сообщают о более высокой производительности P4 на IT/s для AI, чем я вижу, но я думал, что это просто модели, которые используются, или что-то вроде этого). Теперь я вижу, что это не так...
