Сейчас у моей команды на работе заканчивается бюджет, и если не найдём, на что ещё его потратить, то, возможно, сможем использовать его для покупки дополнительных GPU. У нас сейчас есть такая система: GPU A+ Client System AS -4125GS-TNRT -4125gs-tnrt, которая работает под bare metal Linux, с 2 CPU, 1.5 TB RAM и одним GPU (A100 80GB). Мы сейчас думаем, можно ли добавить ещё 7x H100 NVL 94 GB (продавец утверждает, что эта деталь совместима с системой), и потом управлять всем этим через Proxmox. Планируется сделать несколько VM:
1. Запуск численного моделирования с 1 GPU
2. Запуск оптимизации измерений с 1 GPU
3. Запуск локальной большой языковой модели с RAG с 6 GPU
У меня большой опыт работы с Proxmox с версии 4.0, я установил и поддерживал более 10 машин, занимался GPU passthrough. Но с проектом такого масштаба я раньше не работал. Я хочу использовать Proxmox и, скорее всего, буду использовать статическое распределение GPU, поэтому думаю, что мне не придётся возиться с лицензиями Nvidia vGPU и прочей работой, а просто проходить GPU по одному. Интересно, не наивен ли я в этом? Буду признателен за любые мысли и опасения.
1. Запуск численного моделирования с 1 GPU
2. Запуск оптимизации измерений с 1 GPU
3. Запуск локальной большой языковой модели с RAG с 6 GPU
У меня большой опыт работы с Proxmox с версии 4.0, я установил и поддерживал более 10 машин, занимался GPU passthrough. Но с проектом такого масштаба я раньше не работал. Я хочу использовать Proxmox и, скорее всего, буду использовать статическое распределение GPU, поэтому думаю, что мне не придётся возиться с лицензиями Nvidia vGPU и прочей работой, а просто проходить GPU по одному. Интересно, не наивен ли я в этом? Буду признателен за любые мысли и опасения.
