Бум генеративного искусственного интеллекта и больших языковых моделей (LLM) поставил перед разработчиками и CTO сложнейший инфраструктурный вопрос: где обучать и запускать модели? С одной стороны, облака предлагают моментальный старт и гибкость масштабирования. С другой — счета от AWS, Google Cloud или Azure за инстансы с мощными ускорителями могут быстро вогнать стартап или отдел разработки в глубокий финансовый кризис.

Предыстория и мотивация

Когда перед нашей командой встала задача регулярного тонкого тюнинга (fine-tuning) моделей класса Llama-3-70B и постоянного инференса нескольких кастомных сетей, мы провели ревизию облачных расходов. Цифры пугали. В итоге было принято радикальное решение: построить собственный on-premise GPU-сервер с бюджетом около $48 000.

Анатомия «железа»: что находится внутри сервера за $48 000?

При планировании сервера на GPU для задач машинного обучения критически важно соблюсти баланс между пропускной способностью шины PCIe, объемом видеопамяти, мощностью центрального процессора и скоростью дисковой подсистемы.

Компоненты сервера

  • Графические ускорители (GPU): 4 x NVIDIA A100 (80GB PCIe Gen4). Это ядро нашей системы. Суммарно мы получили 320 ГБ быстрой видеопамяти HBM2e с пропускной способностью до 2 ТБ/с на карту.
  • Центральный процессор (CPU): Dual AMD EPYC 9354 (в сумме 64 ядра, 128 потоков, базовая частота 3.25 ГГц).
  • Оперативная память (RAM): 512 GB DDR5 ECC (8 x 64GB), работающая в 12-канальном режиме.
  • Накопители (Storage): 4 x 3.84TB NVMe SSD U.3 в RAID 10 (суммарная полезная емкость около 7.6 ТБ).
  • Сетевой интерфейс: Dual-port 100GbE Mellanox ConnectX-6 Dx.

Экономика и TCO

Мы детально посчитаем реальную стоимость владения (TCO) сервера и поделимся техническими инсайтами, которые мы получили в процессе эксплуатации. Ведь, как известно, «бесплатный сыр» — только в мышеловке, а за облачный инстанс все равно придется платить.

Заключение

Оправдались ли инвестиции в GPU-сервер за $48 000? Ответ на этот вопрос вы найдете в заключении статьи. И да, мы не нашли ответа на Stack Overflow — пришлось считать самим.