Google Cloud расширяет домен инфраструктуры ИИ с помощью TPU шестого поколения
31 октября 2024 г.Google Cloud улучшит облачную инфраструктуру ИИ с помощью новых TPU и графических процессоров NVIDIA, объявила технологическая компания 30 октября на саммите App Day & Infrastructure Summit.
Шестое поколение процессоров Trillium NPU, которое сейчас доступно для облачных клиентов в предварительной версии, обеспечивает работу многих самых популярных сервисов Google Cloud, включая Поиск и Карты.
«Благодаря этим достижениям в инфраструктуре ИИ Google Cloud позволяет компаниям и исследователям переопределить границы инноваций ИИ», — написал в пресс-релизе Марк Ломейер, вице-президент и генеральный директор Compute and AI Infrastructure в Google Cloud. «Мы с нетерпением ждем преобразующих новых приложений ИИ, которые появятся на этой мощной основе».
Trillium NPU ускоряет процессы генеративного ИИ
По мере роста крупных языковых моделей должны расти и аппаратные средства для их поддержки.
Шестое поколение Trillium NPU обеспечивает обучение, вывод и доставку больших приложений языковых моделей на 91 экзафлопс в одном кластере TPU. Google Cloud сообщает, что версия шестого поколения обеспечивает увеличение пиковой производительности вычислений на чип в 4,7 раза по сравнению с пятым поколением. Она удваивает емкость High Bandwidth Memory и пропускную способность Interchip Interconnect.
Trillium удовлетворяет высокие вычислительные требования крупномасштабных моделей диффузии, таких как Stable Diffusion XL. На пике своей работы инфраструктура Trillium может связать десятки тысяч чипов, создавая то, что Google Cloud описывает как «суперкомпьютер масштаба здания».
Корпоративные клиенты просили более экономичное ускорение ИИ и повышенную производительность вывода, сообщил Мохан Пичика, менеджер по продуктам группы инфраструктуры ИИ в Google Cloud, в электронном письме TechRepublic.
В пресс-релизе клиент Google Cloud Дениз Туна, руководитель отдела разработки мобильных приложений компании HubX, отметил: «Мы использовали Trillium TPU для создания текста в изображении с MaxDiffusion и FLUX.1, и результаты потрясающие! Мы смогли сгенерировать четыре изображения за 7 секунд — это на 35% меньше задержки отклика и примерно на 45% меньше затрат на изображение по сравнению с нашей текущей системой!»
Новые виртуальные машины ожидают поставки чипов NVIDIA Blackwell
В ноябре Google добавит в свои облачные сервисы виртуальные машины A3 Ultra на базе графических процессоров NVIDIA H200 Tensor Core. Виртуальные машины A3 Ultra запускают ИИ или высокопроизводительные вычислительные нагрузки в сети центра обработки данных Google Cloud со скоростью 3,2 Тбит/с трафика GPU-GPU. Они также предлагают клиентам:
- Интеграция с оборудованием NVIDIA ConnectX-7.
В 2 раза больше пропускной способности сети GPU-GPU по сравнению с предыдущим эталоном A3 Mega.
В 2 раза выше производительность вывода LLM.
Почти вдвое больше емкость памяти.
В 1,4 раза больше пропускной способности памяти.
Новые виртуальные машины будут доступны через Google Cloud или Google Kubernetes Engine.
SEE: Генеральный директор Nvidia Дженсен Хуанг заявил на встрече инвесторов в октябре, что графические процессоры Blackwell распроданы на следующий год.
Дополнительные обновления инфраструктуры Google Cloud поддерживают растущую корпоративную отрасль LLM
Естественно, инфраструктурные предложения Google Cloud взаимодействуют. Например, A3 Mega поддерживается сетью центров обработки данных Jupiter, которая вскоре увидит свое собственное усовершенствование, ориентированное на рабочую нагрузку ИИ.
Благодаря новому сетевому адаптеру возможности Titanium по разгрузке хоста теперь более эффективно адаптируются к разнообразным требованиям рабочих нагрузок ИИ. Сетевой адаптер Titanium ML использует оборудование NVIDIA ConnectX-7 и 4-канальную шинную сеть Google Cloud для всего центра обработки данных, чтобы обеспечить 3,2 Тбит/с трафика GPU-GPU. Преимущества этой комбинации перетекают в Jupiter, оптическую сетевую фабрику коммутации цепей Google Cloud.
Другим ключевым элементом инфраструктуры ИИ Google Cloud является вычислительная мощность, необходимая для обучения и вывода ИИ. Гиперкомпьютерный кластер объединяет большое количество ускорителей ИИ, который содержит виртуальные машины A3 Ultra. Гиперкомпьютерный кластер можно настроить с помощью вызова API, он использует справочные библиотеки, такие как JAX или PyTorch, и поддерживает открытые модели ИИ, такие как Gemma2 и Llama3, для бенчмаркинга.
Клиенты Google Cloud смогут получить доступ к кластеру Hypercompute с виртуальными машинами A3 Ultra и сетевыми адаптерами Titanium ML в ноябре.
По словам Пичика, эти продукты отвечают запросам корпоративных клиентов на оптимизацию использования графических процессоров и упрощенный доступ к высокопроизводительной инфраструктуре ИИ.
«Hypercompute Cluster предоставляет предприятиям простое в использовании решение, позволяющее использовать возможности гиперкомпьютера ИИ для крупномасштабного обучения и вывода ИИ», — сообщил он по электронной почте.
Google Cloud также готовит стойки для будущих графических процессоров NVIDIA Blackwell GB200 NVL72, которые, как ожидается, поступят на вооружение гиперскейлерами в начале 2025 года. После того, как они станут доступны, эти графические процессоры будут подключаться к серии виртуальных машин на базе процессоров Google Axion, используя собственные процессоры Arm от Google.
Пичика отказался напрямую комментировать, связаны ли сроки выпуска Hypercompute Cluster или Titanium ML с задержками в поставках графических процессоров Blackwell: «Мы рады продолжить нашу совместную работу, чтобы предоставить клиентам лучшее из обеих технологий».
Еще две службы — служба блочного хранения Hyperdisk ML, ориентированная на AI/ML, и параллельная файловая система Parallestore, ориентированная на AI/HPC, — теперь стали общедоступными.
Сервисы Google Cloud доступны во многих регионах мира.
Конкуренты Google Cloud по хостингу ИИ
Google Cloud конкурирует в первую очередь с Amazon Web Services и Microsoft Azure в сфере облачного хостинга больших языковых моделей. Alibaba, IBM, Oracle, VMware и другие предлагают схожие наборы ресурсов больших языковых моделей, хотя и не всегда в том же масштабе.
По данным Statista, в первом квартале 2024 года доля Google Cloud на мировом рынке услуг облачной инфраструктуры составила 10%. Amazon AWS — 34%, а Microsoft Azure — 25%.
Оригинал