Близнецы — семья очень способных людей
Мультимодальные модели: архитектура модели

Близнецы — семья очень способных людей Мультимодальные модели: архитектура модели

25 декабря 2023 г.

:::информация Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Команда Gemini, Google.

:::

Таблица ссылок

Аннотация и введение

Архитектура модели

Инфраструктура обучения

Набор обучающих данных

Оценка

Ответственное развертывание

Обсуждение и заключение, ссылки

Вклад и благодарность

Приложение

2. Модель архитектуры

Модели Gemini созданы на основе декодеров Transformer (Vaswani et al., 2017), которые усовершенствованы за счет улучшений архитектуры и модели. оптимизация для обеспечения стабильного масштабного обучения и оптимизированного вывода на тензорных процессорах Google. Их обучают поддерживать длину контекста 32 тыс., используя эффективные механизмы внимания (например, для внимания с несколькими запросами (Shazeer, 2019)). Наша первая версия, Gemini 1.0, включает три основных размера для поддержки широкого спектра приложений, как описано в Таблице 1.

Table 1 | An overview of the Gemini 1.0 model family.

Модели Gemini обучены обрабатывать текстовый ввод, чередующийся с широким спектром аудио- и визуальных входных данных, таких как естественные изображения, диаграммы, снимки экрана, PDF-файлы и видео, и они могут создавать выходные данные в виде текста и изображений (см. рис. 2). Визуальное кодирование моделей Близнецов вдохновлено нашей собственной основополагающей работой по Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a) и PaLI (Chen et al., 2022), с тем важным отличием, что модели с самого начала являются мультимодальными и могут выводить изображения с использованием дискретных токенов изображений (Ramesh et al., 2021; Yu et al., 2022b).

Понимание видео достигается путем кодирования видео как последовательности кадров в большом контекстном окне. Видеокадры или изображения могут естественным образом чередоваться с текстом или звуком как часть входных данных модели. Модели могут обрабатывать переменное входное разрешение, чтобы тратить больше вычислений на задачи, требующие детального понимания. Кроме того, Gemini может напрямую принимать аудиосигналы частотой 16 кГц с помощью функций универсальной модели речи (USM) (Чжан и др., 2023). Это позволяет модели улавливать нюансы, которые обычно теряются, когда звук просто сопоставляется с текстовым вводом (например, см. демонстрацию понимания звука на веб-сайте).

Figure 2 | Gemini supports interleaved sequences of text, image, audio, and video as inputs (illustrated by tokens of different colors in the input sequence). It can output responses with interleaved image and text.

Обучение семейства моделей Gemini потребовало инноваций в алгоритмах обучения, наборе данных и инфраструктуре. Что касается модели Pro, присущая нашей инфраструктуре и алгоритмам обучения масштабируемость позволяет нам завершить предварительное обучение за считанные недели, используя лишь часть ресурсов Ultra. Серия моделей Nano использует дополнительные достижения в алгоритмах фильтрации и обучения для создания лучших в своем классе моделей малого языка для широкого круга задач, таких как обобщение и понимание прочитанного, которые обеспечивают работу нашего следующего поколения на устройствах.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE