Модели Gemini созданы на основе декодеров Transformer (Vaswani et al., 2017), которые усовершенствованы за счет улучшений архитектуры и модели. оптимизация для обеспечения стабильного масштабного обучения и оптимизированного вывода на тензорных процессорах Google. Их обучают поддерживать длину контекста 32 тыс., используя эффективные механизмы внимания (например, для внимания с несколькими запросами (Shazeer, 2019)). Наша первая версия, Gemini 1.0, включает три основных размера для поддержки широкого спектра приложений, как описано в Таблице 1.

Table 1 | An overview of the Gemini 1.0 model family.

Модели Gemini обучены обрабатывать текстовый ввод, чередующийся с широким спектром аудио- и визуальных входных данных, таких как естественные изображения, диаграммы, снимки экрана, PDF-файлы и видео, и они могут создавать выходные данные в виде текста и изображений (см. рис. 2). Визуальное кодирование моделей Близнецов вдохновлено нашей собственной основополагающей работой по Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a) и PaLI (Chen et al., 2022), с тем важным отличием, что модели с самого начала являются мультимодальными и могут выводить изображения с использованием дискретных токенов изображений (Ramesh et al., 2021; Yu et al., 2022b).

Понимание видео достигается путем кодирования видео как последовательности кадров в большом контекстном окне. Видеокадры или изображения могут естественным образом чередоваться с текстом или звуком как часть входных данных модели. Модели могут обрабатывать переменное входное разрешение, чтобы тратить больше вычислений на задачи, требующие детального понимания. Кроме того, Gemini может напрямую принимать аудиосигналы частотой 16 кГц с помощью функций универсальной модели речи (USM) (Чжан и др., 2023). Это позволяет модели улавливать нюансы, которые обычно теряются, когда звук просто сопоставляется с текстовым вводом (например, см. демонстрацию понимания звука на веб-сайте).

Figure 2 | Gemini supports interleaved sequences of text, image, audio, and video as inputs (illustrated by tokens of different colors in the input sequence). It can output responses with interleaved image and text.

Обучение семейства моделей Gemini потребовало инноваций в алгоритмах обучения, наборе данных и инфраструктуре. Что касается модели Pro, присущая нашей инфраструктуре и алгоритмам обучения масштабируемость позволяет нам завершить предварительное обучение за считанные недели, используя лишь часть ресурсов Ultra. Серия моделей Nano использует дополнительные достижения в алгоритмах фильтрации и обучения для создания лучших в своем классе моделей малого языка для широкого круга задач, таких как обобщение и понимание прочитанного, которые обеспечивают работу нашего следующего поколения на устройствах.

Оригинал

Близнецы — семья очень способных людей Мультимодальные модели: архитектура модели

Таблица ссылок

2. Модель архитектуры

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories