Gemini — семейство высокофункциональных мультимодальных моделей: набор обучающих данных

Gemini — семейство высокофункциональных мультимодальных моделей: набор обучающих данных

25 декабря 2023 г.

:::информация Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Команда Gemini, Google.

:::

Таблица ссылок

Аннотация и введение

Архитектура модели

Инфраструктура обучения

Набор обучающих данных

Оценка

Ответственное развертывание

Обсуждение и заключение, ссылки

Вклад и благодарность

Приложение

4. Набор обучающих данных

Модели Gemini обучаются на мультимодальном и многоязычном наборе данных. Наш набор данных для предварительного обучения использует данные из веб-документов, книг и кода, а также включает данные изображений, аудио и видео.

Мы используем токенизатор SentencePiece (Кудо и Ричардсон, 2018) и обнаруживаем, что обучение токенизатора на большой выборке всего обучающего корпуса улучшает выведенный словарный запас и впоследствии повышает производительность модели. Например, мы обнаружили, что модели Gemini могут эффективно токенизировать нелатинские сценарии, что, в свою очередь, может повысить качество модели, а также скорость обучения и вывода.

Количество токенов, используемых для обучения самых крупных моделей, было определено в соответствии с подходом Хоффмана и др. (2022). Меньшие модели обучаются на значительно большем количестве токенов для повышения производительности при заданном бюджете вывода, аналогично подходу, предложенному Тувроном и др. (2023a).

Мы применяем фильтры качества ко всем наборам данных, используя как эвристические правила, так и классификаторы на основе моделей. Мы также выполняем безопасную фильтрацию для удаления вредоносного контента. Мы фильтруем наши наборы оценок из нашего обучающего корпуса. Окончательные смеси данных и веса были определены путем абляции на моделях меньшего размера. Мы проводим обучение, чтобы изменить состав смеси во время обучения — увеличивая вес релевантных для предметной области данных к концу обучения. Мы считаем, что качество данных имеет решающее значение для высокопроизводительной модели, и полагаем, что остается много интересных вопросов, связанных с поиском оптимального распределения набора данных для предварительного обучения.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE