Gemini — семейство высокофункциональных мультимодальных моделей: набор обучающих данных
25 декабря 2023 г.:::информация Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Команда Gemini, Google.
:::
Таблица ссылок
Обсуждение и заключение, ссылки
4. Набор обучающих данных
Модели Gemini обучаются на мультимодальном и многоязычном наборе данных. Наш набор данных для предварительного обучения использует данные из веб-документов, книг и кода, а также включает данные изображений, аудио и видео.
Мы используем токенизатор SentencePiece (Кудо и Ричардсон, 2018) и обнаруживаем, что обучение токенизатора на большой выборке всего обучающего корпуса улучшает выведенный словарный запас и впоследствии повышает производительность модели. Например, мы обнаружили, что модели Gemini могут эффективно токенизировать нелатинские сценарии, что, в свою очередь, может повысить качество модели, а также скорость обучения и вывода.
Количество токенов, используемых для обучения самых крупных моделей, было определено в соответствии с подходом Хоффмана и др. (2022). Меньшие модели обучаются на значительно большем количестве токенов для повышения производительности при заданном бюджете вывода, аналогично подходу, предложенному Тувроном и др. (2023a).
Мы применяем фильтры качества ко всем наборам данных, используя как эвристические правила, так и классификаторы на основе моделей. Мы также выполняем безопасную фильтрацию для удаления вредоносного контента. Мы фильтруем наши наборы оценок из нашего обучающего корпуса. Окончательные смеси данных и веса были определены путем абляции на моделях меньшего размера. Мы проводим обучение, чтобы изменить состав смеси во время обучения — увеличивая вес релевантных для предметной области данных к концу обучения. Мы считаем, что качество данных имеет решающее значение для высокопроизводительной модели, и полагаем, что остается много интересных вопросов, связанных с поиском оптимального распределения набора данных для предварительного обучения.
Оригинал