Gemini — семейство высокопроизводительных мультимодальных моделей: Приложение

Gemini — семейство высокопроизводительных мультимодальных моделей: Приложение

25 декабря 2023 г.

:::информация Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Команда Gemini, Google.

:::

Таблица ссылок

Аннотация и введение

Архитектура модели

Инфраструктура обучения

Набор обучающих данных

Оценка

Ответственное развертывание

Обсуждение и заключение, ссылки

Вклад и благодарность

Приложение

9. Приложение

9.1. Цепочка размышлений по сравнению с тестом MMLU

Мы сравниваем несколько подходов к MMLU и обсуждаем их результаты в этом разделе. Мы предложили новый подход, в котором модель создает k выборок цепочки мыслей, выбирает большинство голосов, если уверенность модели превышает пороговое значение, и в противном случае подчиняется жадному выбору выборки. Пороги оптимизируются для каждой модели на основе их производительности при разделении проверки. Предлагаемый подход называется цепочкой мыслей, ориентированной на неопределенность. Интуиция, лежащая в основе этого подхода, заключается в том, что выборки цепочки мыслей могут ухудшить производительность по сравнению с решением максимального правдоподобия, когда модель явно несовместима. На рисунке 7 мы сравниваем преимущества предлагаемого подхода как для Gemini Ultra, так и для GPT-4. Мы обнаруживаем, что Gemini Ultra получает больше преимуществ от этого подхода по сравнению с использованием только образцов цепочки мыслей. Производительность GPT-4 улучшается с 84,2% при жадной выборке до 87,3% при использовании цепочки мыслей с неопределенностью и 32 выборками, но он уже достигает этих результатов за счет использования 32 выборок цепочки мыслей. Напротив, Gemini Ultra значительно улучшает свою производительность с 84,0% при жадной выборке до 90,0% при использовании цепочки мыслей с неопределенностью и 32 выборками, а незначительно улучшается до 85,0% при использовании только 32 выборок по цепочке мыслей. .

Figure 7 | Chain-of-Thought with uncertainty routing on MMLU.

9.2. Возможности и задачи сравнительного анализа

Мы используем более 50 тестов в качестве целостного инструмента для оценки моделей Gemini по тексту, изображениям, аудио и видео. Мы предоставляем подробный список задач сравнительного анализа для шести различных способностей понимания и создания текста: фактология, длинный контекст, математика/наука, рассуждение, обобщение и многоязычие. Мы также перечисляем тесты, используемые для задач распознавания изображений, видео и звука.

Фактичность: мы используем 5 тестов: BoolQ (Кларк и др., 2019), NaturalQuestions-Closed (Квятковски и др., 2019), NaturalQuestions-Retrived (Квятковский и др., 2019), RealtimeQA (Kasai et al., 2022), TydiQA-noContext и TydiQA-goldP (Clark et al., 2020).

• Длинный контекст: Мы используем 6 тестов: NarrativeQA (Kočiský et al., 2018), Scrolls-Qasper, Scrolls-Quality (Shaham et al., 2022), XLsum (En), XLSum (не -английский язык) (Hasan et al., 2021) и еще один внутренний тест.

• Математика/естественные науки: мы используем 8 тестов: GSM8k (с CoT) (Cobbe et al., 2021), MATH pass@1 Хендрика (Hendrycks et al., 2021b), MMLU (Hendrycks et al., 2021b). ., 2021a), задачи Math-StackExchange, Math-AMC 2022-2023 и три других внутренних теста.

Обоснование: мы используем 7 тестов: BigBench Hard (с CoT) (Srivastava et al., 2022; Suzgun et al., 2022), CLRS (Veličković et al., 2022), Proof Writer ( Tafjord et al., 2020), Проблемы рассуждения-Ферми (Kalyan et al., 2021), Lambada (Paperno et al., 2016), HellaSwag (Zellers et al., 2019), DROP (Dua et al., 2019) .

Суммирование: мы используем 5 тестов: XL Sum (английский), XL Sum (неанглийские языки) (Hasan et al., 2021), WikiLingua (неанглийские языки), WikiLingua (английский). (Ладхак и др., 2020), XSum (Нараян и др., 2018).

Многоязычность. Мы используем 10 тестов: XLSum (неанглийские языки) (Хасан и др., 2021 г.), WMT22 (Кочми и др., 2022 г.), WMT23 (Том и др., 2023 г.). , FRMT (Riley et al., 2023), WikiLingua (неанглийские языки) (Ladhak et al., 2020), TydiQA (без контекста), TydiQA (GoldP) (Clark et al., 2020), MGSM (Shi et al., 2020), MGSM (Shi et al., 2020). al., 2023), транслированные MMLU (Hendrycks et al., 2021a), NTREX (Federmann et al., 2022), FLORES-200 (Team et al., 2022).

• Изображение и видео. Мы используем 9 тестов для понимания изображений: MMMU (Юэ и др., 2023), TextVQA (Сингх и др., 2019), DocVQA (Мэтью и др., 2021), ChartQA (Масри и др., 2022 г.), InfographicVQA (Мэтью и др., 2022 г.), MathVista (Лу и др., 2023 г.), AI2D (Кембхави и др., 2016 г.), VQAv2 (Гоял и др., 2017 г.), XM3600 (Thapliyal et al., 2022) для понимания многоязычных изображений и 6 тестов для понимания видео: VaTEX (Wang et al., 2019) для субтитров на двух разных языках, YouCook2 (Zhou et al., 2018), NextQA (Сяо и др., 2021), ActivityNet-QA (Ю и др., 2019) и тест на восприятие MCQA (Pătrăucean и др., 2023).

Аудио. Мы используем 5 тестов, включая задачи автоматического распознавания речи (ASR), такие как FLEURS (Conneau et al., 2023), VoxPopuli (Wang et al., 2021), Multi-lingual Librispeech (Pratap). и др., 2020) и задачи автоматического перевода речи, такие как CoVoST 2 (Wang et al., 2020).

9.3. Качественные примеры

В этом разделе приведены примеры качественных показателей, основанные на использовании модели Gemini Ultra. Некоторые наглядные примеры мультимодального рассуждения для задач понимания изображений вместо диаграмм, естественных изображений и мемов показаны на рисунках 8, 9, 11, 13, 14 и 15. На рисунке 10 показан пример возможностей генерации изображений Gemini Ultra, где пользователь генерирует чередующаяся последовательность изображений и текста для оформления сообщения в блоге. Помимо английского, на рисунке 16 показана способность модели понимать изображения в многоязычной среде. Модели Gemini также демонстрируют высокие результаты в понимании и рассуждении мультимодальных изображений в математике, как показано на рисунках 12, 18 и 19. Рисунок 20 представляет собой пример сложного мультимодального рассуждения, демонстрирующий, как модель объединяет возможности понимания сложных изображений, генерации кода и выполнения инструкций. для конкретной пользовательской задачи. На рисунке 17 мы видим еще один пример модели, способной генерировать рабочий код и следовать сложным инструкциям пользователя. Наконец, на рисунке 21 показан пример способности Gemini Ultra понимать видео, анализируя набор кадров, связанных во времени.

9.3.1. Понимание диаграмм и анализ данных

Figure 8 | Solving a problem requiring multimodal chart understanding.The model has to read the text, understand the connections between different data points and reason over them to recommend an interesting point and follow the instructions to generate a markdown table (shown correctly rendered).Source: Our World In Data (Ritchie et al., 2023).

9.3.2. Мультимодальный ответ на вопрос

Figure 9 | Answering a multimodal information-seeking query. The model is able to recognize the specific plant shown in the image and provide information about it. The model shows robustness to typos as it is able to understand the user question despite them. Source: photo taken by an author from the Gemini team.

9.3.3. Генерация чередующихся изображений и текста

Figure 10 | Generating interleaved text and images. The model is able to follow the instructions of generating a blog post with images closely related to the text and with dog images showing high levels of consistency across all images.

9.3.4. Понимание и рассуждение изображений

Figure 11 | Solving a multimodal reasoning problem.The model is able to recognize shapes in the image, understand their properties and reason about the relationship between them to predict the next object.Source: photo taken by an author from the Gemini team.

9.3.5. Геометрические рассуждения

Figure 12 | Solving a geometrical reasoning task. The model shows good understanding of the task and is able to provide meaningful reasoning steps despite slightly unclear instructions. Source: Lu et al. (2021).

9.3.6. Поиск информации об объектах

Figure 13 | Solving a puzzle using multimodal inputs. The model recognizes the objects in the images and identifies a commonality that connects the two objects. Source: photo taken by an author from the Gemini team.

9.3.7. Мультимодальное мышление, основанное на визуальных подсказках

Figure 14 | Identifying the objects in the image (the Empire State Building) and recognizing what those are even with small levels of visual distortion in the image. Based on the image, the model is also able to correctly identify the precise location of the person taking the photo.Source: photo taken by an author from the Gemini team.

9.3.8. Мультимодальное понимание юмора

Figure 15 | Explanation of humor in a meme. The model is showing the ability to not only describe what is happening in the image but also what it means even though the cultural context is not mentioned explicitly in the image or the prompt.Source: Hwang and Shwartz (2023).

9.4. Здравый смысл в многоязычной среде

Figure 16 | Common-sense reasoning in images. The model is able to understand the relationships represented in the graphs and reason about them in a multilingual setting.Source: image created by an author from the Gemini team.

9.4.1. Рассуждения и генерация кода

Figure 17 | Writing code for a website based on user request. The model follows the instructions and requirements defined by the user and converts them to functioning code.

9.4.2. Математика: исчисление

Figure 18 | Solving a calculus problem. The model is able to get a solution to a calculus problem with step-by-step explanation and correctly defined LaTeX equations. Source: question is provided by Macmillan Learning.

9.5. Многоэтапное рассуждение и математика

Figure 19 | Solving a multi-step math problem. The model is able to understand the task and generate a markdown table with correctly calculated values. It also explicitly follows the instructions to show where the numbers come from and answer the question given in the task.Source: Oktatási Hivatal (2023, p. 20)

9.5.1. Сложное понимание изображений, генерация кода и выполнение инструкций

Figure 20 | Multimodal reasoning capabilities applied to code generation. Gemini Ultra needs to perform inverse graphics task to infer the code that would have generated the plots, perform additional mathematical transformations, and generate relevant code.Source: figure generated by an author from the Gemini team.

9.5.2. Видео понимание и рассуждение

Figure 21 | Video understanding and reasoning over the situation presented in the video. Here, we provide a video as input to the model together with a text prompt (images are provided here only for visualization purposes). The model is able to analyze what happened in the video and provide recommendations on how the actions in the video could have been better. Video source: "Football/Soccer Penalty Miss"https://www.youtube.com/watch?v=VmWxjmJ3mvs


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE