Gemini - семейство высокопроизводительных мультимодальных моделей: обсуждение и заключение, ссылки

25 декабря 2023 г.

:::информация Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Команда Gemini, Google.

:::

Таблица ссылок

Аннотация и введение

Архитектура модели

Инфраструктура обучения

Набор обучающих данных

Оценка

Ответственное развертывание

Обсуждение и заключение, ссылки

Вклад и благодарность

Приложение

7. Обсуждение и заключение

Мы представили Gemini, новое семейство моделей, расширяющих возможности мультимодальных моделей в тексте, коде, изображениях, аудио и видео. В этом техническом отчете оцениваются возможности Gemini в различных широко изученных тестах, а наша самая мощная модель Gemini Ultra демонстрирует значительные успехи по всем направлениям. В области естественного языка повышение производительности за счет тщательного развития данных и масштабного обучения моделей продолжает обеспечивать улучшение качества, устанавливая новый уровень развития в нескольких тестах. В частности, Gemini Ultra превосходит результаты экспертов-человеков по экзаменационному тесту MMLU, набрав 90,0%, что де-факто является показателем прогресса для программ LLM с момента его первого выпуска в 2020 году. В мультимодальной области Gemini Ultra устанавливает новый уровень искусство на большинстве тестов понимания изображения, понимания видео и понимания звука без модификаций или настройки для конкретных задач. В частности, возможности мультимодального рассуждения Gemini Ultra очевидны из его самых современных показателей в недавнем тесте MMMU (Yue et al., 2023), который включает вопросы об изображениях, требующие предметных знаний на уровне колледжа и целенаправленного рассуждения.< /п>

Помимо современных результатов тестов, нас больше всего интересуют новые варианты использования моделей Gemini. Новые возможности моделей Gemini анализировать сложные изображения, такие как диаграммы или инфографика, анализировать чередующиеся последовательности изображений, аудио и текста, а также генерировать чередующийся текст и изображения в качестве ответов, открывают широкий спектр новых приложений. Как показано на рисунках в отчете и приложении, Gemini может реализовать новые подходы в таких областях, как образование, решение повседневных проблем, многоязычное общение, обобщение информации, извлечение и творчество. Мы ожидаем, что пользователи этих моделей найдут множество новых полезных применений, о которых мы лишь поверхностно узнали в наших собственных исследованиях.

Несмотря на их впечатляющие возможности, следует отметить, что существуют ограничения на использование LLM. Существует постоянная потребность в постоянных исследованиях и разработках «галлюцинаций», порождаемых LLM, чтобы гарантировать, что результаты моделей будут более надежными и проверяемыми. Магистрам права также трудно справиться с задачами, требующими способностей к рассуждению высокого уровня, таких как причинно-следственное понимание, логический вывод и контрфактическое рассуждение, даже несмотря на то, что они достигают впечатляющих результатов на экзаменах. Это подчеркивает необходимость более сложных и надежных оценок для измерения их истинного понимания, поскольку нынешние современные программы LLM насыщают многие тесты.

Gemini — это еще один шаг на пути к нашей миссии по решению задач в области интеллекта, развитию науки и приношению пользы человечеству, и мы с энтузиазмом наблюдаем за тем, как эти модели используются нашими коллегами в Google и за его пределами. Мы опираемся на множество инноваций в области машинного обучения, данных, инфраструктуры и ответственного развития — областей, которыми мы занимаемся в Google уже более десяти лет. Модели, которые мы представляем в этом отчете, обеспечивают прочную основу для достижения нашей более широкой будущей цели по разработке крупномасштабной модульной системы, которая будет иметь широкие возможности обобщения во многих модальностях.

Ссылки

Жан-Батист Алайрак, Джефф Донахью, Полин Люк, Антуан Мич, Иэн Барр, Яна Хэссон, Карел Ленк, Артур Менш, Кэти Милликан, Малкольм Рейнольдс, Роман Ринг, Элиза Резерфорд, Серкан Каби, Тенгда Хан, Житао Гонг, Сина Самангуи, Марианна Монтейру, Джейкоб Меник, Себастьян Боржо, Эндрю Брок, Аида Нематзаде, Саханд Шарифзаде, Миколай Бинковски, Рикардо Баррейра, Ориол Виньялс, Эндрю Зиссерман и Карен Симонян. Flamingo: модель визуального языка для кратковременного обучения. Достижения в области нейронных систем обработки информации, 35: 23716–23736, 2022.

Рохан Анил, Эндрю М. Дай, Орхан Фират, Мелвин Джонсон, Дмитрий Лепихин, Александр Пассос, Сиамак Шакери, Эмануэль Таропа, Пейдж Бэйли, Чжифэн Чен, Эрик Чу, Джонатан Х. Кларк, Лоран Эль Шафи, Янпин Хуанг, Кэти Мейер- Хеллстерн, Гаурав Мишра, Эрика Морейра, Марк Омерник, Кевин Робинсон, Себастьян Рудер, И Тай, Кефан Сяо, Юаньчжун Сюй, Юцзин Чжан, Густаво Эрнандес Абрего, Джунван Ан, Джейкоб Остин, Пол Бархэм, Ян Бота, Джеймс Брэдбери, Сиддхартха Брахма Кевин Брукс, Мишель Катаста, Йонг Ченг, Колин Черри, Кристофер А. Чокетт-Чу, Ааканша Чоудери, Клемент Крепи, Шачи Дэйв, Мостафа Дегани, Сунипа Дев, Джейкоб Девлин, Марк Диас, Нан Ду, Итан Дайер, Влад Фейнберг, Фангсяоюй Фэн, Влад Файнбер, Маркус Фрайтаг, Ксавьер Гарсия, Себастьян Германн, Лукас Гонсалес, Гай Гур-Ари, Стивен Хэнд, Хади Хашеми, Ле Хоу, Джошуа Хоулэнд, Андреа Ху, Джеффри Хуэй, Джереми Гурвиц, Майкл Айсард, Эйб Иттихерия, Мэтью Ягельски, Вэньхао Цзя, Кэтлин Кенили, Максим Крикун, Снеха Кудугунта, Чанг Лан, Кэтрин Ли, Бенджамин Ли, Эрик Ли, Мьюзик Ли, Вэй Ли, ЯГуанг Ли, Цзянь Ли, Хёнтэк Лим, Ханчжао Линь, Чжунтао Лю, Фредерик Лю Марчелло Маджиони, Арома Махендру, Джошуа Майнес, Ведант Мисра, Майсам Мусалем, Закари Надо, Джон Нэм, Эрик Ни, Эндрю Нистром, Алисия Пэрриш, Мари Пелла, Мартин Полачек, Алекс Полозов, Райнер Поуп, Сиюань Цяо, Эмили Рейф, Брайан Рихтер, Паркер Райли, Алекс Кастро Рос, Аурко Рой, Бреннан Саэта, Раджкумар Сэмюэл, Рене Шелби, Эмброуз Слоун, Дэниел Смилков, Дэвид Р. Со, Дэниэл Сон, Саймон Токумине, Даша Вальтер, Виджай Васудеван, Киран Водрахалли, Сюэчжи Ван, Пидун Ван, Зируй Ван, Тао Ван, Джон Витинг, Юхуай Ву, Кельвин Сюй, Юньхан Сюй, Линтин Сюэ, Пэнчэн Инь, Цзяхуэй Ю, Цяо Чжан, Стивен Чжэн, Це Чжэн, Вэйкан Чжоу, Дэнни Чжоу, Слав Петров и Юнхуэй Ву. Технический отчет PaLM 2, 2023 г.

Антропный. Карточка модели и оценки Claude Models, 2023 г.

Юнтао Бай, Энди Джонс, Камаль Ндусс, Аманда Аскелл, Анна Чен, Нова ДасСарма, Дон Дрейн, Станислав Форт, Дип Гангули, Том Хениган, Николас Джозеф, Саурав Кадават, Джексон Кернион, Том Конерли, Шир Эль-Шоук, Нельсон Эльхаге, Зак Хэтфилд-Доддс, Дэнни Эрнандес, Тристан Хьюм, Скотт Джонстон, Шона Кравек, Лиана Ловитт, Нил Нанда, Кэтрин Олссон, Дарио Амодей, Том Браун, Джек Кларк, Сэм МакКэндлиш, Крис Ола, Бен Манн и Джаред Каплан. Обучение полезного и безобидного помощника с подкреплением обучения на основе отзывов людей. апрель 2022а. URL https://arxiv.org/abs/2204.05862.

Юнтао Бай, Саурав Кадават, Сандипан Кунду, Аманда Аскелл, Джексон Кернион, Энди Джонс, Анна Чен, Анна Голди, Азалия Мирхосейни, Кэмерон Маккиннон, Кэрол Чен, Кэтрин Олссон, Кристофер Ола, Дэнни Эрнандес, Дон Дрейн, Дип Гангули, Дастин Ли Илай Тран-Джонсон, Итан Перес, Джейми Керр, Джаред Мюллер, Джеффри Лэдиш, Джошуа Ландау, Камаль Ндусс, Камиль Лукосьют, Лиана Ловитт, Майкл Селитто, Нельсон Эльхадж, Николас Шифер, Ноэми Меркадо, Нова ДасСарма, Роберт Ласенби, Робин Ларсон Сэм Рингер, Скотт Джонстон, Шона Кравек, Шир Эль Шоук, Станислав Форт, Тамера Лэнэм, Тимоти Теллин-Лоутон, Том Конерли, Том Хениган, Тристан Хьюм, Сэмюэл Р. Боуман, Зак Хэтфилд-Доддс, Бен Манн, Дарио Амодей, Николас Джозеф, Сэм МакКэндлиш, Том Браун и Джаред Каплан. Конституционный ИИ: безвредность благодаря обратной связи ИИ. Препринт arXiv arXiv:2212.08073, 2022b.

Пол Бархэм, Ааканша Чоудери, Джефф Дин, Санджай Гемават, Стивен Хэнд, Дэн Хёрт, Майкл Айсард, Хёнтэк Лим, Руоминг Панг, Судип Рой, Бреннан Сэта, Паркер Шу, Райан Сепасси, Лоран Эль Шафи, Чандрамохан А. Теккат и Йонгхуэй Ву. Пути: асинхронный распределенный поток данных для машинного обучения. Proceedings of Machine Learning and Systems, 4:430–449, 2022.

Джеймс Брэдбери, Рой Фростиг, Питер Хокинс, Мэттью Джеймс Джонсон, Крис Лири, Дугал Маклорен, Джордж Некула, Адам Пашке, Джейк ВандерПлас, Скай Вандерман-Милн и Цяо Чжан. JAX: составные преобразования программ Python+NumPy, 2018. URL http://github.com/google/jax.

Том Браун, Бенджамин Манн, Ник Райдер, Мелани Суббия, Джаред Ди Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл, Сандхини Агарвал, Ариэль Герберт Восс, Гретхен Крюгер, Том Хениган, Ревон Чайлд, Адитья Рамеш, Дэниел Зиглер, Джеффри Ву, Клеменс Винтер, Крис Хессе, Марк Чен, Эрик Сиглер, Матеуш Литвин, Скотт Грей, Бенджамин Чесс, Джек Кларк, Кристофер Бернер, Сэм МакКэндлиш, Алек Рэдфорд, Илья Суцкевер и Дарио Амодей. Языковые модели учатся с небольшим количеством попыток. У Х. Ларошелла, М. Ранзато, Р. Хэдселла, М.Ф. Балкан и Х. Лин, редакторы, «Достижения в области нейронных систем обработки информации», том 33, страницы 1877–1901. Curran Associates, Inc., 2020. URL https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.

Марк Чен, Джерри Творек, Хиву Цзюнь, Цимин Юань, Энрике Понде де Оливейра Пинто, Джаред Каплан, Харри Эдвардс, Юрий Бурда, Николас Джозеф, Грег Брокман, Алекс Рэй, Рауль Пури, Гретхен Крюгер, Майкл Петров, Хейди Клааф, Гириш Састри Памела Мишкин, Брук Чан, Скотт Грэй, Ник Райдер, Михаил Павлов, Алетия Пауэр, Лукаш Кайзер, Мохаммад Баварян, Клеменс Винтер, Филипп Тийе, Фелипе Петроски Сач, Дэйв Каммингс, Матиас Плапперт, Фотиос Шанцис, Элизабет Барнс, Ариэль Герберт- Восс, Уильям Хебген Гасс, Алекс Никол, Алекс Пайно, Николас Тезак, Цзе Тан, Игорь Бабушкин, Сушир Баладжи, Шантану Джайн, Уильям Сондерс, Кристофер Хессе, Эндрю Н. Карр, Ян Лейке, Джош Ачиам, Ведант Мисра, Эван Морикава, Алек Рэдфорд, Мэттью Найт, Майлз Брандейдж, Мира Мурати, Кэти Майер, Питер Велиндер, Боб МакГрю, Дарио Амодей, Сэм МакКэндлиш, Илья Суцкевер и Войцех Заремба. Оценка больших языковых моделей, обученных на коде. Препринт arXiv arXiv:2107.03374, 2021. URL https://arxiv.org/abs/2107.03374.

Си Чен, Сяо Ван, Соравит Чанпиньо, Эй Джей Пьерджованни, Петр Падлевски, Дэниэл Зальц, Себастьян Гудман, Адам Грикнер, Бэзил Мустафа, Лукас Бейер, Александр Колесников, Джоан Пучсервер, Нан Дин, Керан Ронг, Хасан Акбари, Гаурав Мишра, Линтинг Сюэ , Ашиш Таплиял, Джеймс Брэдбери, Вейченг Куо, Моджтаба Сейедхоссейни, Чао Цзя, Бурку Карагол Аян, Карлос Рикельме, Андреас Штайнер, Анелия Ангелова, Сяохуа Чжай, Нил Хоулсби и Раду Сорикут. PaLI: Совместно масштабируемая многоязычная модель языкового образа. Препринт arXiv arXiv:2209.06794, 2022. URL https://arxiv.org/abs/2209.06794.

Си Чен, Йосип Джолонга, Петр Падлевски, Бэзил Мустафа, Соравит Чангпиньо, Цзялин Ву, Карлос Рикельме Руис, Себастьян Гудман, Сяо Ван, Йи Тай, Сиамак Шакери, Мостафа Дегани, Даниэль Зальц, Марио Лучич, Михаэль Чаннен, Арша Награни, Хесян Ху, Мандар Джоши, Бо Панг, Сесли Монтгомери, Паулина Петшик, Марвин Риттер, Эй Джей Пьерджованни, Маттиас Миндерер, Филип Павелич, Остин Уотерс, Ганг Ли, Ибрагим Алабдулмохсин, Лукас Бейер, Жюльен Амело, Кентон Ли, Андреас Петер Штайнер, Ян Ли Дэниел Кейзерс, Анураг Арнаб, Юаньчжун Сюй, Керан Ронг, Александр Колесников, Мойтаба Сейедхоссейни, Анелия Ангелова, Сяохуа Чжай, Нил Хоулсби и Раду Сорикут. PaLI-X: О расширении многоязычного видения и языковой модели. Препринт arXiv arXiv:2305.18565, 2023.

Ааканша Чоудхери, Шаран Наранг, Джейкоб Девлин, Маартен Босма, Гаурав Мишра, Адам Робертс, Пол Барэм, Хён Вон Чунг, Чарльз Саттон, Себастьян Германн, Паркер Шу, Кенсен Ши, Саша Цвященко, Джошуа Майнес, Абхишек Рао, Паркер Барнс, Йи Тай, Ноам Шазир, Винодкумар Прабхакаран, Эмили Рейф, Нан Ду, Бен Хатчинсон, Райнер Поуп, Джеймс Брэдбери, Джейкоб Остин, Майкл Айсард, Гай Гур-Ари, Пэнченг Инь, Тоджу Дьюк, Ансельм Левская, Санджай Гемават, Сунипа Дев, Хенрик Михалевски, Ксавьер Гарсия, Ведант Мисра, Кевин Робинсон, Лиам Федус, Денни Чжоу, Дафна Ипполито, Дэвид Луан, Хёнтэк Лим, Баррет Зоф, Александр Спиридонов, Райан Сепасси, Дэвид Дохан, Шивани Агравал, Марк Омерник, Эндрю М. Дай, Танумалайан Шанкаранарайана Пиллай, Мари Пелла, Айтор Левкович, Эрика Морейра, Ревон Чайлд, Александр Полозов, Кэтрин Ли, Зонгвэй Чжоу, Сюэчжи Ван, Бреннан Сэта, Марк Диас, Орхан Фират, Мишель Катаста, Джейсон Вэй, Кэти Мейер-Хеллстерн, Дуглас Эк, Джефф Дин, Слав Петров и Ной Фидель. PaLM: масштабирование языкового моделирования с помощью путей. Журнал исследований машинного обучения, 24(240): 1–113, 2023. URL http://jmlr.org/papers/v24/22-1144.html.

Кристофер Кларк, Кентон Ли, Минг-Вэй Чанг, Том Квятковски, Майкл Коллинз и Кристина Тутанова. BoolQ: Исследование удивительной сложности естественных вопросов типа «да/нет». В материалах конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи), страницы 2924–2936, 2019. URL https://aclanthology.org/N19-1300. .

Джон Кларк, Юнсол Чой, Майкл Коллинз, Дэн Гарретт, Том Квятковски, Виталий Николаев и Дженнимария Паломаки. TydiQA: Эталон для поиска информации и ответов на вопросы на типологически разнообразных языках. Труды Ассоциации компьютерной лингвистики, 2020 г. URL https://storage.googleapis.com/tydiqa/tydiqa.pdf.

Карл Коббе, Винит Косараджу, Мохаммад Баварян, Джейкоб Хилтон, Рейитиро Накано, Кристофер Гессе и Джон Шульман. Обучение проверяющих решению математических словесных задач. Препринт arXiv arXiv:2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.

Алексис Конно, Мин Ма, Симран Хануджа, Ю Чжан, Вера Аксельрод, Сиддхарт Далмиа, Джейсон Риза, Клара Ривера и Анкур Бапна. Флер: Оценка обучаемости универсальных репрезентаций речи за несколько кадров. В 2022 году семинар IEEE по технологиям разговорной речи (SLT), страницы 798–805. IEEE, 2023 г.

Джеффри Дин, Грег Коррадо, Раджат Монга, Кай Чен, Матье Девин, Марк Мао, Маркаурелио Ранзато, Эндрю Сеньор, Пол Такер, Ке Ян и др. Крупномасштабные распределенные глубокие сети. Достижения в области нейронных систем обработки информации, 25, 2012.

Хариш Даттатрая Дикшит, Снеха Пендхаркар, Мэтт Бидон, Крис Мейсон, Теджасви Чакраварти, Бхарат Мутиа и Шрирам Санкар. Масштабное скрытое повреждение данных. Препринт arXiv arXiv:2102.11245, 2021.

Алексей Досовицкий, Лукас Байер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Матиас Миндерер, Георг Хейгольд, Сильвен Гелли, Якоб Ушкорейт и Нил Хоулсби. Изображение стоит 16х16 слов: Трансформаторы для распознавания изображений в масштабе. В ICLR, 2020 г.

Диру Дуа, Ичжонг Ван, Прадип Дасиги, Габриэль Становский, Самир Сингх и Мэтт Гарднер. DROP: тест на понимание прочитанного, требующий дискретного рассуждения по абзацам. В материалах конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи), страницы 2368–2378, 2019. URL https://aclanthology.org/N19-1246. .

Кристиан Федерманн, Том Кочми и Ин Синь. NTREX-128 – новостные тестовые ссылки для оценки MT на 128 языках. В материалах первого семинара по расширению многоязычной оценки, страницы 21–24, онлайн, ноябрь 2022 г. Ассоциация компьютерной лингвистики. URL https://aclanthology.org/2022.sumeval-1.4.

Google. Принципы искусственного интеллекта Google. 2023. URL https://ai.google/responsibility/principles/.

Яш Гоял, Теджас Хот, Дуглас Саммерс-Стей, Дхрув Батра и Деви Парих. Сделать букву V в VQA значимой: повысить роль понимания изображений при визуальном ответе на вопрос. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 6904–6913, 2017 г.

Тахмид Хасан, Абхик Бхаттачарджи, доктор Сайфул Ислам, Кази Мубашир, Юань-Фанг Ли, Ён-Бин Канг, М. Сохель Рахман и Рифат Шахрияр. XL-sum: крупномасштабное многоязычное абстрактное обобщение для 44 языков. В выводах Ассоциации компьютерной лингвистики: ACL-IJCNLP 2021, страницы 4693–4703, онлайн, август 2021 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2021.findings-acl.413. URL https://aclanthology.org/2021.findings-acl.413.

Дэн Хендрикс, Коллин Бернс, Стивен Басарт, Энди Зу, Мантас Мажейка, Дон Сонг и Джейкоб Стейнхардт. Измерение понимания языка в условиях многозадачности. Материалы Международной конференции по обучению представлениям (ICLR), 2021a.

Дэн Хендрикс, Коллин Бернс, Саурав Кадават, Акул Арора, Стивен Басарт, Эрик Танг, Дон Сонг и Джейкоб Стейнхардт. Измерение решения математических задач с помощью набора данных MATH. Препринт arXiv arXiv:2103.03874, 2021b. URL https://arxiv.org/abs/2103.03874.

Питер Х. Хохшильд, Пол Тернер, Джеффри С. Могул, Рама Говиндараджу, Партасарати Ранганатан, Дэвид Э. Каллер и Амин Вахдат. Ядра, которые не в счет. В материалах семинара по актуальным темам операционных систем, страницы 9–16, 2021 г.

Джордан Хоффманн, Себастьян Боржо, Артур Менш, Елена Бучацкая, Тревор Кай, Элиза Резерфорд, Диего де Лас Касас, Лиза Энн Хендрикс, Йоханнес Уэлбл, Эйдан Кларк, Том Хенниган, Эрик Ноланд, Кэти Милликан, Джордж ван ден Дрише, Богдан Дамок, Аурелия Гай, Саймон Осиндеро, Карен Симоньян, Эрих Элсен, Джек В. Рэй, Ориол Виньялс и Лоран Сифре. Обучение вычислительно-оптимальных моделей большого языка. Препринт arXiv arXiv:2203.15556, 2022.

Shengding Hu, Yifan Luo, Huadong Wang, Xingyi Cheng, Zhiyuan Liu, and Maosong Sun. Won’t get fooled again: Answering questions with false premises. arXiv preprint arXiv:2307.02394, 2023.

ЫнДжон Хван и Веред Шварц. Memecap: набор данных для субтитров и интерпретации мемов, 2023 г.

Норман П. Джуппи, Джордж Куриан, Шэн Ли, Питер Ма, Рахул Нагараджан, Лифенг Най, Нишант Патил, Сувинай Субраманиан, Энди Свинг, Брайан Таулз, Клифф Янг, Сян Чжоу, Цзунвэй Чжоу и Дэвид А. Паттерсон. Tpu v4: оптически реконфигурируемый суперкомпьютер для машинного обучения с аппаратной поддержкой встраивания. В материалах 50-го ежегодного международного симпозиума по компьютерной архитектуре, страницы 1–14, 2023 г.

Ашвин Кальян, Абхинав Кумар, Арджун Чандрасекаран, Ашиш Сабхарвал и Питер Кларк. Сколько кофе было выпито во время EMNLP 2019? Проблемы Ферми: новая задача для ИИ, 2021 г.

Юнго Касаи, Кейсуке Сакагути, Йоичи Такахаши, Ронан Ле Бра, Акари Асаи, Синьян Ю, Драгомир Радев, Ноа А. Смит, Еджин Чой и Кентаро Инуи. Контроль качества в реальном времени: какой ответ прямо сейчас?, 2022. URL https://arxiv.org/abs/2207.13332.

К. Кавукчуоглу, П. Кохли, Л. Ибрагим, Д. Блоксвич и С. Браун. Как наши принципы помогли определить выпуск AlphaFold. Google DeepMind, 2022 г.

Анируддха Кембхави, Майк Сальвато, Эрик Колве, Минджун Со, Ханнане Хаджиширзи и Али Фархади. Диаграмма стоит дюжины изображений. В ECCV, 2016 г.

Томаш Кочиски, Джонатан Шварц, Фил Блансом, Крис Дайер, Карл Мориц Херманн, Габор Мелис и Эдвард Грефенштетт. Задача NarrativeQA на понимание прочитанного. Труды Ассоциации компьютерной лингвистики, 6: 317–328, 2018. doi: 10.1162/tacl_a_00023. URL https://aclanthology.org/Q18-1023.

Том Кочми, Рэйчел Боуден, Ондржей Бояр, Антон Дворкович, Кристиан Федерманн, Марк Фишел, Тамме Гауда, Иветт Грэм, Роман Грундкевич, Бэрри Хэддоу, Ребекка Ноулз, Филипп Кен, Кристоф Монц, Макото Моришита, Масааки Нагата, Тошиаки Наказава, Михал Новак , Мартин Попель и Майя Попович. Результаты конференции по машинному переводу 2022 года (WMT22). В материалах седьмой конференции по машинному переводу (WMT), декабрь 2022 г. URL https://aclanthology.org/2022.wmt-1.1.

Такеши Кодзима, Шисян Шейн Гу, Машел Рид, Ютака Мацуо и Юсуке Ивасава. Большие языковые модели — это бесполезные рассуждения. Достижения в области нейронных систем обработки информации, 35: 22199–22213, 2022.

Таку Кудо и Джон Ричардсон. SentencePiece: простой и независимый от языка токенизатор и детокенизатор подслов для нейронной обработки текста. EMNLP (Демонстрация системы), 2018. doi: 10.18653/v1/D18-2012. URL https://aclanthology.org/D18-2012.

Том Квятковски, Дженнимария Паломаки, Оливия Редфилд, Майкл Коллинз, Анкур Парих, Крис Альберти, Даниэль Эпштейн, Илья Полосухин, Джейкоб Девлин, Кентон Ли, Кристина Тутанова, Лайон Джонс, Мэттью Келси, Минг-Вэй Чанг, Эндрю М. Дай, Джейкоб Ушкорейт, Куок Ле и Слав Петров. Естественные вопросы: эталон для исследования ответов на вопросы. Труды Ассоциации компьютерной лингвистики, 7: 452–466, 2019. doi: 10.1162/tacl_a_00276. URL https://aclanthology.org/Q19-1026.

Фейсал Ладхак, Эсин Дурмус, Клэр Карди и Кэтлин МакКаун. WikiLingua: новый эталонный набор данных для межъязыкового абстрактного обобщения. В выводах Ассоциации компьютерной лингвистики: EMNLP 2020, страницы 4034–4048, онлайн, ноябрь 2020 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2020.findings-emnlp.360. URL https://www.aclweb.org/anthology/2020.findings-emnlp.360.

Леблон и др. Технический отчет AlphaCode 2. 2023. URL https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf.

Ян ЛеКун, Йошуа Бенджио и Джеффри Хинтон. Глубокое обучение. природа, 521(7553):436–444, 2015.

Юджиа Ли, Дэвид Чой, Джунён Чунг, Нейт Кушман, Джулиан Шритвизер, Реми Леблон, Том Эклс, Джеймс Килинг, Феликс Гимено, Агустин Даль Лаго и др. Генерация кода уровня соревнований с помощью альфа-кода. Science, 378(6624):1092–1097, 2022.

Бинь Линь, Бинь Чжу, Ян Е, Мунань Нин, Пэн Цзинь и Ли Юань. Видео-ллава: Обучение объединенному визуальному представлению путем выравнивания перед проецированием. Препринт arXiv arXiv:2311.10122, 2023.

Фангю Лю, Джулиан Айзеншлос, Франческо Пикчинно, Сирин Кричене, Чэньси Панг, Кентон Ли, Мандар Джоши, Венху Чен, Найджел Коллиер и Ясемин Алтун. DePlot: однократное рассуждение на визуальном языке путем перевода графика в таблицу. В выводах Ассоциации компьютерной лингвистики: ACL 2023, страницы 10381–10399, Торонто, Канада, июль 2023 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2023.findings-acl.660. URL https://aclanthology.org/2023. выводы-акл.660.

Пан Лу, Ран Гун, Шибяо Цзян, Лян Цю, Сиюань Хуан, Сяодань Лян и Сун-Чунь Чжу. Inter-gps: интерпретируемое решение задач геометрии с помощью формального языка и символических рассуждений. На совместной конференции 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (ACL-IJCNLP 2021), 2021 г.

Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, KaiWei Chang, Michel Galley, and Jianfeng Gao. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.

Ахмед Масри, До Лонг, Цзя Цин Тан, Шафик Джоти и Энамул Хок. ChartQA: эталон для ответов на вопросы о диаграммах с визуальным и логическим обоснованием. В выводах ACL, 2022 г.

Минеш Мэтью, Димосфенис Карацас и К.В. Джавахар. Docvqa: набор данных для vqa изображений документов. В материалах зимней конференции IEEE/CVF по приложениям компьютерного зрения, страницы 2200–2209, 2021 г.

Минеш Мэтью, Вирадж Багал, Рубен Тито, Димосфенис Карацас, Эрнест Вальвени и К.В. Джавахар. Инфографика. В материалах зимней конференции IEEE/CVF по приложениям компьютерного зрения, страницы 1697–1706, 2022 г.

Джейкоб Меник, Майя Требач, Владимир Микулик, Джон Асланидес, Фрэнсис Сонг, Мартин Чедвик, Миа Глез, Сюзанна Янг, Люси Кэмпбелл-Джиллингем, Джеффри Ирвинг и Нат Макэлис. Обучение языковым моделям для поддержки ответов проверенными цитатами. Препринт arXiv arXiv:2203.11147, 2022.

Тодор Михайлов, Питер Кларк, Тушар Хот и Ашиш Сабхарвал. Может ли доспех проводить электричество? новый набор данных для ответов на вопросы открытой книги. В материалах конференции 2018 года по эмпирическим методам обработки естественного языка, страницы 2381–2391, Брюссель, Бельгия, октябрь-ноябрь 2018 года. Ассоциация компьютерной лингвистики. дои: 10.18653/v1/D18-1260. URL https://aclanthology.org/D18-1260.

Маргарет Митчелл, Симона Ву, Эндрю Залдивар, Паркер Барнс, Люси Вассерман, Бен Хатчинсон, Елена Спитцер, Иниолува Дебора Раджи и Тимнит Гебру. Модельные карточки для модельной отчетности. В материалах конференции по вопросам справедливости, подотчетности и прозрачности, страницы 220–229, 2019 г.

Шаши Нараян, Шей Б. Коэн и Мирелла Лапата. Не давайте мне подробностей, просто краткое содержание! сверточные нейронные сети с учетом тем для экстремального обобщения. В материалах конференции 2018 года по эмпирическим методам обработки естественного языка, страницы 1797–1807, Брюссель, Бельгия, октябрь-ноябрь 2018 года. Ассоциация компьютерной лингвистики. дои: 10.18653/v1/D18-1206. URL https://aclanthology.org/D18-1206.

Октаташи Хиватал. Математика отличная. Középszintű Írásbéli Vizsga, май 2023 г. URL https://dload-oktatas.educatio.hu/erettsegi/feladatok_2023tavasz_kozep/k_matang_23maj_fl.pdf. Ангол Нилвен.

ОпенАИ. Технический отчет GPT-4. 2023а.

ОпенАИ. Системная карта GPT-4V(ision), 2023b.

ОпенАИ. Шепот, 2023 г. URL https://github.com/openai/whisper.

Лонг Оуян, Джефф Ву, Сюй Цзян, Диого Алмейда, Кэрролл Л. Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандини Агарвал, Катарина Слама, Алекс Рэй, Джон Шульман, Джейкоб Хилтон, Фрейзер Келтон, Люк Миллер, Мэдди Сименс, Аманда Аскелл, Питер Велиндер, Пол Кристиано, Ян Лейке и Райан Лоу. Обучение языковых моделей следованию инструкциям с обратной связью от человека. Препринт, 2022 г. URL https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf.

Денис Паперно, Херман Крушевски, Анжелики Лазариду, Куан Нгок Фам, Рафаэлла Бернарди, Сандро Пеццелле, Марко Барони, Джемма Боледа и Ракель Фернандес. Набор данных LAMBADA: предсказание слов, требующее широкого дискурсивного контекста. Препринт arXiv arXiv:1606.06031, 2016.

Виорика Патрэучан, Лукас Смайра, Анкуш Гупта, Адриа Рекасенс Континенте, Лариса Маркеева, Дилан Банарсе, Сканда Коппула, Джозеф Хейворд, Матеуш Малиновский, Йи Ян, Карл Дёрш, Татьяна Матеёвикова, Юрий Сульский, Антуан Мих, Алекс Фрешетт, Ханна Климчак, Рафаэль Костер, Цзюньлин Чжан, Стефани Винклер, Юсуф Айтар, Саймон Осиндеро, Дима Дамен, Эндрю Зиссерман и Жоао Каррейра. Тест на восприятие: диагностический тест для мультимодальных видеомоделей. Препринт arXiv arXiv:2305.13786, 2023.

Baolin Peng, Michel Galley, Pengcheng He, Hao Cheng, Yujia Xie, Yu Hu, Qiuyuan Huang, Lars Liden, Zhou Yu, Weizhu Chen, et al. Check your facts and try again: Improving large language models with external knowledge and automated feedback. arXiv preprint arXiv:2302.12813, 2023.

Леон Путиевски, Омид Машаехи, Джун Онг, Арджун Сингх, Мукаррам Тарик, Руй Ван, Цзянань Чжан, Вирджиния Борегар, Патрик Коннер, Стив Гриббл и др. Развитие Юпитера: преобразование сети центров обработки данных Google с помощью оптических коммутаторов и программно-определяемых сетей. В материалах конференции ACM SIGCOMM 2022, страницы 66–85, 2022 г.

Винил Пратап, Цяньтун Сюй, Ануруп Шрирам, Габриэль Синнев и Ронан Коллоберт. Mls: крупномасштабный многоязычный набор данных для исследования речи. Препринт arXiv arXiv:2012.03411, 2020.

Алек Рэдфорд, Джеффри Ву, Ревон Чайлд, Дэвид Луан, Дарио Амодей и Илья Суцкевер. Языковые модели предназначены для многозадачного обучения без присмотра. Блог OpenAI, 1(8):9, 2019 г. URL https://d4mucfpksywv.cloudfront.net/better-language models/language_models_are_unsupervised_multitask_learners.pdf.

Алек Рэдфорд, Чон Ук Ким, Тао Сюй, Грег Брокман, Кристин МакЛиви и Илья Суцкевер. Надежное распознавание речи посредством масштабного слабого контроля. На Международной конференции по машинному обучению, страницы 28492–28518. ПМЛР, 2023.

Джек В. Рэй, Себастьян Боржо, Тревор Кай, Кэти Милликан, Джордан Хоффманн, Х. Фрэнсис Сонг, Джон Асланидес, Сара Хендерсон, Роман Ринг, Сюзанна Янг, Элиза Разерфорд, Том Хенниган, Джейкоб Меник, Элбин Кассирер, Ричард Пауэлл, Джордж ван ден Дриссше, Лиза Энн Хендрикс, Марибет Рау, По-Сен Хуанг, Амелия Глезе, Йоханнес Велбл, Сумант Дататри, Саффрон Хуанг, Джонатан Уэсато, Джон Меллор, Ирина Хиггинс, Антония Кресвелл, Нат Макэлис, Эми Ву, Эрих Элсен, Сиддхант М. Джаякумар, Елена Бучацкая, Дэвид Бадден, Эсме Сазерленд, Карен Симоньян, Микела Паганини, Лоран Сифре, Лена Мартенс, Сян Лоррейн Ли, Адхигуна Кункоро, Аида Нематзаде, Елена Грибовская, Доменик Донато, Анжелики Лазариду, Артур Менш, ЖанБатист Леспио, Мария Цимпукелли, Николай Григорьев, Дуг Фриц, Тибо Соттио, Мантас Пахарскас, Тоби Полен, Житао Гонг, Даниэль Тояма, Сиприен де Массон д'Отум, Юджиа Ли, Тайфун Терзи, Владимир Микулик, Игорь Бабушкин, Эйдан Кларк, Диего де Лас Касас Аурелия Гай, Крис Джонс, Джеймс Брэдбери, Мэттью Джонсон, Блейк А. Хехтман, Лаура Вейдингер, Иасон Гэбриэл, Уильям С. Айзек, Эдвард Локхарт, Саймон Осиндеро, Лаура Раймелл, Крис Дайер, Ориол Виньялс, Карим Аюб, Джефф Стэнуэй, Лоррейн Беннетт, Демис Хассабис, Корай Кавукчуоглу и Джеффри Ирвинг. Масштабирование языковых моделей: методы, анализ и усиление; выводы из тренировки Gopher. КОРР, абс/2112.11446, 2021.

Адитья Рамеш, Михаил Павлов, Габриэль Го, Скотт Грей, Челси Восс, Алек Рэдфорд, Марк Чен и Илья Суцкевер. Генерация текста в изображение с нуля. На Международной конференции по машинному обучению, страницы 8821–8831. ПМЛР, 2021.

Ханна Рашкин, Виталий Николаев, Мэттью Ламм, Лора Аройо, Майкл Коллинз, Дипанджан Дас, Слав Петров, Гаурав Сингх Томар, Юлия Турк и Дэвид Рейтер. Измерение атрибуции в моделях генерации естественного языка. Компьютерная лингвистика, страницы 1–64, 2023 г.

Скотт Рид, Конрад Зольна, Эмилио Паризотто, Серхио Гомес Кольменарехо, Александр Новиков, Габриэль Барт-Марон, Май Хименес, Юрий Сульский, Джеки Кей, Йост Тобиас Спрингенберг, Том Экклс, Джейк Брюс, Али Разави, Эшли Эдвардс, Николас Хесс, Ютиан Чен, Райя Хадселл, Ориол Виньялс, Махьяр Бордбар и Нандо де Фрейтас. Агент широкого профиля. Препринт arXiv arXiv:2205.06175, 2022.

Паркер Райли, Тимоти Дозат, Ян А. Бота, Ксавьер Гарсия, Дэн Гарретт, Джейсон Риза, Орхан Фират и Ной Констант. Frmt: Эталон для машинного перевода с учетом региона. Труды Ассоциации компьютерной лингвистики, 2023.

Ханна Ричи, Вероника Самборска и Макс Розер. Пластиковое загрязнение. Наш мир в данных, 2023 г. https://ourworldindata.org/plastic-pollution.

Адам Робертс, Колин Раффел и Ноам Шазир. Какой объем знаний можно уместить в параметры языковой модели? В материалах конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP), страницы 5418–5426, онлайн, ноябрь 2020 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2020.emnlp-main.437. URL https://aclanthology.org/2020.emnlp-main.437.

Тибо Селлам, Дипанджан Дас и Анкур Парих. БЛЕРТ: Изучение надежных показателей для генерации текста. В материалах 58-го ежегодного собрания Ассоциации компьютерной лингвистики, страницы 7881–7892, онлайн, июль 2020 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2020.acl-main.704. URL https://aclanthology.org/2020.acl-main.704.

Ури Шахам, Элад Сегал, Маор Ивги, Авиа Эфрат, Ори Йоран, Ади Хавив, Анкит Гупта, Венхан Сюн, Мор Гева, Джонатан Берант и Омер Леви. ПРОКРУТКИ: стандартизированное сравнение длинных языковых последовательностей. В материалах конференции 2022 года по эмпирическим методам обработки естественного языка, страницы 12007–12021, Абу-Даби, Объединенные Арабские Эмираты, декабрь 2022 года. Ассоциация компьютерной лингвистики. URL https://aclanthology.org/2022.emnlp-main.823.

Ноам Шазир. Быстрое декодирование с помощью преобразователя: все, что вам нужно, — это одна записывающая головка. Препринт arXiv arXiv:1911.02150, 2019.

Тоби Шевлейн, Себастьян Фаркуар, Бен Гарфинкель, Мэри Фуонг, Джесс Уиттлстоун, Джейд Люн, Дэниэл Кокотайло, Нахема Маршал, Маркус Андерльюнг, Ноам Кольт, Льюис Хо, Дивья Сиддарт, Шахар Эвин, Уилл Хокинс, Бин Ким, Ясон Гэбриэл, Виджай Болина , Джек Кларк, Йошуа Бенджио, Пол Кристиано и Аллан Дефо. Оценка модели для экстремальных рисков. Препринт arXiv arXiv:2305.15324, 2023.

Фреда Ши, Мирак Сузгун, Маркус Фрейтаг, Сюэчжи Ван, Сурадж Сриватс, Соруш Восуги, Хён Вон Чунг, Йи Тай, Себастьян Рудер, Денни Чжоу и др. Языковые модели представляют собой многоязычную цепочку рассуждений. ICLR, 2023.

Аманприт Сингх, Вивек Натараджан, Мет Шах, Ю Цзян, Синлей Чен, Дхрув Батра, Деви Парих и Маркус Рорбах. К моделям VQA, которые умеют читать. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 8317–8326, 2019 г.

Аарохи Шривастава, Абхинав Растоги, Абхишек Рао, Абу Авал М.Д. Шуб, Абубакар Абид, Адам Фиш, Адам Р. Браун и др. За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей. Препринт arXiv arXiv:2206.04615, 2022. URL https://arxiv.org/abs/2206.04615.

Илья Суцкевер, Ориол Виньялс и Quoc V Le. Последовательное обучение с помощью нейронных сетей. Достижения в области нейронных систем обработки информации, 27, 2014.

Мирак Сузгун, Натан Скейлс, Натанаэль Шерли, Себастьян Германн, И Тай, Хён Вон Чунг, Ааканша Чоудхери, Куок Ви Ле, Эд Х Чи, Денни Чжоу и др. Сложные задачи BIG-Bench и может ли их решить цепочка мыслей. Препринт arXiv arXiv:2210.09261, 2022. URL https://arxiv.org/abs/2210.09261.

Ойвинд Тафьорд, Бхавана Далви и Питер Кларк. Составитель доказательств: создание выводов, доказательств и абдуктивных утверждений на естественном языке. В выводах, 2020 г. URL https://api. semanticscholar.org/CorpusID:229371222.

Команда НЛЛБ, Марта Р. Коста-Хусса, Джеймс Кросс, Онур Челеби, Маха Эльбаяд, Кеннет Хифилд, Кевин Хеффернан, Элахе Калбасси, Дженис Лам, Дэниел Лихт, Жан Майяр, Анна Сан, Скайлер Ван, Гийом Вензек, Эл Янгблад, Бапи Акула, Лоик Барро, Габриэль Медхиа Гонсалес, Прангтип Хансанти, Джон Хоффман, Семарли Джарретт, Каушик Рам Садагопан, Дирк Роу, Шеннон Спрут, Чау Тран, Пьер Эндрюс, Неджип Фазил Аян, Шрути Бхосале, Сергей Эдунов, Анджела Фан, Синтия Гао, Веданудж Госвами, Франсиско Гусман, Филипп Кён, Александр Моурачко, Кристоф Роперс, Сафия Салим, Хольгер Швенк и Джефф Ван. Ни один язык не остался позади: масштабирование машинного перевода, ориентированного на человека. 2022.

Ашиш В. Таплиял, Хорди Понт-Тусет, Си Чен и Раду Сорикут. Crossmodal-3600: многоязычный набор мультимодальных оценочных данных. В ЭМНЛП, 2022 г.

Кочми Том, Элефтериос Аврамидис, Рэйчел Бауден, Ондржей Бояр, Антон Дворкович, Кристиан Федерманн, Марк Фишел, Маркус Фрайтаг, Тамме Гауда, Роман Грундкевич и др. Результаты конференции по машинному переводу 2023 года (wmt23): Llms уже здесь, но еще не совсем там. В Восьмой конференции WMT23 по машинному переводу, страницы 198–216, 2023 г.

Уго Туврон, Тибо Лавриль, Готье Изакар, Ксавье Мартине, Мари-Анн Лашо, Тимоти Лакруа, Батист Розьер, Наман Гойал, Эрик Хамбро, Фейсал Ажар, Орельен Родригес, Арман Жулен, Эдуард Грав и Гийом Лампле. Лама: открытые и эффективные базовые языковые модели. Препринт arXiv arXiv:2302.13971, 2023a.

Уго Туврон, Луи Мартин, Кевин Стоун, Питер Альберт, Амджад Альмахаири, Ясмин Бабаи, Николай Башлыков, Сумья Батра, Праджвал Бхаргава, Шрути Бхосале, Дэн Бикель, Лукас Блечер, Кристиан Кантон Феррер, Мойя Чен, Гиллем Кукурулл, Дэвид Эсиобу, Джуд Фернандес, Джереми Фу, Веньинь Фу, Брайан Фуллер, Синтия Гао, Веданудж Госвами, Наман Гоял, Энтони Хартшорн, Сагар Хоссейни, Руй Хоу, Хакан Инан, Марцин Кардас, Виктор Керкез, Мадиан Хабса, Изабель Клуманн, Артем Коренев, Пунит Сингх Коура , Мари-Анн Лашо, Тибо Лавриль, Женя Ли, Диана Лискович, Инхай Лу, Юнин Мао, Ксавье Мартине, Тодор Михайлов, Пушкарь Мишра, Игорь Молибог, Исинь Не, Эндрю Поултон, Джереми Рейзенштейн, Раши Рунгта, Калян Салади, Алан Шелтен , Руан Силва, Эрик Майкл Смит, Ранджан Субраманиан, Сяоцин Эллен Тан, Бинь Тан, Росс Тейлор, Адина Уильямс, Цзянь Сян Куан, Пусинь Сюй, Чжэн Янь, Илиян Заров, Юйчен Чжан, Анджела Фан, Мелани Камбадур, Шаран Наранг, Орельен Родригес, Роберт Стойник, Сергей Эдунов и Томас Шиалом. Лама 2: Открытая основа и доработанные модели чата. Препринт arXiv arXiv:2307.09288, 2023b.

Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н. Гомес, Лукаш Кайзер и Илья Полосухин. Внимание – это все, что вам нужно. CoRR, abs/1706.03762, 2017. URL http://arxiv.org/abs/1706.03762.

Петар Величкович, Адриа Пучдоменек Бадиа, Дэвид Бадден, Разван Паскану, Андреа Банино, Миша Дашевский, Райя Хадселл и Чарльз Бланделл. Эталон алгоритмического рассуждения clrs. Препринт arXiv arXiv:2205.15659, 2022.

Манодж Вишванатан, Ронак Шах, Кён Ки Ким и Минсу Чой. Уязвимость графического процессора к скрытому повреждению данных (sdc) при различных рабочих нагрузках gpgpu. На Международной конференции по проектированию SoC (ISOCC) 2015 г., страницы 11–12, 2015 г. doi: 10.1109/ISOCC.2015.7401681.

Чанхан Ван, Энн Ву и Хуан Пино. Covost 2 и многоязычный перевод речи в текст. Препринт arXiv arXiv:2007.10310, 2020.

Чанхан Ван, Морган Ривьер, Энн Ли, Энн Ву, Чайтанья Талникар, Дэниел Хазиза, Мэри Уильямсон, Хуан Пино и Эммануэль Дюпу. Voxpopuli: крупномасштабный многоязычный речевой корпус для обучения репрезентации, полуконтролируемого обучения и интерпретации. Препринт arXiv arXiv:2101.00390, 2021.

Синь Ван, Цзявэй Ву, Цзюнькунь Чен, Лэй Ли, Юань-Фан Ван и Уильям Ян Ван. Vatex: крупномасштабный высококачественный многоязычный набор данных для видео- и языковых исследований. В ICCV, 2019 г.

Сюэчжи Ван, Джейсон Вэй, Дейл Шуурманс, Куок Ле, Эд Чи и Денни Чжоу. Самосогласованность улучшает цепочку рассуждений в языковых моделях. Препринт arXiv arXiv:2203.11171, 2022.

Джейсон Вэй, Сюэчжи Ван, Дейл Шурманс, Маартен Босма, Брайан Ичтер, Фей Ся, Эд Чи, Куок Ле и Денни Чжоу. Подсказки по цепочке мыслей вызывают рассуждения в больших языковых моделях. NeurIPS, 2022. URL https://arxiv.org/abs/2201.11903.

Лаура Вайдингер, Джон Меллор, Марибет Рау, Конор Гриффин, Джонатан Уэсато, По-Сен Хуанг, Майра Ченг, Миа Глезе, Борха Балле, Атуса Касирзаде, Зак Кентон, Саша Браун, Уилл Хокинс, Том Степлтон, Кортни Байлз, Абеба Бирхейн, Джулия Хаас, Лора Римелл, Лиза Энн Хендрикс, Уильям С. Исаак, Шон Легассик, Джеффри Ирвинг и Ясон Гэбриэл. Этические и социальные риски вреда от языковых моделей. CoRR, abs/2112.04359, 2021. URL https://arxiv.org/abs/2112.04359.

Дэвид Уэтералл, Абдул Каббани, Ван Джейкобсон, Джим Вингет, Ючунг Ченг, Брэд Морри, Ума Партхави Моравапалле, Филлипа Гилл, Стивен Найт и Амин Вахдат. Повышение доступности сети с помощью защитного перенаправления. В SIGCOMM 2023, 2023. URL https://dl.acm.org/doi/10.1145/3603269.3604867.

Junbin Xiao, Xindi Shang, Angela Yao, and Tat-Seng Chua. NExT-QA: Next phase of question answering to explaining temporal actions. In CVPR, 2021.

ХЛА. XLA: Оптимизирующий компилятор для TensorFlow. https://www.tensorflow.org/xla, 2019. [Онлайн; доступ к декабрю 2023 г.].

Юаньчжун Сюй, Хёкджун Ли, Дехао Чен, Блейк Хехтман, Янпин Хуан, Рахул Джоши, Максим Крикун, Дмитрий Лепихин, Энди Ли, Марчелло Маджиони и др. Gspmd: общее и масштабируемое распараллеливание графов вычислений мл. Препринт arXiv arXiv:2105.04663, 2021.

Чи Яо Хонг, Субхасри Мандал, Мохаммад А. Альфарес, Мин Чжу, Рич Алими, Кондапа Найду Боллинени, Чандан Бхагат, Сураб Джайн, Джей Каймал, Джеффри Лян, Кирилл Менделев, Стив Пэджетт, Фаро Томас Рэйб, Сайкат Рэй, Малвика Тевари, Мэтт Тирни, Моника Зан, Джон Золла, Джун Онг и Амин Вахдат. B4 и последующие версии: управление иерархией, разделением и асимметрией для обеспечения доступности и масштабирования в программно-определяемой глобальной сети Google. В SIGCOMM’18, 2018 г. URL https://conferences.sigcomm.org/sigcomm/2018/program_tuesday.html.

Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, and Yonghui Wu. Coca: Contrastive captioners are image-text foundation models, 2022a.

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, and Yonghui Wu. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2(3):5, 2022b.

Шубин Ю, Джэмин Чо, Пратик Ядав и Мохит Бансал. Модель языка и образа с автоподключением для локализации видео и ответов на вопросы. Препринт arXiv arXiv:2305.06988, 2023.

Zhou Yu, Dejing Xu, Jun Yu, Ting Yu, Zhou Zhao, Yueting Zhuang, and Dacheng Tao. ActivityNet QA: A dataset for understanding complex web videos via question answering. In AAAI, 2019.

Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin,

Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, and Wenhu Chen. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi, 2023.

Роуэн Зеллерс, Ари Хольцман, Йонатан Биск, Али Фархади и Йеджин Чой. Хелласваг: Может ли машина действительно закончить ваше предложение? Препринт arXiv arXiv:1905.07830, 2019.

Ю Чжан, Вэй Хань, Джеймс Цинь, Юнцян Ван, Анкур Бапна, Чжэхуай Чен, Наньсинь Чен, Бо Ли, Вера Аксельрод, Гэри Ван, Чжун Мэн, Ке Ху, Эндрю Розенберг, Рохит Прабхавалкар, Дэниел С. Парк, Париса Хагани, Джейсон Риза, Джинджер Пернг, Хаген Солтау, Тревор Строман, Бхувана Рамабхадран, Тара Сайнат, Педро Морено, Чунг-Ченг Чиу, Йохан Шалквик, Франсуаза Бофейс и Йонгхуэй Ву. Google usm: масштабирование автоматического распознавания речи за пределы 100 языков. Препринт arXiv arXiv:2303.01037, 2023.

Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, and Yu Li. Progressive-hint prompting improves reasoning in large language models, 2023.

Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, and Omer Levy. Lima: Less is more for alignment, 2023.

Луовэй Чжоу, Чэньлян Сюй и Джейсон Дж. Корсо. На пути к автоматическому изучению процедур по обучающим веб-видео. На конференции AAAI по искусственному интеллекту, страницы 7590–7598, 2018 г.

Оригинал

Gemini - семейство высокопроизводительных мультимодальных моделей: обсуждение и заключение, ссылки

Таблица ссылок

7. Обсуждение и заключение

Ссылки

🔥 Популярное на этой неделе

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Как начать дружбу с Selenide

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

4 признака того, что ваш Instagram взломали (и что делать)

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Categories