Сравнение моделей OpenAI: GPT-4 против GPT-3

Выпуск новой версии моделей GPT, GPT-4, привлек дополнительное внимание к уже известным языковым моделям OpenAI. Неудивительно!

GPT-4 был представлен как самая продвинутая система OpenAI, способная решать сложные задачи с большей точностью благодаря более широким общим знаниям и возможностям решения проблем.

В этой статье я сравниваю GPT-3 по сравнению с GPT-4 и GPT-3.5, которые оказались между двумя группами моделей.

Готов?

Что такое OpenAI GPT-3?

GPT-3 — это языковая модель, разработанная OpenAI. Он был выпущен в июне 2020 года и быстро привлек внимание благодаря своим замечательным возможностям создания языков.

GPT-3 поставляется в нескольких базовых моделях с различным количеством параметров и требуемых вычислительных ресурсов. Наиболее известными из них являются Ада, Бэббидж, Кюри и Давинчи.

15 марта 2022 года OpenAI выпустила новую версию GPT-3 под названием «text-davinci-003». Эта модель была описана как более функциональная, чем предыдущие версии GPT. Более того, он был обучен на данных до июня 2021 года, что делает его более актуальным, чем предыдущие версии моделей (обученные на данных до октября 2019 года). Восемь месяцев спустя, в ноябре 2022 года, OpenAI начала называть эту модель принадлежащей GPT-3.5. серия. Но давайте пропустим временную шкалу.

Что такое GPT-3.5?

На сегодняшний день у нас есть 5 различных вариантов моделей, относящихся к серии GPT-3.5. Четыре из них оптимизированы для задач завершения текста, а один — для задач завершения кода.

Source: OpenAI

Последняя версия модели GPT-3.5, gpt-3.5-turbo, была выпущена 1 марта 2023 года и мгновенно вызвала всплеск интереса к GPT-3.5. Просто чтобы разогреть аудиторию перед выходом GPT-4.

Что такое OpenAI GPT-4?

GPT-4 — это самая последняя и самая продвинутая версия языковых моделей OpenAI. Представленный 14 марта 2023 года, он считается новой вехой в развитии глубокого обучения.

Говорят, что GPT-4 может генерировать более фактически точные заявления, чем GPT-3 и GPT-3.5, обеспечивая большую надежность и достоверность. Он также мультимодальный, то есть может принимать изображения в качестве входных данных и генерировать подписи, классификации и анализы.

Наконец, что не менее важно, он приобрел некоторую креативность. Как мы можем прочитать в официальном обновлении продукта, «он может генерировать, редактировать и повторять с пользователями творческие и технические задачи письма, такие как сочинение песен, написание сценариев или изучение стиля письма пользователя».

Example of OpenAI GPT-4's creativity: GPT-4 explaining the plot of Cinderella in a sentence where each word begins with the next letter in the alphabet from A to Z. Source: OpenAI

На данный момент, в марте 2023 года, GPT-4 выпускается в двух вариантах:

* gpt-4-8K * gpt-4-32K

которые отличаются размером своего контекстного окна. Несмотря на то, что GPT-4 уже используется в коммерческих целях, большинству пользователей потребуется подождать некоторое время, прежде чем они получат доступ к GPT. -4 API и создавать собственные приложения и сервисы на основе GPT-4.

Стоит ли ждать? Посмотрим!

GPT-4 против GPT-3 и GPT-3.5 — ключевые отличия

Когда на просьбу сравнить GPT-4 с GPT-3 Грег Брокман, один из соучредителей OpenAI и его президент, ответил одним словом: Разные. Как он сказал Techcrunch:

<цитата>

Есть еще много проблем и ошибок, которые допускает [модель]… но вы действительно можете увидеть скачок в навыках в таких вещах, как исчисление или юриспруденция, где она превратилась из очень плохой в определенных областях в действительно довольно хорошо по сравнению с людьми.

Попробуем подробнее остановиться на этом. Тем более, что исследование GPT-4, опубликованное OpenAI, раскрывает на удивление много подробностей о новых моделях.

Возможности модели GPT-4 и модели GPT-3

Одним из самых больших различий между GPT-3 и GPT-4 являются их возможности. Говорят, что GPT-4 более надежен, креативен, поддерживает совместную работу и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5.

Чтобы понять разницу между двумя моделями, разработчики OpenAI протестировали их на различных тестах, в том числе на имитационных экзаменах, изначально предназначенных для людей.

<цитата>

Мы использовали самые последние общедоступные тесты (в случае с олимпиадами и бесплатными ответами на вопросы AP) или приобрели пробные экзамены 2022–2023 годов. Специальной подготовки к этим экзаменам мы не проводили. Меньшая часть проблем на экзаменах была замечена моделью во время обучения, но мы считаем результаты репрезентативными.

(источник: OpenAI)

Результаты потрясающие!

В то время как GPT-3 набрал только 1 балл из 5 на экзамене AP Calculus BC, GPT-4 набрал 4 балла. На смоделированном экзамене на адвоката GPT-4 прошел с результатом около 10% лучших участников теста, а GPT-3.5 - самая продвинутая версия серии ГПТ-3 – оказалась в нижних 10%.

Source: OpenAI

Более того, GPT-4 — это… настоящий полиглот. В то время как уровень владения английским языком GPT уже был высоким в версиях GPT-3 и GPT-3.5 (при точности выстрела 70,1%), его точность в новейшей версии увеличилась до более чем 85%. На самом деле, он говорит на 25 языках лучше, чем его предок говорил по-английски, включая китайский, польский и суахили. Это впечатляет, учитывая, что большинство существующих тестов машинного обучения написаны на английском языке.

Source: OpenAI

Если этого недостаточно, GPT-4 может обрабатывать гораздо более длинный текст за один запрос — и все благодаря большей длине контекста.

Ограничения токенов в GPT-3 и GPT-4

Длина контекста — это параметр, используемый для описания того, сколько токенов можно использовать в одном запросе API. В исходных моделях GPT-3, выпущенных в 2020 году, максимальное значение запроса составляет 2049 токенов. В GPT-3.5 этот лимит был увеличен до 4096 токенов (что составляет ~3 страницы однострочного английского текста). GPT-4 выпускается в двух вариантах. Один из них (GPT-4-8K) имеет длину контекста 8 192 токена, а второй (GPT-4-32K) может обрабатывать до 32 768 токенов, что составляет около 50 страниц текста.

При этом мы можем подумать обо всех новых вариантах использования GPT-4. С их способностью обрабатывать 50 страниц текста можно будет использовать новые модели OpenAI для создания более длинных фрагментов текста, анализа и обобщения больших документов или отчетов или обработки разговоров без потери контекста. Как представил Грег Брокман в интервью для Techcrunch:

<цитата>

Ранее модель ничего не знала о том, кто вы, что вас интересует и т. д. Наличие такой истории [с большим окном контекста] определенно сделает его более функциональным… Это ускорит то, что люди могут делать.

Но это еще не все, потому что помимо обработки текстового ввода GPT-4 может интерпретировать и другие типы ввода.

Типы ввода в GPT-4 и GPT-3

В то время как модели GPT-3 и GPT-3.5 были ограничены одним типом ввода (текст или код, если быть точным), GPT-4 поддерживает дополнительный тип ввода: изображения. В частности, он генерирует текстовые выходные данные из входных данных, состоящих из текста и изображений.

В зависимости от того, что вы просите модель GPT-4, она может генерировать подписи, классифицировать видимые элементы или анализировать изображение. Среди примеров, представленных в исследовательской документации GPT-4, мы можем увидеть модели, анализирующие графики, объясняющие мемы и даже обобщающие документы, состоящие из текста и изображений. Мы должны признать, что возможности распознавания изображений GPT-4 впечатляют.

Просто взгляните!

Source: OpenAI

Возможность обработки изображений в сочетании с более высокими лимитами токенов открывает новые возможности использования GPT-4 — от академических исследований до личного обучения или помощников по покупкам. Однако не слишком волнуйтесь, так как может пройти некоторое время, прежде чем вы сможете использовать этот новый навык GPT-4.

Как мы можем прочитать на сайте OpenAI, входные изображения все еще находятся на стадии предварительного исследования и недоступны для широкой публики.

Определение контекста диалога GPT-4 и GPT-3

Еще одно огромное различие между GPT-3 и GPT-4 заключается в том, как мы можем определить тон, стиль и поведение модели.

В новейшей версии GPT можно снабдить модель инструкциями на уровне API, включив так называемые «системные» сообщения (в пределах, подробно описанных в Политика использования OpenAI). Эти инструкции задают тон сообщений и описывают, как должна вести себя модель (например, «Вы никогда не даете ученику ответа, но всегда пытаетесь задать правильный вопрос, чтобы помочь ему научиться думать самостоятельно»).

Кроме того, они устанавливают границы взаимодействия GPT-4, выступая в качестве «ограждений», не позволяющих GPT-4 изменить свое поведение по запросу пользователя, как в следующем примере:

Source: OpenAI

Как видите, GPT-4 остается в рамках своей роли, определенной в системном сообщении, несмотря на запросы пользователя.

В некоторой степени мы уже могли испытать подобную способность модели в недавно выпущенном GPT-3.5-Turbo. Определив роль модели в системной подсказке, мы могли бы получить другой ответ. Посмотрите, как отличается сообщение в зависимости от того, за кого выдает себя модель GPT:

До марта 2023 года, когда была выпущена ГПТ-3,5-Турбо, не было возможности снабдить модель системным сообщением. Контекстная информация должна быть предоставлена в подсказке и может легко меняться в ходе разговора.

Возможности нового GPT-4 позволяют ему быть более последовательным в своем поведении и лучше подстраиваться под внешние спецификации (например, рекомендации по коммуникациям вашего бренда).

Стоимость использования GPT-4 по сравнению с GPT-3

Конечно, все это имеет свою цену. В то время как модели GPT-3 стоили от 0,0004 до 0,02 доллара за каждую 1 тыс. токенов, а новейшая модель GPT-3.5-Turbo обошлась в 10 раз дешевле (0,002 доллара за 1 тыс. токенов), чем самая мощная модель GPT davinci, стоимость использования GPT-4 оставляет желать лучшего. иллюзии: если вы хотите использовать самые продвинутые модели, вам нужно будет доплатить.

GPT-4 с контекстным окном размером 8 КБ будет стоить 0,03 доллара США за 1 тысячу токенов приглашения и 0,06 доллара США за 1 тысячу токенов завершения. С другой стороны, GPT-4 с окном контекста размером 32 КБ будет стоить 0,06 доллара США за 1 тысячу токенов приглашения и 0,12 доллара США за 1 тысячу токенов завершения.

Если обработка 100 тыс. запросов со средней длиной 1500 токенов подсказок и 500 токенов завершения будет стоить 4000 долларов США с text-davinci-003 и 400 долларов США с gpt-3.5-turbo< /code>, с GPT-4 это будет стоить 7500 долларов США с контекстным окном 8 КБ и 15 000 долларов США с контекстным окном 32 КБ.

Это не только дорого, но и сложнее в расчетах. Это связано с тем, что стоимость токенов подсказки (ввода) отличается от стоимости токенов завершения (вывода). Если вы помните нашGPT-3 Эксперимент с ценообразованием, вы уже знаете, что оценить использование токена сложно, так как существует очень низкая корреляция между входной и выходной длиной. При более высокой стоимости выходных (завершающих) токенов стоимость использования моделей GPT-4 будет еще менее предсказуемой.

`Точная настройка моделей OpenAI`

Помните, как мы определяли контекст в системном сообщении для GPT-4 и GPT-3.5-Turbo? Тонкая настройка — это, по сути, обходной метод, позволяющий определить тон, стиль и поведение модели, а также настроить модели GPT для конкретного приложения.

Для точной настройки модели вы обучаете ее на гораздо большем количестве примеров, чем может вместить подсказка. После точной настройки модели вам не нужно приводить примеры в подсказке. Это экономит затраты (каждый 1000 токенов имеет значение!) и позволяет выполнять запросы с меньшей задержкой. Звучит здорово, не так ли? Жаль, однако, что единственные модели OpenAI, которые в настоящее время доступны для тонкой настройки являются оригинальными базовыми моделями GPT-3 (давинчи, кюри, ада и капуста).

`Ошибки и ограничения`

Когда появились разные слухи о GPT-4 (например, о количестве используемых им параметров), генеральный директор OpenAI прокомментировал следующее:

<цитата>
Мельница слухов о GPT-4 — нелепая штука. Я не знаю, откуда все это. Люди просят разочароваться, и они будут. (…) У нас нет реального ОИИ, а этого от нас и ждут.

Хотя сложно назвать GPT-4 разочаровывающим, учитывая его креативность и удивительные возможности, важно знать о его ограничениях. И как мы можем прочитать в документации по исследованию продукта: они не сильно изменились по сравнению с предыдущими версиями модели.

Как и его предшественники, GPT-4 не знает о событиях, произошедших после сентября 2021 года. Более того, каким бы умным ни казался ChatGPT, он по-прежнему не является полностью надежным — даже при питании от GPT-4. Несмотря на то, что он, как утверждается, значительно уменьшает галлюцинации по сравнению с предыдущими моделями (оценка на 40% выше, чем у GPT-3.5 в их внутренних оценках), он по-прежнему «галлюцинирует» факты и делает ошибки в рассуждениях. Он по-прежнему может давать вредные советы (хотя с большей вероятностью откажется отвечать), код с ошибками или неточную информацию, и поэтому его не следует использовать в областях с высокой стоимостью ошибок.
GPT-3 против GPT-4 — основные выводы
Как самая передовая система OpenAI, GPT-4 превосходит старые версии моделей почти во всех областях сравнения. Он более творческий и более последовательный, чем GPT-3. Он может обрабатывать более длинные фрагменты текста или даже изображения. Это более точно и с меньшей вероятностью выдумывает «факты». Благодаря своим возможностям он создает множество новых возможных вариантов использования генеративного ИИ. .

Означает ли это, что GPT-4 заменит GPT-3 и GPT-3.5? Возможно нет. Несмотря на то, что GPT более мощный, чем предыдущие версии моделей OpenAI, его использование намного дороже. Во многих случаях, когда вам не нужна модель для обработки многостраничных документов или «запоминания» длинных разговоров, возможностей GPT-3 и GPT-3.5 будет достаточно.
Также опубликовано здесь