ChatGPT ответил на 50 000 вопросов викторины - вот как это было

ChatGPT ответил на 50 000 вопросов викторины - вот как это было

24 января 2023 г.

TL;DR: из 49 717 вопросов с несколькими вариантами ответов ChatGPT ответил правильно в 66,7 % случаев. Продолжайте читать, чтобы увидеть разбивку по категориям n


Около 6 лет назад мне пришла в голову идея проверить, насколько хорошо вы можете отвечать на викторины с помощью ИИ. Я использовал word2vec и выбирал ответы, основываясь на том, какой ответ с несколькими вариантами ответов имел наибольшее косинусное сходство со средним значением вектора предложения. Проще говоря, это… вообще не работало.

Процент правильных ответов с помощью этого метода был не намного лучше, чем при случайном выборе ответов.

Когда впервые вышла статья word2vec, то, что мы могли проводить аналогии для семантических значений слов, было революционным. «Король - Мужчина + Женщина = Королева". Я был поражен. исходный документ вышел в 2013 году, а сейчас мы находимся в 2023 году.

Колоссальные 10 лет спустя и бесчисленные поколения достижений в области машинного обучения, осмысления, понимания и т. д.

В июне 2017 года мы были благословлены документом «Внимание — это все, что вам нужно», в котором была представлена ​​архитектура преобразователя, которая представляла собой ступенчатую функцию. которые принесли нам эту революцию в обработке естественного языка. Итак, что теперь изменилось?

В конце 2022 года OpenAI выпустила ChatGPT. В основе всего этого лежит блестящий UX, который кто-то придумал для взаимодействия с GPT-3.5.

Первоначальный GPT-3 был доступен летом 2020 года в виде закрытой бета-версии, и хотя существует пользовательский интерфейс, использование GPT- 3 все еще был довольно пугающим для обычного человека.

На игровой площадке были представлены все ручки и параметры для настройки отклика GPT-3, что оттолкнуло многих людей от его использования. ChatGPT же был… чат-ботом. Это ничем не отличалось от разговора с кем-то в Slack или Microsoft Teams.

Любой мог зарегистрироваться, не было ни листа ожидания, ни страшных ручек. ChatGPT набрал 1 миллион пользователей всего за 5 дней.

В оставшейся части этой статьи я буду называть эту модель ChatGPT, хотя это не совсем точно, поскольку ChatGPT — это доработанная версия GPT-3.5.

Итак, насколько это разумно? Спустя 6 лет после моего первоначального эксперимента я хотел узнать, каковы возможности некоторых из самых впечатляющих систем машинного обучения, которые мы когда-либо видели. Мы видели творческие работы ChatGPT. Я даже сделал забавный веб-сайт для нас с женой: https://catstories.ai.

ChatGPT отлично справляется с творческими задачами, но для задач, требующих большего объема знаний, мнения значительно расходятся.

Некоторые люди убеждены, что ChatGPT с его интуитивно понятным интерфейсом заменит традиционные поисковые системы, такие как Google. Microsoft интегрирует ChatGPT непосредственно в свою поисковую систему, наряду с другими продуктами.

ChatGPT обучается всему, что он знает, читая огромное количество Интернета, и использует эту информацию при генерации текста. Для нетехнических, вы можете думать об этом как о автозаполнении вашего телефона, но намного умнее.

Если вы умеете подсказывать ChatGPT, вы можете заставить его делать революционные вещи и проверять его знания. Например, ChatGPT смог сдать экзамен на адвоката.

Вы можете поручить ему писать рекламные тексты или писать электронные письма для вас. Но если мы собираемся использовать его в качестве источника правды, чтобы заменить такие вещи, как поисковые системы, как он поступит с общими знаниями?

Как я это тестировал?

Набор данных uberspot/OpenTriviaQA – это креативный набор общих данных, состоящий из вопросов с несколькими вариантами ответов. Вопросы разделены на 22 категории, такие как: животные, развлечения, история, фильмы и спорт.

Большинство вопросов имеют 4 варианта ответа с несколькими вариантами ответов, но некоторые вопросы являются верными или неверными.

Вопросы приходят в следующем формате:

#Q What is the name of Rocky Balboas restaurant?
^ Adrians
A Rockys
B Mickeys
C Adrians
D Apollos

Во-первых, у вас сам вопрос. Тогда у вас есть правильный ответ. Наконец, у вас есть варианты ответов; по одному в каждой строке.

Мой скрипт загружал каждую из категорий и задавал все без исключения вопросы ChatGPT.

Для приведенного выше вопроса я бы отформатировал свое приглашение так:

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else.
Question:
What is the name of Rocky Balboas restaurant?

Possible answers:
Rockys
Mickeys
Adrians
Apollos

Your answer:

Затем я отправил бы это в ChatGPT и сравнил бы его ответ с правильным ответом.

Ооооооо, как дела?

Вот необработанные данные, отсортированные от меньшего к большему:

Category        Correct Total   Percentage
brain-teasers   103 207 0.497585
video-games 310 599 0.517529
television  2911    5230    0.556597
entertainment   163 280 0.582143
animals     815 1366    0.596632
celebrities 1909    3196    0.597309
sports      1728    2840    0.608451
movies      2647    4314    0.613584
for-kids    485 759 0.638999
music       3746    5579    0.671447
literature  888 1288    0.689441
hobbies     867 1242    0.698068
general     2306    3290    0.700912
newest      2117    3016    0.701923
people      1974    2743    0.71965
technology  1820    2486    0.7321
world       3571    4875    0.732513
religion-faith  469 638 0.73511
history     1228    1645    0.746505
rated       1640    2185    0.750572
humanities  831 1097    0.75752
geography   652 842 0.774347
overall     33180   49717   0.667377

Очень интересно посмотреть, как разбиваются эти категории. Примечательно, что ChatGPT не преуспел в категории головоломок. Давайте рассмотрим несколько примеров таких вопросов.

#Q The name of what is coded in the following: 86,smopuim?
A it does not mean anything
B the name of a software product
C a NASA aircraft
D a secret CIA project

Мне потребовалось некоторое время, чтобы понять это, но ChatGPT понял это правильно. Ответ Б. Эти символы означают, что окна 98 перевернуты. Когда я разговаривал со своим другом из Fearless AWS, он предложил мне попытаться объяснить ChatGPT. Так я и сделал.

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
The name of what is coded in the following: 86,smopuim?

Possible answers:
it does not mean anything
the name of a software product
a NASA aircraft
a secret CIA project

Your answer:
the name of a software product
The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.

Сначала я был впечатлен тем, что ChatGPT смог понять это, но на самом деле кажется, что ChatGPT просто догадался.

Давайте рассмотрим пример, в котором ChatGPT был неправильным.

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
What number multiplied by 10 equals the square of the same number, times 5?

Possible answers:
4
5
2
10

Your answer:
5
Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.

Вот отличная демонстрация того, как ChatGPT может быть довольно глупым. Совершенно неверная арифметика. Поскольку он просто генерирует текст, это не означает, что он правильно закодировал арифметику. Правильный ответ: 2. 2 в квадрате равно 4, 5 умножить на 20. 2 умножить на 10 тоже 20.

Давайте посмотрим на другой пример, где ChatGPT был правильным в соответствии с набором данных, но объяснение не совсем сходится:

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible.


Possible answers:
False
True

Your answer:
True
The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.

Итак, это действительно интересно. В наборе данных нет объяснения ни одной из этих головоломок, но правильный ответ указан как «верный». Если вы погуглите, то обнаружите, что ответ на загадку должен быть «верным», потому что мужчина умеет жонглировать мячами.

Игнорирование настоящей физики в такой ситуации ответ ChatGPT снова дает совершенно неверную арифметику, говоря, что 201 фунт меньше максимального веса в 200 фунтов.

Давайте посмотрим на последний пример, который касается чего-то в области НЛП, называемой схемой Винограда. Что, если упрощать, в основном означает способность понимать, как местоимения превращаются в неоднозначных действующих лиц в одном и том же предложении.

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
If the mother of a boy spanks him and then his father comes and does the same, who hurts the most?

Possible answers:
The boys brother
The mother
The boy
The father

Your answer:
The boy

Explanation: The boy is the one being spanked, so he would experience the most pain.

В этом ответе ChatGPT объясняет, что шлепают мальчика, и поэтому, даже несмотря на то, что может быть некоторая двусмысленность между использованием «его» и «его», относящегося либо к мальчику, либо к отцу, ChatGPT понимает контекст мальчика шлепают.

Эти головоломки требуют логических выводов, которые, кажется, ChatGPT на самом деле не делает. Вполне логично, что именно в этой категории ChatGPT потерпел неудачу больше всего, но есть и впечатляющие ответы.

При этом даже просьба объяснить ChatGPT является сгенерированным ответом. Нельзя сказать, что именно так ChatGPT думает о проблемах.

Давайте посмотрим на другую категорию, литературу, с которой ChatGPT, по-видимому, должен быть хорош, потому что там должно быть много текста и ссылок, чтобы узнать о литературе.

Эти головоломки требуют логических выводов, которые, кажется, ChatGPT на самом деле не делает. Вполне логично, что именно в этой категории ChatGPT потерпел неудачу больше всего.

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
In what book of the Harry Potter series do Harry and Ginny kiss for the first time?

Possible answers:
Harry Potter and the Order of the Phoenix
Harry Potter and the Prisoner of Azkaban
Harry Potter and the Deathly Hallows
Harry Potter and the Half Blood Prince

Your answer:
Harry Potter and the Half Blood Prince

Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.

В этом случае ChatGPT правильный. Гарри Поттер достаточно популярен среди большого количества фэндомов, поэтому вполне логично, что об этом много говорят.

I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer.
Question:
Harry Potter marries Hermione in the last book of the series.

Possible answers:
True
False

Your answer:
True

Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.

Вот еще один очень интересный случай. Гарри женится на Джинни и имеет двоих детей, а не Гермиону. Пытаясь обдумать, как это могло произойти, я задаюсь вопросом, было ли в комментариях в Интернете и, возможно, фанфиках, которые были частью обучающего набора, достаточно контента, который предпочитал бы, чтобы Гарри и Гермиона были вместе.

Смысл большей базы знаний ChatGPT заключается в том, что вы можете влиять на то, что он считает правдой, если в его обучающих данных достаточно *мнения*.

Подведение итогов

Как я уже сказал, вопросов почти 50 000. Копаться в каждом из них нецелесообразно для одного поста, но действительно интересно попытаться интуитивно понять, почему ChatGPT лучше или хуже в различных категориях.

В таких категориях, как головоломки, гораздо больше логики, чем нужно применить и объединить, чтобы ответить на некоторые вопросы.

В других категориях с низкой оценкой, таких как телевидение и видеоигры, я предполагаю, что, поскольку сам контент не находится в индексируемом/потребляемом формате, ChatGPT не имеет о нем столько информации.

ChatGPT сами не играли в игры и не смотрели телепередачи. Там может быть сторонний контент О том, что произошло в шоу, но вместо этого содержание шоу будет упоминаться вскользь.

В категориях с высокой оценкой все категории, как правило, предназначены для содержания, которое было задокументировано в виде текста задолго до того, как у нас появились аудио, видео и т. д.

В категории "География" и "История" есть контент, который существовал задолго до того, как у нас появились технологии и хранилище для регулярного хранения таких вещей, как телевизионный контент.

При всем при этом правильность 66% все еще довольно впечатляет, учитывая такой широкий выбор тем. Но, как мы узнали, иногда ответы якобы правильные, но объяснения не всегда правильные.

Я не думаю, что ChatGPT или любая большая языковая модель, которая у нас есть прямо сейчас, является сильным ИИ или общим ИИ, как некоторые статьи хотят, чтобы вы в это верили.

Я не думаю, что какие-либо большие языковые модели, которые по своей природе являются генеративными, должны заменить традиционные поисковые системы, которые открывают высококачественную информацию. Существуют поисковые системы, такие как you.com< /a>, которые изучают перекресток, но эта технология еще только начинается!


Между разработкой и окончательным запуском этот эксперимент стоил мне около 100 долларов США, чтобы ответить на все вопросы по API GPT-3. Буду бесконечно признателен, если вы купите мне кофе.

Если компания захочет спонсировать работу, было бы интересно попробовать разные подсказки, рандомизировать порядок ответов, попробовать запустить тесты несколько раз и т. д.

Я также хотел бы провести тот же тест с полным набором вопросов об опасности, но, учитывая, насколько дорогим был этот тест, выполнение теста над набором вопросов почти в 10 раз больше было бы слишком сложно для меня прямо сейчас.

Как всегда, весь код, который я написал для этого, доступен. Ознакомьтесь с кодом этого поста, включая ответы ChatGPT, щелкнув здесь.


Фото Нгуен Данг Хоанг Нху на Unsplash


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE