Как обнаружить текст, сгенерированный искусственным интеллектом

Как обнаружить текст, сгенерированный искусственным интеллектом

4 февраля 2023 г.

Тест Тьюринга на тестах Тьюринга

<цитата>

TL;DR: новый инструмент для обнаружения ИИ. сгенерированные тексты.

Текстовые генераторы и текстовые детекторы похожи на игру 😾кошки-мышки🐁.

🤖Инструменты искусственного интеллекта и особенно модели GPT заменяют рабочие места.

👨‍💻Даже плохих программистов скоро заменят.< /p>

Было несколько искусственного интеллекта инструментов для борьбы с плагиатом.

Теперь популярная модель ChatGPT от open.ai выпустили собственный.

Полная запись в блоге здесь:

https://openai.com/blog/new-ai- классификатор-для-указания-ai-письменного-текста/


Давайте попробуем:

1. Проверить мое исходное объяснение

(Я написал это исходя из собственного опыта, не читая ChatGPT' объяснение)

Как обнаружить сгенерированный AI текст.

Искусственный интеллект может генерировать тексты с помощью предварительно обученных моделей.

Эти модели основаны на общедоступных текстах и ​​могут создавать знания, предсказывая отношения между понятиями.

Синтетические тексты, сгенерированные искусственным интеллектом, дают факты без цитирования источников. Иногда они не очень глубоки в объяснениях, если только нам не требуется уточнение.

Простой способ обнаружить сгенерированные тексты — сравнить несколько известных генераторов и попросить их написать нужный текст.

Еще один совет: добавить несколько грамматических ошибок, чтобы увидеть, понимает ли инструмент свой набор данных, поскольку только люди допускают ошибки.

Если вы прочтете множество текстов, созданных искусственным интеллектом, вы заметите, что в них используются одни и те же грамматические шаблоны.

Вы можете поручить генераторам настроить таргетинг на другую аудиторию, использовать активные залога и т. д.

Затем вы можете измерить расстояние между словами, общие слова и т. д.

После того, как вы сравните его с предсказанным порогом, вы сможете проверить, насколько мы уверены, что текст не был сгенерирован человеком.


Я один написал приведенный выше текст, и после использования нескольких помощников по письму, таких как HemingwayApp или Grammarly, я поместил его в совершенно новый инструмент < a href="https://platform.openai.com/ai-text-classifier">здесь.

<цитата>

Результат: классификатор считает, что текст вряд ли создан искусственным интеллектом. 😺

Я прошел тест Тьюринга. 😺🧠

Масштаб:

«Маловероятно, что создано ИИ» соответствует пороговому значению классификатора <0,1. Около 5 % текста, написанного человеком, и 2 % текста, сгенерированного искусственным интеллектом из нашего набора задач, имеют этот ярлык.

«Маловероятно, что сгенерирован ИИ» соответствует порогу классификатора от 0,1 до 0,45. Около 15 % текста, написанного человеком, и 10 % текста, сгенерированного ИИ, из нашего набора задач имеют этот ярлык.

«Неясно, написано ли AI» соответствует порогу классификатора от 0,45 до 0,9. Около 50 % текста, написанного человеком, и 34 % текста, сгенерированного искусственным интеллектом из нашего набора задач, имеют этот ярлык.

«Возможно, сгенерировано ИИ» соответствует порогу классификатора от 0,9 до 0,98. Около 21 % текста, написанного человеком, и 28 % текста, сгенерированного искусственным интеллектом из нашего набора задач, имеют этот ярлык.

«Вероятно, сгенерировано ИИ» соответствует порогу классификатора> 0,98. Около 9 % текста, написанного человеком, и 26 % текста, сгенерированного искусственным интеллектом из нашего набора задач, имеют этот ярлык.

2. Ознакомьтесь с объяснением ChatGPT

Я: Объясните, как определить текст, сгенерированный ИИ

ChatGPT: Обнаружение текста, созданного ИИ, может быть сложной задачей, но есть несколько методов, которые можно использовать:

Распознавание образов. В тексте, сгенерированном искусственным интеллектом, часто встречаются шаблоны в структуре предложений, использовании языка и выборе слов, которые могут быть различимы по сравнению с текстом, написанным человеком.

Статистический анализ. Текст, сгенерированный искусственным интеллектом, можно анализировать на наличие определенных статистических характеристик, таких как частота символов и слов, а также распределение n-грамм, которые отличаются от текста, написанного человеком.

Оценка человека. В некоторых случаях эксперты-люди могут просмотреть текст и определить, был ли он написан человеком или сгенерирован искусственным интеллектом, исходя из своего опыта и знаний.

Использование моделей ИИ: модели ИИ можно обучить распознавать текст, сгенерированный ИИ, с помощью размеченного набора данных текста, написанного человеком, и текста, сгенерированного ИИ. Затем эту модель можно использовать для идентификации сгенерированного ИИ текста в новом невидимом тексте.

Стоит отметить, что технология искусственного интеллекта продолжает развиваться, и разрабатываются новые методы генерации текста, поэтому эти методы не всегда могут быть надежными.


Хорошее объяснение. Воспользуемся инструментом снова.

<цитата>

Результат: классификатор считает, что текст, возможно, сгенерирован искусственным интеллектом.😂

Модель имеет > 0,9 точности, которую сгенерировал искусственный интеллект.

Это было ожидаемо.

3. Посмотрите объяснение в Википедии

Давайте вырежем и вставим эту статью.

«Генерация естественного языка (NLG) — это программный процесс, который создает вывод на естественном языке. Широко цитируемый обзор методов NLG описывает NLG как «подобласть искусственного интеллекта и компьютерной лингвистики, связанную с созданием компьютерных систем, которые могут создавать понятные тексты на английском или других человеческих языках из некоторого лежащего в основе неязыкового представления информации ". .

Хотя общепризнано, что результатом любого процесса NLG является текст, существуют некоторые разногласия по поводу того, должны ли вводные данные системы NLG быть нелингвистическими. Общие применения методов NLG включают создание различных отчетов, например отчетов о погоде и пациентах; подписи к изображениям; и чат-боты.

Автоматизированный NLG можно сравнить с процессом, который люди используют, когда они превращают идеи в письмо или речь. Психолингвисты предпочитают термин «производство языка» для обозначения этого процесса, который также можно описать математическими терминами или смоделировать на компьютере для психологических исследований.

Системы NLG также можно сравнить с трансляторами искусственных компьютерных языков, такими как декомпиляторы или транспилеры, которые также создают удобочитаемый код, сгенерированный из промежуточного представления.

Человеческие языки, как правило, значительно сложнее и допускают гораздо большую двусмысленность и разнообразие выражений, чем языки программирования, что делает NLG более сложной задачей».


<цитата>

Результат: классификатор считает текст нечетким, если он создан искусственным интеллектом. 📚

Достоверность находится в диапазоне от 0,45 до 0,9.

Глядя на историю страницы, мы видим несколько людей и не так много ботов.

Я пришел к выводу, что ChatGPT был частично загружен текстом, поэтому он измеряет переобучение.

4. Проверить ChatGPT с помощью Human Edit

Я взял текст, сгенерированный ChatGPT, и сам отредактировал его с помощью инструментов редактора.


Обнаружение текста, созданного ИИ, может оказаться сложной задачей, но вы можете использовать несколько методов.

Вы также можете использовать модели ИИ, обучаясь распознавать текст, сгенерированный ИИ, с помощью помеченного набора данных текста, написанного человеком и сгенерированного ИИ.

Вы можете использовать распознавание образов, поскольку текст, сгенерированный искусственным интеллектом, часто демонстрирует шаблоны в структуре предложений, использовании языка и выборе слов, которые могут отличаться от текста, написанного человеком.

Кроме того, существует человеческая оценка, когда в некоторых случаях люди-эксперты могут просмотреть текст и определить, был ли он написан человеком, основываясь на своем опыте и знаниях.

Вы также можете использовать инструмент под названием «Статистический анализ», чтобы проверить сгенерированный ИИ текст на наличие определенных статистических характеристик, таких как частота символов и слов, а также распределение n-грамм, которые отличаются от текста, написанного человеком.

С помощью модели можно идентифицировать сгенерированный ИИ текст в новом и невидимом тексте.

Наконец, технологии искусственного интеллекта быстро развиваются, и появляются новые методы генерации текста, которые не всегда могут быть надежными.


<цитата>

Результат: классификатор считает, что текст, возможно, создан искусственным интеллектом. 👿

Мне не удалось обмануть систему.

5. Проверьте мои предыдущие статьи

Я использовал этот инструмент для проверки многих своих статей:

ChatGPT: удивительный учитель 25-летнего старшего программиста

<цитата>

Результат: классификатор считает, что текст вряд ли создан искусственным интеллектом. 😃

Объясните на 5 уровнях сложности: ChatGPT

<цитата>

Результат: классификатор считает текст нечетким, если он создан искусственным интеллектом.

Это точно. Я «поговорил» с ChatGPT, чтобы получить некоторые идеи. 😳

Почему GitHub Copilot не представляет угрозы для вашей работы

<цитата>

Результат: классификатор считает, что текст вряд ли создан искусственным интеллектом. 😃

☝️ Вы можете попробовать свои собственные статьи!

Заключительные мысли

Это еще один замечательный инструмент от Open.ai.

На официальной странице есть очень интересные сведения о точности, детерминизме и оценке.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE