SuperPowers LLM: извлечение значимого контента из грязных транскриптов

SuperPowers LLM: извлечение значимого контента из грязных транскриптов

7 июня 2025 г.

Большинство внимания вокруг крупных языковых моделей (LLMS) сосредоточилось на вариантах использования заголовков: помощниками по кодированию ИИ, чат-ботами и обобщению электронной почты. Но я недавно играл с менее обсуждаемой сверхдержавой LLM, способностью извлекать структурированную, полезную информацию из неструктурированного, грязного текста.

Эта способность имеет серьезные последствия для всех, кто работает с большим количеством текста. И это именно то, с чем я экспериментировал в проектеPracticeProblems.orgСайт, который помогает студентам обнаруживать и решать математические проблемы, наблюдая, как настоящие люди проходят через решения.

Чтобы найти эти проблемы, я должен быть в состоянии извлечь проблемы по математике из видео -транскриптов на YouTube. Это то, что, когда это сделано людьми, кропотливо скучно и утомительно.

Но для LLM с хорошей операцией результаты шокирующе хороши. Представьте себе, что вы пытаетесь извлечь то, что матрица 3x3 кто -то находит собственные значения, просто прочитав стенограмму из его решения, без явного чтения значений. Это было бы сложно для человека, но каким -то образом эти последние LLM могут понять это ... иногда.

Задача заключается в том, что стенограммы часто являются неполными. В стенограмме просто не хватает информации, чтобы реконструировать то, какая проблема решается. Математическая проблема может быть показана на экране, но никогда не читается вслух. Или это может быть описано в фрагментах, которые являются когерентными только при сшивании вместе.

Это означает, что часто LLM просто не может извлечь значимую проблему из стенограммы. Я обнаружил, что когда я сказал LLM, что это должно извлечь только значимые проблемы, это будет слишком осторожно и, возможно, только извлекать 2 или 3 проблемы из видео, в котором было 20.

Когда я сказал ему извлечь что -то, напоминающее проблему, это галлюцинировало бы, вызывая проблемы, которых не было, и придает слишком много ложных срабатываний, чтобы быть полезными. Таким образом, были необходимы более продвинутые методы подсказования.

Оценки доверия

«Извлеките как можно больше проблем, и дайте каждому из них оценку достоверности от 0 до 10.»

Это имело два преимущества. Во -первых, это побудило модель попытаться извлекать вместо того, чтобы вообще пропустить потенциальную проблему. Во-вторых, это дало мне способ ранжировать и фильтровать результаты после обработки.

Флаги

Рассказывая модель «Не галлюцинация», на самом деле не работает, но удивительно, спрашивая после того, что «вы делали это?» На самом деле работает довольно хорошо (по крайней мере, в этом варианте использования). Ключевое, что я обнаружил, работая с LLMS, заключается в том, что вместо того, чтобы просто говорить подсказку «не делать x поведение» после того, как он начинает вести себя плохо, он вместо этого дает ему возможность устанавливать флаг, когда он делает плохое поведение. Затем, впоследствии, вы можете вручную проанализировать плохой выход.

Попросив LLM вывести флаг «notfoundinoriginaltranscript», работал довольно хорошо при определении, когда LLM не смог восстановить проблему, обнаруженную в стенограмме.

Причина, побуждающая LLM к выводу достоверных результатов и флагов для плохих выводов, позволяет LLM «дважды думать» о выводе. Прогноз токена использует как подсказка, так и собственный выход модели, поэтому может быть полезно, что позволяет модели как можно больше выводиться. Я полагаю, что это несколько похоже на цепь мыслей или включение «подумайте по шаг за шагом» в подсказке, где поощрение большего количества результатов токена приводит к лучшей производительности.

Я подозреваю, что эти методы могут быть вполне полезны с кодовыми базами в стиле Rag-стиль, где фрагменты текста, связанные с запросом, извлекаются из базы данных, а затем подаются в контекст LLM, предоставляя любую справочную информацию, которая может потребоваться, чтобы помочь ответить на запрос. Добавление дополнительного уровня извлечения текста, чтобы предоставить более структурированные, значимые данные в LLM, может помочь получить более высокий результат, хотя это может повредить вашему кошельку. 😅


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE