Разнообразные наборы НЛП для реальной классификации текста

Разнообразные наборы НЛП для реальной классификации текста

11 июня 2025 г.

Авторы:

(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);

(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);

(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).

Аннотация и 1 введение

1.1 Мотивация

2 Связанная работа и 2,1 методы подсказки

2.2 Внутреннее обучение

2.3 модели интерпретируемость

3 Метод

3.1 Создание вопросов

3.2 Подсказка LLM

3.3. Сорбализация ответов и 3.4 Обучение классификатора

4 данные и 4.1 клинические испытания

4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата

4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)

4.6 Набор данных Necure-Tos

5 экспериментов

6 результатов

7 Обсуждение

7.1 Последствия для интерпретации модели

7.2 Ограничения и будущая работа

Воспроизводимость

Подтверждение и ссылки

Вопросы, используемые в методе ICE-T

4 данные

В этой работе используются данные, собранные из ряда источников, пытаясь включить различные домены и длину документов. Данные, используемые в экспериментах, описанных здесь, охватывают области медицины, права, климатической науки и политики. Он также включает в себя документы различных размеров, от коротких твитов до обширных юридических документов и подробных медицинских карт.

4.1 Клинические испытания

Этот набор данных поступает из 1 -го трека национальных клинических проблем NLP (N2C2) 2018 года [3]. Он предназначен для того, чтобы помочь в выявлении пациентов в корпусе продольных медицинских карт, которые либо соответствуют или не соответствуют предопределенным критериям отбора. Эти критерии используются для определения права пациента для включения в клинические испытания. (Stubbs et al., 2019). Данные состоит из аннотированных американских английских клинических повествований для 288 пациентов в зависимости от того, соответствовали ли они набором конкретных критериев. Всего существует 13 критериев, и они включают в себя: наркотики: злоупотребление наркотиками, текущее или прошлое; Алкоголь: текущее употребление алкоголя в течение еженедельных рекомендуемых пределов; Английский: пациент должен говорить по -английски; Делайца: Пациент должен принимать собственные медицинские решения; Брюшная полость: история внутрибрюшной хирургии, резекции мелкой или большой кишки или обструкции тонкой кишки; Основной диабет: основные осложнения, связанные с диабетом; Advanced-CAD: передовые сердечно-сосудистые заболевания (CAD); Mi-6MOS: MI за последние 6 месяцев; Кето-1: диагноз кетоацидоза в прошлом году; DietSupp-2MOS: приобрел диетическую добавку (исключая витамин D) за последние 2 месяца; ASP-FOR-MI: использование аспирина для предотвращения MI; HBA1C: любое значение гемоглобина A1C (HBA1C) от 6,5% до 9,5%; и креатинин: сывороточный креатинин> верхний предел нормального. Для каждой медицинской карты каждый критерий может иметь одно из двух потенциальных значений: «встретиться» или «не встретиться». Значение, основанное на том, выполнил ли человек определенный критерий. Данные разделены на 70/30 на обучающих и тестах соответственно. Тренировочный тест содержит 202 медицинской карты, в то время как набор тестирования содержит 86 записей. Обратите внимание, что для некоторых критериев соотношение между положительным и отрицательным классом очень дисбалансировано. В нашем анализе мы исключили критерий кето-1-летнего, поскольку он не содержит положительных образцов в испытательном наборе и только одна положительная выборка в тренировочном наборе. [4]

4.2 Catalonia Independence Corpus

Этот набор данных содержит корпус на испанском языке, который состоят из аннотированных сообщений Twitter для автоматического обнаружения позиций (Zotova et al., 2020). Он включает в себя данные, собранные в течение 12-дневного промежутка в феврале и марте 2019 года, от твитов, происходящих в Барселоне. Первоначально каждый твит разделен на один из трех классов: против, предпочтение и нейтральный. Эти классы представляют позицию пользователя к теме независимости Каталонии. Для целей бинарной классификации и для облегчения более эффективных сравнений с другими наборами данных мы пропустили нейтральный класс, сосредоточившись исключительно на категориях против и предпочтительнее.

4.3 Корпус обнаружения климата

Этот набор данных содержит связанные с климатом параграфы, извлеченные из финансовых раскрытий компаний. Текст был собран из корпоративных годовых отчетов и отчетов о устойчивом развитии. Параграфы из этих отчетов выбраны вручную, а затем аннотируются как да (связанный с климатом) или нет (не климатор) (Webersinke et al., 2021).

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


[3] https://n2c2.dbmi.hms.harvard.edu/

[4] В нашей методологии используются классификаторы, которые обучены на основе распределения данных. В результате мы последовательно достигаем пиковых метрик классификации, что не является реалистичным результатом, поскольку класс меньшинства отсутствует в тестовом наборе данных.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE