
Разнообразные наборы НЛП для реальной классификации текста
11 июня 2025 г.Авторы:
(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);
(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);
(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).
Таблица ссылок
Аннотация и 1 введение
1.1 Мотивация
2 Связанная работа и 2,1 методы подсказки
2.2 Внутреннее обучение
2.3 модели интерпретируемость
3 Метод
3.1 Создание вопросов
3.2 Подсказка LLM
3.3. Сорбализация ответов и 3.4 Обучение классификатора
4 данные и 4.1 клинические испытания
4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата
4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)
4.6 Набор данных Necure-Tos
5 экспериментов
6 результатов
7 Обсуждение
7.1 Последствия для интерпретации модели
7.2 Ограничения и будущая работа
Воспроизводимость
Подтверждение и ссылки
Вопросы, используемые в методе ICE-T
4 данные
В этой работе используются данные, собранные из ряда источников, пытаясь включить различные домены и длину документов. Данные, используемые в экспериментах, описанных здесь, охватывают области медицины, права, климатической науки и политики. Он также включает в себя документы различных размеров, от коротких твитов до обширных юридических документов и подробных медицинских карт.
4.1 Клинические испытания
Этот набор данных поступает из 1 -го трека национальных клинических проблем NLP (N2C2) 2018 года [3]. Он предназначен для того, чтобы помочь в выявлении пациентов в корпусе продольных медицинских карт, которые либо соответствуют или не соответствуют предопределенным критериям отбора. Эти критерии используются для определения права пациента для включения в клинические испытания. (Stubbs et al., 2019). Данные состоит из аннотированных американских английских клинических повествований для 288 пациентов в зависимости от того, соответствовали ли они набором конкретных критериев. Всего существует 13 критериев, и они включают в себя: наркотики: злоупотребление наркотиками, текущее или прошлое; Алкоголь: текущее употребление алкоголя в течение еженедельных рекомендуемых пределов; Английский: пациент должен говорить по -английски; Делайца: Пациент должен принимать собственные медицинские решения; Брюшная полость: история внутрибрюшной хирургии, резекции мелкой или большой кишки или обструкции тонкой кишки; Основной диабет: основные осложнения, связанные с диабетом; Advanced-CAD: передовые сердечно-сосудистые заболевания (CAD); Mi-6MOS: MI за последние 6 месяцев; Кето-1: диагноз кетоацидоза в прошлом году; DietSupp-2MOS: приобрел диетическую добавку (исключая витамин D) за последние 2 месяца; ASP-FOR-MI: использование аспирина для предотвращения MI; HBA1C: любое значение гемоглобина A1C (HBA1C) от 6,5% до 9,5%; и креатинин: сывороточный креатинин> верхний предел нормального. Для каждой медицинской карты каждый критерий может иметь одно из двух потенциальных значений: «встретиться» или «не встретиться». Значение, основанное на том, выполнил ли человек определенный критерий. Данные разделены на 70/30 на обучающих и тестах соответственно. Тренировочный тест содержит 202 медицинской карты, в то время как набор тестирования содержит 86 записей. Обратите внимание, что для некоторых критериев соотношение между положительным и отрицательным классом очень дисбалансировано. В нашем анализе мы исключили критерий кето-1-летнего, поскольку он не содержит положительных образцов в испытательном наборе и только одна положительная выборка в тренировочном наборе. [4]
4.2 Catalonia Independence Corpus
Этот набор данных содержит корпус на испанском языке, который состоят из аннотированных сообщений Twitter для автоматического обнаружения позиций (Zotova et al., 2020). Он включает в себя данные, собранные в течение 12-дневного промежутка в феврале и марте 2019 года, от твитов, происходящих в Барселоне. Первоначально каждый твит разделен на один из трех классов: против, предпочтение и нейтральный. Эти классы представляют позицию пользователя к теме независимости Каталонии. Для целей бинарной классификации и для облегчения более эффективных сравнений с другими наборами данных мы пропустили нейтральный класс, сосредоточившись исключительно на категориях против и предпочтительнее.
4.3 Корпус обнаружения климата
Этот набор данных содержит связанные с климатом параграфы, извлеченные из финансовых раскрытий компаний. Текст был собран из корпоративных годовых отчетов и отчетов о устойчивом развитии. Параграфы из этих отчетов выбраны вручную, а затем аннотируются как да (связанный с климатом) или нет (не климатор) (Webersinke et al., 2021).
Эта статья есть
[3] https://n2c2.dbmi.hms.harvard.edu/
[4] В нашей методологии используются классификаторы, которые обучены на основе распределения данных. В результате мы последовательно достигаем пиковых метрик классификации, что не является реалистичным результатом, поскольку класс меньшинства отсутствует в тестовом наборе данных.
Оригинал