Наборы данных по медицинским и юридическим текстовым данным для задач бинарной классификации

Наборы данных по медицинским и юридическим текстовым данным для задач бинарной классификации

11 июня 2025 г.

Авторы:

(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);

(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);

(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).

Аннотация и 1 введение

1.1 Мотивация

2 Связанная работа и 2,1 методы подсказки

2.2 Внутреннее обучение

2.3 модели интерпретируемость

3 Метод

3.1 Создание вопросов

3.2 Подсказка LLM

3.3. Сорбализация ответов и 3.4 Обучение классификатора

4 данные и 4.1 клинические испытания

4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата

4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)

4.6 Набор данных Necure-Tos

5 экспериментов

6 результатов

7 Обсуждение

7.1 Последствия для интерпретации модели

7.2 Ограничения и будущая работа

Воспроизводимость

Подтверждение и ссылки

Вопросы, используемые в методе ICE-T

4.4 Данные по медицинскому здоровью

Этот набор данных содержит набор предложений, связанных с медицинской доменой, каждый из которых сопровождается этикеткой, указывающей, предлагает ли предложение медицинское советы. Метки могут быть одной из трех ценностей: «сильный совет», «слабый совет» или «нет советов». (Yu et al., 2019). Для целей задачи бинарной классификации мы объединили «Сильные советы» и «слабые советы» в один класс: «Совет». Набор данных включает в себя приблизительно 8000 образцов, которые были разделены на наборы обучения и тестирования после правила 80/20.

4.5 Данные Европейского суда по правам человека (ECTHR)

Европейский суд по правам человека (ЕЦПЧ) слушает утверждения о том, что государство нарушило положения о правах человека Европейской конвенции о правах человека (ECHR) (Chalkidis et al., 2019). Набор данных для каждого случая включает в себя ряд фактов в форме параграфов, извлеченных из описания дела. Кроме того, каждый случай связан с конкретными статьями Европейской конвенции о правах человека (ECHR), которые могут быть нарушены. Во многих случаях несколько статей нарушаются одновременно. Чтобы сделать это проблемой бинарной категоризации, мы приняли бинарную систему маркировки. Случаи помечены «1», если какие -либо статьи ECHR нарушены, и «0», если нарушения не обнаруживаются.

4.6 Набор данных Necure-Tos

Набор данных Necure-TOS содержит 50 соответствующих онлайн-контрактов потребителей, то есть условия обслуживания (TOS) с онлайн-платформ (например, YouTube, eBay, Facebook и т. Д.). Каждое соглашение было аннотировано на уровне предложения для выявления различных типов потенциально несправедливых положений, которые могут нарушать права пользователей в соответствии с европейским законодательством потребителей. Этот набор данных классифицирует несправедливые термины на восемь различных групп: арбитраж, односторонние изменения, удаление контента, юрисдикция, выбор закона, ограничение ответственности, одностороннее прекращение и договор с помощью (Lippi et al., 2019). Чтобы преобразовать анализ в проблему бинарной классификации, мы переигрываем каждое предложение как «несправедливое», если оно содержит какой-либо тип идентифицированных несправедливых терминов, или «не несправедливо», если оно не попадает в эти категории.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE