
Наборы данных по медицинским и юридическим текстовым данным для задач бинарной классификации
11 июня 2025 г.Авторы:
(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);
(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);
(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).
Таблица ссылок
Аннотация и 1 введение
1.1 Мотивация
2 Связанная работа и 2,1 методы подсказки
2.2 Внутреннее обучение
2.3 модели интерпретируемость
3 Метод
3.1 Создание вопросов
3.2 Подсказка LLM
3.3. Сорбализация ответов и 3.4 Обучение классификатора
4 данные и 4.1 клинические испытания
4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата
4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)
4.6 Набор данных Necure-Tos
5 экспериментов
6 результатов
7 Обсуждение
7.1 Последствия для интерпретации модели
7.2 Ограничения и будущая работа
Воспроизводимость
Подтверждение и ссылки
Вопросы, используемые в методе ICE-T
4.4 Данные по медицинскому здоровью
Этот набор данных содержит набор предложений, связанных с медицинской доменой, каждый из которых сопровождается этикеткой, указывающей, предлагает ли предложение медицинское советы. Метки могут быть одной из трех ценностей: «сильный совет», «слабый совет» или «нет советов». (Yu et al., 2019). Для целей задачи бинарной классификации мы объединили «Сильные советы» и «слабые советы» в один класс: «Совет». Набор данных включает в себя приблизительно 8000 образцов, которые были разделены на наборы обучения и тестирования после правила 80/20.
4.5 Данные Европейского суда по правам человека (ECTHR)
Европейский суд по правам человека (ЕЦПЧ) слушает утверждения о том, что государство нарушило положения о правах человека Европейской конвенции о правах человека (ECHR) (Chalkidis et al., 2019). Набор данных для каждого случая включает в себя ряд фактов в форме параграфов, извлеченных из описания дела. Кроме того, каждый случай связан с конкретными статьями Европейской конвенции о правах человека (ECHR), которые могут быть нарушены. Во многих случаях несколько статей нарушаются одновременно. Чтобы сделать это проблемой бинарной категоризации, мы приняли бинарную систему маркировки. Случаи помечены «1», если какие -либо статьи ECHR нарушены, и «0», если нарушения не обнаруживаются.
4.6 Набор данных Necure-Tos
Набор данных Necure-TOS содержит 50 соответствующих онлайн-контрактов потребителей, то есть условия обслуживания (TOS) с онлайн-платформ (например, YouTube, eBay, Facebook и т. Д.). Каждое соглашение было аннотировано на уровне предложения для выявления различных типов потенциально несправедливых положений, которые могут нарушать права пользователей в соответствии с европейским законодательством потребителей. Этот набор данных классифицирует несправедливые термины на восемь различных групп: арбитраж, односторонние изменения, удаление контента, юрисдикция, выбор закона, ограничение ответственности, одностороннее прекращение и договор с помощью (Lippi et al., 2019). Чтобы преобразовать анализ в проблему бинарной классификации, мы переигрываем каждое предложение как «несправедливое», если оно содержит какой-либо тип идентифицированных несправедливых терминов, или «не несправедливо», если оно не попадает в эти категории.
Эта статья есть
Оригинал