Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

19 июня 2025 г.

Авторы:

(1) Arkadiy Saakyan, Колумбийский университет (a.saakyan@cs.columbia.edu);

(2) Шреяс Кулкарни, Колумбийский университет;

(3) Тухин Чакрабарти, Колумбийский университет;

(4) Смаранда Мюресан, Колумбийский университет.

Примечание редактора: это часть 2 из 6 исследований, рассматривая, насколько хорошо крупные модели искусственного интеллекта обрабатывают фигуративный язык. Прочитайте остальное ниже.

  • Аннотация и 1. Введение
  • 2. Связанная работа
  • 3. v-Flute Задача и набор данных
    • 3.1 Метафоры и сравнения
    • 3.2 идиомы и 3,3 сарказма
    • 3.4 Юмор и 3,5 Статистика набора данных
  • 4. Эксперименты и 4.1 модели
    • 4.2 Автоматические метрики и 4.3 результаты автоматической оценки
    • 4.4 Человеческий базовый уровень
  • 5. Оценка человека и анализ ошибок
    • 5.1 Как модели работают в соответствии с людьми?
    • 5.2 Какие ошибки допускают модели? и 5.3 Насколько хорошо оценка объяснения предсказывает человеческое суждение о адекватности?
  • 6. Выводы и ссылки
    • Статистика набора данных
    • B API модели гиперпараметры
    • C тонкая настройка гиперпараметров
    • D подсказки для LLMS
    • E Модель таксономия
    • F By-Phenomenon Performance
    • G Аннотаторский набор и компенсация

Текстовое влечение (Maccartney and Manning, 2008; Bowman et al., 2015) и визуальное введение (Xie et al., 2019) были предложены задачи для измерения языка и мультимодального понимания. Тем не менее, модели, обученные просто повысить точность метки этих данных, могут быть хрупкими и страдать от ложных корреляций (Poliak et al., 2018; Gururangan et al., 2018; McCoy et al., 2019; Gardner et al., 2021). Наборы данных, такие как E-Snli (Camburu et al., 2018) и E-Snli-Ve (Kayser et al., 2021), увеличивают существующие наборы данных с объяснениями естественного языка и обучают модели не только предсказать этикетку, но и генерировать текстовое объяснение по причине предсказания. Такой подход был дополнительно принят для различных задач, таких как здравый смысл (Rajani et al., 2019; Aggarwal et al., 2021) и понимание социальных норм (Chwang et al., 2023) среди других (Wiegreffe and Marasovic, 2021). Этот подход был расширен для оценки возможностей LLMS по пониманию фигуративного языка с помощью набора данных флейты (Chakrabarty et al., 2022). Флейта формирует фигуративное понимание языка как объяснимое задание текстового введения. Недавний прогресс в мультимодальных моделях (Li et al., 2022; Alayrac et al., 2022; Openai, 2023; Team et al., 2023; Liu et al., 2023b; Anpropic, 2024) побуждает нас к оценкам, схожим способностям, а также на протяженности на мультимодальную обстановку, проверяя понимание нелитального значения как на изображениях, так и на текстах. Мы представляем эквивалент набора данных флейты для визуальной модальности: V-Flute.

Ряд предыдущих работ был сосредоточен на моделировании фигуративных явлений за пределами текста. Chakrabarty et al. (2023) Используйте структуру совместной работы Human-AI для генерации визуальных метафоров из лингвистических метафоров (набор данных Haivmet) и предложите задачу визуального въезда в качестве внешней оценки качества набора данных. Набор данных содержит изображения, претензии и этикетки, но нет текстовых объяснений. Yosef et al. (2023) предложил эталон (IRFL), в котором дана идиома, метафора или сравнение, модель должна различать, какое из четырех связанных изображений подразумевает образное значение выражения. Этот набор данных фокусируется на образном значении в текстовом модальности и не содержит текстовых объяснений. Также была работа по пониманию мультимодального сарказма с объяснениями (Desai et al., 2022), в основном содержащий шумный текст, сгенерированный пользователем, и похватываемые объяснения. Другая линия работы была сосредоточена на понимании юмора с мультимодальными моделями. Memecap (Hwang and Shwartz, 2023) - это набор данных для понимания мемов. Hessel et al. (2023) выпустить корпус аннотированных записей о конкурсе под надписью в Нью -Йорке, где цель будет достигнута

Table 1: V-FLUTE dataset composition: 5 figurative phenomena, source datasets, and our contributions. E denotes number of entailment instances, C - contradiction.

с юмористическими подписями для изображения, с высококачественными объяснениями того, почему подпись юмористическая. Набор данных относительно ограничен по размеру, содержащий только 520 уникальных экземпляров в его учебном наборе. Мы используем все эти тесты для создания V-Flute.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE