machine-learning human-ai-collaboration vision-language-models figurative-comprehension multimodal-entailment visual-metaphors explainable-ai textual-explanations figurative-language-dataset

Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

19 июня 2025 г.

Авторы:

(1) Arkadiy Saakyan, Колумбийский университет (a.saakyan@cs.columbia.edu);

(2) Шреяс Кулкарни, Колумбийский университет;

(3) Тухин Чакрабарти, Колумбийский университет;

(4) Смаранда Мюресан, Колумбийский университет.

Примечание редактора: это часть 2 из 6 исследований, рассматривая, насколько хорошо крупные модели искусственного интеллекта обрабатывают фигуративный язык. Прочитайте остальное ниже.

Таблица ссылок

Аннотация и 1. Введение
2. Связанная работа
3. v-Flute Задача и набор данных
- 3.1 Метафоры и сравнения
- 3.2 идиомы и 3,3 сарказма
- 3.4 Юмор и 3,5 Статистика набора данных
4. Эксперименты и 4.1 модели
- 4.2 Автоматические метрики и 4.3 результаты автоматической оценки
- 4.4 Человеческий базовый уровень
5. Оценка человека и анализ ошибок
- 5.1 Как модели работают в соответствии с людьми?
- 5.2 Какие ошибки допускают модели? и 5.3 Насколько хорошо оценка объяснения предсказывает человеческое суждение о адекватности?
6. Выводы и ссылки
- Статистика набора данных
- B API модели гиперпараметры
- C тонкая настройка гиперпараметров
- D подсказки для LLMS
- E Модель таксономия
- F By-Phenomenon Performance
- G Аннотаторский набор и компенсация

Текстовое влечение (Maccartney and Manning, 2008; Bowman et al., 2015) и визуальное введение (Xie et al., 2019) были предложены задачи для измерения языка и мультимодального понимания. Тем не менее, модели, обученные просто повысить точность метки этих данных, могут быть хрупкими и страдать от ложных корреляций (Poliak et al., 2018; Gururangan et al., 2018; McCoy et al., 2019; Gardner et al., 2021). Наборы данных, такие как E-Snli (Camburu et al., 2018) и E-Snli-Ve (Kayser et al., 2021), увеличивают существующие наборы данных с объяснениями естественного языка и обучают модели не только предсказать этикетку, но и генерировать текстовое объяснение по причине предсказания. Такой подход был дополнительно принят для различных задач, таких как здравый смысл (Rajani et al., 2019; Aggarwal et al., 2021) и понимание социальных норм (Chwang et al., 2023) среди других (Wiegreffe and Marasovic, 2021). Этот подход был расширен для оценки возможностей LLMS по пониманию фигуративного языка с помощью набора данных флейты (Chakrabarty et al., 2022). Флейта формирует фигуративное понимание языка как объяснимое задание текстового введения. Недавний прогресс в мультимодальных моделях (Li et al., 2022; Alayrac et al., 2022; Openai, 2023; Team et al., 2023; Liu et al., 2023b; Anpropic, 2024) побуждает нас к оценкам, схожим способностям, а также на протяженности на мультимодальную обстановку, проверяя понимание нелитального значения как на изображениях, так и на текстах. Мы представляем эквивалент набора данных флейты для визуальной модальности: V-Flute.

Ряд предыдущих работ был сосредоточен на моделировании фигуративных явлений за пределами текста. Chakrabarty et al. (2023) Используйте структуру совместной работы Human-AI для генерации визуальных метафоров из лингвистических метафоров (набор данных Haivmet) и предложите задачу визуального въезда в качестве внешней оценки качества набора данных. Набор данных содержит изображения, претензии и этикетки, но нет текстовых объяснений. Yosef et al. (2023) предложил эталон (IRFL), в котором дана идиома, метафора или сравнение, модель должна различать, какое из четырех связанных изображений подразумевает образное значение выражения. Этот набор данных фокусируется на образном значении в текстовом модальности и не содержит текстовых объяснений. Также была работа по пониманию мультимодального сарказма с объяснениями (Desai et al., 2022), в основном содержащий шумный текст, сгенерированный пользователем, и похватываемые объяснения. Другая линия работы была сосредоточена на понимании юмора с мультимодальными моделями. Memecap (Hwang and Shwartz, 2023) - это набор данных для понимания мемов. Hessel et al. (2023) выпустить корпус аннотированных записей о конкурсе под надписью в Нью -Йорке, где цель будет достигнута

Table 1: V-FLUTE dataset composition: 5 figurative phenomena, source datasets, and our contributions. E denotes number of entailment instances, C - contradiction.

с юмористическими подписями для изображения, с высококачественными объяснениями того, почему подпись юмористическая. Набор данных относительно ограничен по размеру, содержащий только 520 уникальных экземпляров в его учебном наборе. Мы используем все эти тесты для создания V-Flute.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

Таблица ссылок

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему

5 Рабочие процессы агента AI для повторяемого успеха (включен код)

Почему OCR борется со страницами с несколькими колоннами

Все, что я узнал (трудный путь) как начинающий основатель AI SaaS

Categories

Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

Таблица ссылок

2 Связанная работа

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему

5 Рабочие процессы агента AI для повторяемого успеха (включен код)

Почему OCR борется со страницами с несколькими колоннами

Все, что я узнал (трудный путь) как начинающий основатель AI SaaS

Categories