ИИ все еще не может объяснить шутку - или метафору - как человеческая банка

ИИ все еще не может объяснить шутку - или метафору - как человеческая банка

19 июня 2025 г.

Авторы:

(1) Arkadiy Saakyan, Колумбийский университет (a.saakyan@cs.columbia.edu);

(2) Шреяс Кулкарни, Колумбийский университет;

(3) Тухин Чакрабарти, Колумбийский университет;

(4) Смаранда Мюресан, Колумбийский университет.

Примечание редактора: это часть 5 из 6 исследований, рассматривая, насколько хорошо крупные модели искусственного интеллекта обрабатывают образный язык. Прочитайте остальное ниже.

  • Аннотация и 1. Введение
  • 2. Связанная работа
  • 3. v-Flute Задача и набор данных
    • 3.1 Метафоры и сравнения
    • 3.2 идиомы и 3,3 сарказма
    • 3.4 Юмор и 3,5 Статистика набора данных
  • 4. Эксперименты и 4.1 модели
    • 4.2 Автоматические метрики и 4.3 результаты автоматической оценки
    • 4.4 Человеческий базовый уровень
  • 5. Оценка человека и анализ ошибок
    • 5.1 Как модели работают в соответствии с людьми?
    • 5.2 Какие ошибки допускают модели? и 5.3 Насколько хорошо оценка объяснения предсказывает человеческое суждение о адекватности?
  • 6. Выводы и ссылки
    • Статистика набора данных
    • B API модели гиперпараметры
    • C тонкая настройка гиперпараметров
    • D подсказки для LLMS
    • E Модель таксономия
    • F By-Phenomenon Performance
    • G Аннотаторский набор и компенсация

5 Оценка человека и анализ ошибок

Мы проводим человеческую оценку сгенерированного объяснения, чтобы более надежно оценить их качество и выявлять ключевые ошибки в понимании мультимодального фигуративного языка. Мы набираем двух экспертных аннотаторов с опытом работы в лингвистике для задачи и выборки 95 случайных экземпляров из набора тестов. Для каждого случая мы сначала предоставляем аннотаторам изображение, претензии и ссылки объяснения и просим аннотаторов выбрать правильную метку. Если аннотатор преуспевает, он может просмотреть остальную часть задачи, которая состоит из 3 объяснений из наших лучших моделей F1@0 в каждой категории: llavaevil-vf, llava-34b-sg, gpt-4-5shot. Объяснения принимаются как для правильных, так и для неправильных модельных прогнозов. Для каждого объяснения мы спрашиваем, является ли объяснение адекватным (точным, правильным, полным и кратким). Если нет, мы просим их определить один из трех основных типов ошибок на основе следующей таксономии:

• Галлюцинация:Объяснение не является верным изображению, указывая на трудности с основным визуальным пониманием (см. Прогнозирование тупого кончика, когда наконечник карандаша на самом деле острый в ряду 1 таблицы 5).

• Неусовестные рассуждения:Приговоры не придерживаются естественной логики или нарушают здравый смысл (например, заключение, чем стрела вверх, и много денег подразумевает экономический кризис, см. В строке 3).

• Неполные рассуждения:Хотя в целом объяснение имеет смысл, оно не учитывает основные причины собственности, почему изображение влечет за собой или противоречит требованию (например, не учитывает фигуративную часть в изображении, см. Строка 2).

• Слишком словес:Объяснение слишком многословное до такой степени, что оно мешает, а не поможет определить правильную метку.

5.1 Как модели работают в соответствии с людьми?

В таблице 6 мы показываем адекватность и показатели предпочтений для объяснений из 3 систем, где объяснение считается адекватным, если оба аннотатора согласились с ним, и неадекватны, если оба согласились. Процент предпочтений также принимается среди случаев, когда аннотаторы согласились с тем, что объяснение модели является предпочтительным среди всех достаточных объяснений. Средний IAA с использованием κ Cohen составляет 0,47, что указывает на умеренное согласие (Cohen, 1960). Мы наблюдаем, что модель учителя ведет с точки зрения адекватности объяснений и показателей предпочтений, как и ожидалось, от более крупной системы, оснащенной более высокими качественными рассуждениями и возможностями генерации. Тем не менее, только половина его объяснений считается адекватным. Это дополнительно подтверждает, что, несмотря на впечатляющие результаты на оценках F1@0, модели еще не способны создавать адекватные текстовые объяснения во многих случаях.

5.2 Какие ошибки допускают модели?

Мы также анализируем, чтобы понять, какой тип ошибок совершает каждая модель, когда они считаются недостаточными в приведенной выше оценке. На рисунке 7 мы иллюстрируем нормализованную частоту типов ошибок, когда оба аннотатора согласны с тем, что объяснение не является адекватным (то есть из всех ошибок для этой модели, какой процент является каждый тип ошибки?). В общем, аннотаторы не считали условно

Table 5: Examples of error types generated explanations.

Figure 7: Normalized frequency of main error types in the explanation by model.

Основная проблема систем. Для GPT-4 ведущим типом ошибки является галлюцинация, что указывает на необходимость улучшения верного распознавания изображений даже в самых продвинутых моделях. Для тонкой настройки модели и LLAVA-34B-SG, основным типом ошибки является необоснованное рассуждение, что указывает на то, что для моделей трудно рассуждать о мультимодальных фигуративных входах.

5.3 Насколько хорошо оценка объяснения предсказывает человеческое суждение о адекватности?

Мы исследуем, может ли предложенная оценка объяснения охватить человеческое суждение о адекватности объяснения. Мы собираем все случаи, когда оба аннотатора согласились с адекватностью суждения для объяснения. Мы оцениваем, может ли показатель объяснений, описанный в разделе 4.2, может служить хорошим предиктором для суждения о человеческой адекватности. Мы обнаруживаем, что площадь под кривой точно-рекордного составляет 0,79, а максимальный балл F1 составляет 0,77, что можно получить при пороге показателя объяснения 0,53. Следовательно, мы используем этот порог, чтобы сообщить о результатах в таблице 3. Мы также используем порог 0,6, поскольку он максимизирует F1, так что как точность, так и отзыв выше 0,75.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE