Как частота концепции влияет на точность изображения ИИ

Как частота концепции влияет на точность изображения ИИ

10 июля 2025 г.

Аннотация и 1. Введение

2 концепции в предварительных данных и количественная частота

3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка

3.2

4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.

4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных

5 Дополнительные идеи от частот концепции предварительного подготовки

6 Проверка хвоста: пусть он виляет!

7 Связанная работа

8 Выводы и открытые проблемы, подтверждения и ссылки

Часть я

Приложение

A. Частота концепции является прогнозирующей производительности в разных стратегиях

B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения

C. Частота концепции является прогнозирующей производительности для моделей T2I

D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей

E. Экспериментальные детали

F. Почему и как мы используем Ram ++?

G. Подробная информация о результатах степени смещения

H. T2I Модели: оценка

I. Результаты классификации: пусть это виляет!

C Концепция частота является прогнозирующей производительности для моделей T2I

Мы расширяем результаты рис. 3 с рис. 11-15. Как и в случае с рис. 3 из -за высокой частоты концепции, тенденция масштабирования слабее. Кроме того, мы видим несоответствие в тенденциях для оценки с рейтингом человека, полученных от Хейма [71], поэтому мы проводим небольшую масштабную оценку человека, чтобы проверить их.

Учитывая актуальность общества [23], мы решили проверить стабильную диффузию [96] (v1.4) на создание общественных деятелей. Мы соскребили 50 000 человек с «20230123-All» Wikidata JSON Damp, фильтрации для сущностей, перечисленных как «человек» [8], и скрещивали эталонное изображение для исследования человека для каждого человека, если было доступно изображение. После вычисления частоты концепции из текстовых подписей Laion-Aestetics (с использованием суффиксного массива [70]) мы обнаружили, что в предварительном наборе данных присутствовали ≈10 000 человек. Обратите внимание, что для обеспечения того, чтобы имена людей рассматривались как отдельные слова, мы вычислили частоту для строк формата «{Entity}». Затем мы случайным образом выбираем 360 человек (для которых было доступно эталонное изображение) нормализовано по частоте [22] для исследования человека. Для генерации изображений со стабильной диффузией мы использовали подсказку «Headshot of {Entity}», чтобы указать на модель, что «{Entity}» относится к человеку с именем «{Entity}» [50].

Мы оценили выравнивание текста изображения с человеческим исследованием с 6 участниками, где каждому участнику было назначено 72 образца; Для согласованности из 360 общих образцов мы обеспечили, чтобы 10% были назначены 3 участникам. Предоставляя справочное изображение, участников спросили, точно ли образец изображает подсказку. Были предоставлены три варианта: «Да» (оценка = 1), «несколько» (оценка = 0,5) и «нет» (оценка = 0.). Точность была рассчитана путем усреднения результатов.

Как видно на рис. 16, мы наблюдаем логарифмическую тенденцию между частотой концепции и ноль-выстрелом. Таким образом, мы наблюдаем, чтоЛог-линейная тенденция между концептуальной частотой и нулевым выстрелом последовательно сохраняется даже для моделей T2I.

Figure 11: Log-linear relationships between concept frequency and T2I Max aesthetic scores. Across all tested models pretrained on the LAION-Aesthetics dataset, we observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Figure 12: Log-linear relationships between concept frequency and T2I human aesthetic scores. Across all tested models pretrained on the LAION-Aesthetics dataset, we observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Figure 13: Log-linear relationships between concept frequency and T2I human alignment scores. Across all tested models pretrained on the LAION-Aesthetics dataset, we observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Figure 14: Log-linear relationships between concept frequency and T2I Avg. CLIP scores. Across all tested models pretrained on the LAION-Aesthetics dataset, we observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Figure 15: Log-linear relationships between concept frequency and T2I Max CLIP scores. Across all tested models pretrained on the LAION-Aesthetics dataset, we observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Figure 16: Log-linear relationship between concept frequency and T2I human evaluation for text-image alignment for people concepts. We observe a consistent linear relationship between T2I zero-shot performance on a concept and the log-scaled concept pretraining frequency.

Авторы:

(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;

(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;

(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;

(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;

(5) Филипп Х.С. Торр, Оксфордский университет;

(6) Адель Биби, Оксфордский университет;

(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;

(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE