
Как частота концепции влияет на точность изображения ИИ
10 июля 2025 г.Таблица ссылок
Аннотация и 1. Введение
2 концепции в предварительных данных и количественная частота
3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка
3.2
4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.
4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных
5 Дополнительные идеи от частот концепции предварительного подготовки
6 Проверка хвоста: пусть он виляет!
7 Связанная работа
8 Выводы и открытые проблемы, подтверждения и ссылки
Часть я
Приложение
A. Частота концепции является прогнозирующей производительности в разных стратегиях
B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения
C. Частота концепции является прогнозирующей производительности для моделей T2I
D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей
E. Экспериментальные детали
F. Почему и как мы используем Ram ++?
G. Подробная информация о результатах степени смещения
H. T2I Модели: оценка
I. Результаты классификации: пусть это виляет!
C Концепция частота является прогнозирующей производительности для моделей T2I
Мы расширяем результаты рис. 3 с рис. 11-15. Как и в случае с рис. 3 из -за высокой частоты концепции, тенденция масштабирования слабее. Кроме того, мы видим несоответствие в тенденциях для оценки с рейтингом человека, полученных от Хейма [71], поэтому мы проводим небольшую масштабную оценку человека, чтобы проверить их.
Учитывая актуальность общества [23], мы решили проверить стабильную диффузию [96] (v1.4) на создание общественных деятелей. Мы соскребили 50 000 человек с «20230123-All» Wikidata JSON Damp, фильтрации для сущностей, перечисленных как «человек» [8], и скрещивали эталонное изображение для исследования человека для каждого человека, если было доступно изображение. После вычисления частоты концепции из текстовых подписей Laion-Aestetics (с использованием суффиксного массива [70]) мы обнаружили, что в предварительном наборе данных присутствовали ≈10 000 человек. Обратите внимание, что для обеспечения того, чтобы имена людей рассматривались как отдельные слова, мы вычислили частоту для строк формата «{Entity}». Затем мы случайным образом выбираем 360 человек (для которых было доступно эталонное изображение) нормализовано по частоте [22] для исследования человека. Для генерации изображений со стабильной диффузией мы использовали подсказку «Headshot of {Entity}», чтобы указать на модель, что «{Entity}» относится к человеку с именем «{Entity}» [50].
Мы оценили выравнивание текста изображения с человеческим исследованием с 6 участниками, где каждому участнику было назначено 72 образца; Для согласованности из 360 общих образцов мы обеспечили, чтобы 10% были назначены 3 участникам. Предоставляя справочное изображение, участников спросили, точно ли образец изображает подсказку. Были предоставлены три варианта: «Да» (оценка = 1), «несколько» (оценка = 0,5) и «нет» (оценка = 0.). Точность была рассчитана путем усреднения результатов.
Как видно на рис. 16, мы наблюдаем логарифмическую тенденцию между частотой концепции и ноль-выстрелом. Таким образом, мы наблюдаем, чтоЛог-линейная тенденция между концептуальной частотой и нулевым выстрелом последовательно сохраняется даже для моделей T2I.
Авторы:
(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;
(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;
(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;
(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;
(5) Филипп Х.С. Торр, Оксфордский университет;
(6) Адель Биби, Оксфордский университет;
(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;
(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.
Эта статья есть
Оригинал