
Что происходит, когда ваша подсказка слишком неясна?
10 июля 2025 г.Таблица ссылок
Аннотация и 1. Введение
2 концепции в предварительных данных и количественная частота
3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка
3.2
4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.
4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных
5 Дополнительные идеи от частот концепции предварительного подготовки
6 Проверка хвоста: пусть он виляет!
7 Связанная работа
8 Выводы и открытые проблемы, подтверждения и ссылки
Часть я
Приложение
A. Частота концепции является прогнозирующей производительности в разных стратегиях
B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения
C. Частота концепции является прогнозирующей производительности для моделей T2I
D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей
E. Экспериментальные детали
F. Почему и как мы используем Ram ++?
G. Подробная информация о результатах степени смещения
H. T2I Модели: оценка
I. Результаты классификации: пусть это виляет!
H T2I Модели: оценка
Мы предоставляем дополнительные количественные и качественные результаты в этом разделе для моделей T2I, оцениваемых на«Пусть это виляет!”Набор данных.
H.1 Количественные результаты по поиску
Мы предоставляем дальнейший анализ о том, как современные модели T2I работают на длиннохвостых концепциях, включающих«Пусть это виляет!»набор данных. Как подробно описано в гл. 6, мы генерируем 4 изображения для каждой концепции, используя стабильную диффузию XL [89], стабильную диффузию V2 [96] и сказочный фотореал [1].
Стратегия подсказки.Используемая стратегия подсказки (роль системы), адаптирована из Shahmohammadi et al. [105], было:
С помощью этого пула сгенерированных изображений мы проводим контролируемый эксперимент на длиннохвостых концепциях, используя извлечение ближайшего соседа в качестве показателя оценки, запрашивая сгенерированное изображение и получая результаты Top-K из галереи изображений, взятых из«Пусть это виляет!»набор данных. Общий трубопровод заключается в следующем:
Настраивать. МыОпределите запрос и галерею для концепций головы и хвоста. Для концепций хвоста мы выбираем 25 концепций с самой низкой частотой от«Пусть это виляет!»набор данных. Для концепций головы мы выбираем 25 наиболее частых концепций для сравнения. Мы используем ту же стратегию подсказок с выбранными 25 концепциями во всех 3 моделях T2I. Чтобы создать набор галереи, мы случайным образом выбираем 100 изображений для каждой из этих концепций. Мы используем DINOV2 [85] VIT-S/14 в качестве экстрактора функции.
РезультатыПолем В таблице 5 мы предоставляем результаты совокупной характеристики соответствия (CMC@K) для всех 3 моделей T2I, используемых в нашем эксперименте. CMC@K был выбран, поскольку мы заинтересованы в измерении дельты между концепциями головы и хвоста для успешных поисков в топ-K, полученных реальными изображениями для данного сгенерированного изображения. Мы наблюдаем большой разрыв в производительности междуГоловаиХвостКонцепции, обеспечивая количественную оценку производительности генерации моделей T2I.
H.2 Качественные результаты
На рис. 7 основного текста мы даем первоначальное представление о качественной производительности моделей T2I на«Пусть это виляет!»концепции. Для простоты понимания и сравнения мы разделяем концепции на 4 кластера: самолет (рис. 23), активность (рис. 24), животное (рис. 25) и другие (рис. 26).
РезультатыПолем На рис. 23 показаны модели T2I, испытывающие трудности с представлением самолета в полной форме в большинстве случаев в дополнение к искажению конкретной модели на сгенерированных изображениях. На рис. 24 демонстрируется сложность моделей T2I, с которыми сталкиваются модели при представлении действий или действий из подсказок. Рис. 25 иллюстрирует ту же неспособность моделей T2I точно представлять виды животных. Наконец, оставшаяся часть набора запросов показана на рис. 26 и включает в себя неспособность классифицировать и впоследствии генерировать определенные виды цветов и объектов.
Я классификации результаты:Пусть это виляет!
Здесь мы представляем необработанные значения точности 40 протестированных моделей на обоихПусть это виляет!и ImageNet в табле. 6. Для справки, мы также сообщаем о наборах данных, на которые были обучены эти модели, и количество параметров для каждой модели. Мы видим четкие падения в производительности по сравнению с ImageNet, по размерам моделей, архитектурам и наборам данных предварительного подготовки.
Авторы:
(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;
(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;
(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;
(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;
(5) Филипп Х.С. Торр, Оксфордский университет;
(6) Адель Биби, Оксфордский университет;
(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;
(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.
Эта статья есть
Оригинал