Через метрики и подсказки частые концепции превосходят в нулевом обучении
9 июля 2025 г.Таблица ссылок
Аннотация и 1. Введение
2 концепции в предварительных данных и количественная частота
3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка
3.2
4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.
4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных
5 Дополнительные идеи от частот концепции предварительного подготовки
6 Проверка хвоста: пусть он виляет!
7 Связанная работа
8 Выводы и открытые проблемы, подтверждения и ссылки
Часть я
Приложение
A. Частота концепции является прогнозирующей производительности в разных стратегиях
B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения
C. Частота концепции является прогнозирующей производительности для моделей T2I
D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей
E. Экспериментальные детали
F. Почему и как мы используем Ram ++?
G. Подробная информация о результатах степени смещения
H. T2I Модели: оценка
I. Результаты классификации: пусть это виляет!
Частота концепции является прогнозирующей производительности в разных стратегиях
Мы расширяем результаты классификации с нулевым выстрелом на рис. 2 на рис. 8 с двумя различными стратегиями подсказок: результаты в основной статье использовали {classname} только в качестве подсказок, здесь мы демонстрируем оба (1) «Фотография {классной имени» и (2) 80 предпринимателей, используемых Radford et al. [91]. Мы наблюдаем этоСильная логарифмическая тенденция между частотой концепции и ноль-выстрелом последовательно сохраняется в различных стратегиях подсказования.
![Figure 8: Log-linear relationships between concept frequency and CLIP zero-shot performance. Across all tested architectures (RN50, RN101, ViT-B-32, ViT-B-16, ViT-L-14) and pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M), we observe a consistent linear relationship between CLIP’s zero-shot classification accuracy on a concept and the log-scaled concept pretraining frequency. This trend holds for both “A photo of a {classname}” prompting style and 80 prompt ensembles [91]. ** indicates that the result is significant (p < 0.05 with a two-tailed t-test.), and thus we show pearson correlation (ρ) as well.](https://cdn.hackernoon.com/images/fWZa4tUiBGemnqQfBGgCPf9594N2-ie833e1.png)
B Концепция частота является прогнозирующей производительности в результате получения метриков извлечения
Мы дополняем рис. 2 в основной статье, где мы показали результаты с отзывом текста до изображения (I2T)@10. На рис. 9 и 10 мы представляем результаты для экспериментов по поиску во всех шести показателях: i2t-recall@1, i2t-recall@5, i2t-recall@10, t2i-recall@1, t2i-recall@5, t2i-recall@10. Мы наблюдаем этоСильная логарифмическая тенденция между частотой концепции и с нулевым выстрелом, надежно удерживается в разных показателях поиска.


Авторы:
(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;
(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;
(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;
(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;
(5) Филипп Х.С. Торр, Оксфордский университет;
(6) Адель Биби, Оксфордский университет;
(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;
(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.
Эта статья есть
Оригинал