Связь между частотой концепции и производительностью искусственного интеллекта, наблюдаемая через изображения и слова

Связь между частотой концепции и производительностью искусственного интеллекта, наблюдаемая через изображения и слова

10 июля 2025 г.

Аннотация и 1. Введение

2 концепции в предварительных данных и количественная частота

3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка

3.2

4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.

4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных

5 Дополнительные идеи от частот концепции предварительного подготовки

6 Проверка хвоста: пусть он виляет!

7 Связанная работа

8 Выводы и открытые проблемы, подтверждения и ссылки

Часть я

Приложение

A. Частота концепции является прогнозирующей производительности в разных стратегиях

B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения

C. Частота концепции является прогнозирующей производительности для моделей T2I

D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей

E. Экспериментальные детали

F. Почему и как мы используем Ram ++?

G. Подробная информация о результатах степени смещения

H. T2I Модели: оценка

I. Результаты классификации: пусть это виляет!

D Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей

На всех основных графиках, которые мы представляли до сих пор, частоты концепции были оценены с использованием пересечения частоты изображений и текстовых частот. Здесь мы демонстрируем результаты с использованием их независимо на рис. 17 и 18 соответственно. Мы отмечаем, что оба независимых методов поиска демонстрируют логарифмические тенденции, как и прежде, подтверждая наш основной результат. Мы наблюдаем этоСильная логарифмическая тенденция между частотой концепции и с нулевым выстрелом, надежно удерживается в разных концепциях, полученных из изображений и текстовых доменов независимо.

Figure 17: Log-linear relationships between image concept frequency and CLIP performance. Across all tested architectures (RN50, RN101, ViT-B-32, ViT-B-16, ViT-L-14) and pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M), we observe a consistent linear relationship between CLIP’s zero-shot accuracy and retrieval performance on a concept and the log-scaled concept pretraining frequency (searched using only pretraining images). ** indicates that the result is significant (p < 0.05 with a two-tailed t-test.), and thus we show pearson correlation (ρ) as well.

Figure 18: Log-linear relationships between text concept frequency and CLIP performance. Across all tested architectures (RN50, RN101, ViT-B-32, ViT-B-16, ViT-L-14) and pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M), we observe a consistent linear relationship between CLIP’s zero-shot accuracy and retrieval performance on a concept and the log-scaled concept pretraining frequency (searched using only pretraining text captions). ** indicates that the result is significant (p < 0.05 with a two-tailed t-test.), and thus we show pearson correlation (ρ) as well.

E Экспериментальные детали

E.1 Установка Mayilvahanan et al. [79]

Laion-200M-это набор данных, полученный путем дедуплирования Laion-400M путем обрезки точных дубликатов, около дубликатов и семантически сходных образцов в Laion-400M [10]. Контрольный набор предварительного подготовки создается путем обрезки 50 миллионов очень похожих образцов из Laion в порядке уменьшения сходства восприятия с данными в наборе ImageNet-Val. Мы используем 150 -метровый набор предварительной подготовки для получения распределения концепции. Мы оцениваем производительность модели клипа Vit-B/32, обученной этому набору данных для наших нижестоящих задач, и представляем наш анализ по этим задачам.

E.2Пусть это виляет!: Курация набора тестов

Чтобы наши наборы данных были тщательно очищены и разнообразны, мы следуем тщательному процессу:

  1. Разнообразный источник:Мы собираем изображения из трех различных онлайн-источников-Flickr, Duckduckgo и Bing Search-для максимизации разнообразия нашего набора данных, сохраняя при этом очень простые в классе изображения [2].

  2. Временная фильтрация:Мы применили фильтр только для получения изображений только после января 2023 года, чтобы минимизировать перекрытие с изображениями, используемыми при предварительном обучении моделей на языке зрения (VLMS). Обратите внимание, что это помогает смягчить, но не гарантирует, что проблема перекрытия решена.

  3. Удаление выбросов:Мы используем предварительно обученный stectionNet [111] для удаления выбросов из всего пула изображений. Мы делаем это, принимая все парные косинусные значения между всеми изображениями в пуле и удаляя изображения, которые находятся в нижних 5% от значений сходства [3].

  4. Первоначальная двойка с началом сети:Мы используем предварительно обученную модель InceptionNet [111] для выявления и удаления дубликатов. Этот шаг включает в себя установку высоких пороговых значений для мягкого двойника (0,9 для общих классов и 0,95 для мелкозернистых классов), чтобы обеспечить лишь незначительные, точные исключения. Порог 0,9/0,95 означает, что мы считаем, что изображения дубликаты, если косинусное сходство встраивания этого изображения (из начала) с любым другим изображением в пуле изображений больше, чем 0,9/0,95.

  5. Ручная проверка:После автоматической очистки мы вручную проверяем и проверяем точность оставшихся изображений для каждого класса, чтобы убедиться, что они соответствуют стандартам качества.

  6. Деупликация второго уровня с хешированием восприятия:После проверки мы используем хеширование восприятия [37] с порогом из 10 бит для идентификации и удаления дублирующих изображений в каждом классе, обеспечивая уникальность в нашем наборе данных [4].

  7. Балансировка класса:Наконец, мы уравновешиваем набор данных, чтобы обеспечить равное представление классов. Этот процесс был следовал за повышение качества и надежности нашего набора данных для задач распознавания изображений.

Авторы:

(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;

(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;

(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;

(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;

(5) Филипп Х.С. Торр, Оксфордский университет;

(6) Адель Биби, Оксфордский университет;

(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;

(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.


Эта статья естьavailable on arxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE