
Данные обучения ИИ имеют проблему с длинным хвостом
9 июля 2025 г.Таблица ссылок
Аннотация и 1. Введение
2 концепции в предварительных данных и количественная частота
3 Сравнение производительности предварительного подготовки и «нулевого выстрела» и 3.1 Экспериментальная установка
3.2
4 Тестирование стресса Концепция тенденции масштабирования частоты и 4.1.
4.2 Тестирование обобщения на чисто синтетическую концепцию и распределения данных
5 Дополнительные идеи от частот концепции предварительного подготовки
6 Проверка хвоста: пусть он виляет!
7 Связанная работа
8 Выводы и открытые проблемы, подтверждения и ссылки
Часть я
Приложение
A. Частота концепции является прогнозирующей производительности в разных стратегиях
B. Частота концепции является прогнозирующей производительности в результате получения метриков извлечения
C. Частота концепции является прогнозирующей производительности для моделей T2I
D. Концепция частота является прогнозирующей производительности в разных концепциях только из изображений и текстовых областей
E. Экспериментальные детали
F. Почему и как мы используем Ram ++?
G. Подробная информация о результатах степени смещения
H. T2I Модели: оценка
I. Результаты классификации: пусть это виляет!
5 Дополнительные идеи от частот концепции предварительного подготовки
Теперь мы представляем заметные наблюдения, касающиеся распределения нисходящих частот концепции по текстам, изображениям и текстовым изображениям, соответствующим модальностям в наборах данных, предварительно подготовленных.
Найти 1:Предварительные наборы данных демонстрируют длиннохвостовое распределение концепции.Наш анализ на рис. 5 выявляет чрезвычайно длинное распределение частот концепции в наборах данных предварительного подготовки, причем более двух третей концепций встречаются на почти незначительных частотах по сравнению с размером наборов данных. Наши наблюдения подтверждают выводы прошлой работы, в которой отмечалось длинное распределение крупномасштабных языковых наборов данных [25, 88, 136]. Как мы наблюдали с логарифмическим тенденцией, это распределение напрямую отражает различия в производительности.
Найти 2:Смещение между концепциями в парах изображений.Мы исследовали выравнивание концепций в парных данных предварительно подготовленного изображения. Идеальное выравнивание текста изображения определяется как каждая пара текста изображения, содержащая одни и те же концепции. Предыдущие исследования качественно обсуждали проблему смещения в больших наборах данных с изображением текста [75, 124, 76]. Наш анализ позволяет нам количественно оценить этоСтепень смещения-Для каждой пары текста изображений в наборе данных предварительного подготовки мы находим концепции, которые совпадают с изображением и подписью текста независимо. Если нет пересекающихся концепций из независимого изображения
и текстовые попадания, мы считаем эту пару как смещенную (подробный алгоритм, предоставленный в Appx. G). Вкладка 3 показывает высокую степень смещения во всех парах текста изображения. Насколько нам известно, это первая попытка явного количественного определения степени смещения в предварительных наборах данных с изображением. Мы выпускаем точные неправильно вычисленные пары текста изображения в предварительных наборах данных, чтобы обеспечить лучшую курацию данных.
Найти 3:Частоты концепций в разных наборах данных коррелируют.Несмотря на огромные различия в размере (в диапазоне от 3 м до 400 м) и стратегии курирования анализируемых наборов данных, мы обнаружили удивительно высокую корреляцию на частотах концепции, как это представлено на TAB. 4. Эта согласованность предполагает, что Интернет, как общий источник этих наборов данных, естественным образом демонстрирует длиннохвостовое распределение, влияющее на любой набор данных, полученный из него, также отображает аналогичное длиннохвостовое поведение. Этот результат вдохновил“Let It Wag!”набор данных.
Авторы:
(1) Вишаал Удандарао, Центр ИИ Тубингена, Университет Табингингена, Кембриджский университет и равный вклад;
(2) Ameya Prabhu, Центр AI Tubingen, Университет Табингинга, Оксфордский университет и равный вклад;
(3) Адхирадж Гош, Центр ИИ Тубинген, Университет Тубингена;
(4) Яш Шарма, Центр ИИ Тубинген, Университет Тубингена;
(5) Филипп Х.С. Торр, Оксфордский университет;
(6) Адель Биби, Оксфордский университет;
(7) Сэмюэль Албани, Кембриджский университет и равные консультирование, приказ, определенный с помощью монеты;
(8) Матиас Бетге, Центр ИИ Тубинген, Университет Тубингена и равные консультирование, Орден определяется с помощью переворачивания монеты.
Эта статья есть
Оригинал