
Глубокий погружение в веб -поиск г -жи Марко: характеристики распаковки наборов данных
30 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 предыстория и связанная с ним работа
2.1 Поиск информации в Интернете
2.2 Существующие наборы данных
3 MS MS MARCO WEBEATET и 3.1 Подготовка документов
3.2 Выбор запроса и маркировка
3.3 Анализ наборов данных
3.4 Новые проблемы, поднятые MS Marco Web Search
4 базовые результаты и настройка среды 4.1
4.2 Базовые методы
4.3 Метрики оценки
4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN
4.6 Оценка сквозной производительности
5 Потенциальные предубеждения и ограничения
6 Будущая работа и выводы, а также ссылки
3.3 Анализ наборов данных
Мы построили две шкалы наборов данных: SET-100M и SET10B. В таблице 2 приведена подробная статистика наборов данных. Пример файлов MS Marco Web Search Set-100M показаны на рисунке 2.
3.3.1 Анализ распределения языкаПолем MS Marco Web Search-это многоязычный набор данных с его запросами и документированием как из коммерческой поисковой системы. Мы анализируем 20 самых популярных языков среди 93 и 207 языков как на запросах, так и в документах в наборе данных 100 м соответственно; Набор данных 10B имеет аналогичное распределение. Рисунок 3 суммирует распределение языка документов в наборах поезда и тестовых документов. Мы можем видеть, что наборы как поезда, так и тестовые документы выровнены с исходным распространением документов ClueWeb22. Рисунок 4 суммирует распределение языка запросов в наборах поезда, DEV и тестовых запросов. Из распределения мы видим, что языковое распределение запросов в веб-сценарии с высокой точки зрения, что может привести к смещению модели. Он поощряет исследование методов, ориентированных на данные для обучения оптимизации данных.
3.3.2 Анализ искажения данных.Мы анализируем распределение ярлыков запроса в учебных данных. На рисунке 5 (а) показаны документы и
количество соответствующих запросов, связанных с ними. Из рисунка мы видим, что есть только несколько документов с несколькими метками: только 7,77% документов имеют соответствующие маркированные запросы, а 0,46% документов имеют более одного обозначенного соответствующего запроса. Рисунок 5 (b) суммирует запросы и их соответствующие документы. Из рисунка мы видим, что только 1,4% запросов имеют несколько соответствующих документов. Этот очень искаженный характер набора данных согласуется с тем, что наблюдается во время обучения моделей для поиска информации в Интернете. Наше намерение состоит в том, чтобы сохранить этот перекос, чтобы сделать модели, обученные этому набору данных, применимых к реальным сценариям.
3.3.3 Анализ перекрытия испытаний.Как представлено в [30], существует большое перекрытие тестового поезда в некоторых популярных наборах данных QA с открытым доменом, которые приводят к тому, что многие популярные модели с открытым доменом просто запоминают запросы, наблюдаемые на тренировочной стадии. Впоследствии они выступают хуже по новым вопросам. Работа [56] отмечает это явление в наборе данных MSMARCO. Чтобы лучше оценить обобщаемость модели, мы минимизируем перекрытие между поездами и тестовыми наборами, разделяя пары запросов-документа на поезда и тестовые наборы по времени. Это означает, что пары тестового запроса-документы не имеют времени на перекрытие с парами запросов поезда, которые представляют большую часть новых запросов. Это может быть подтверждено в таблице 3. Мы суммируем пары с тестовым запросом-документом в четыре категории:
• Q∈Train, d∈Train:И запрос, и документ появились в наборе поезда,
• Q∉train, d∈Train:Запрос не был замечен в наборе поездов, но соответствующий документ был замечен в наборе поездов,
• Q∈Train, d∉train:Запрос был замечен в наборе поездов, но документ представляет собой новую веб -страницу, которая не была замечена в наборе поездов,
• Q∉train, d∉train:Как запрос, так и документ - это новый контент, который никогда не был замечен в наборе поездов.
Из таблицы 3 мы видим, что 82% пар запросов-документов являются новым контентом в тестовом наборе, которые не были замечены в наборе поезда. Следовательно, набор данных веб -поиска MS Marco способен предлагать эффективные оценки моделей на основе емкости и обобщения памяти, разделяя набор тестов на четыре категории для более подробного сравнения.
Авторы:
(1) Ци Чен, Microsoft Пекин, Китай;
(2) Xiubo Geng, Microsoft Пекин, Китай;
(3) Корби Россет, Microsoft, Редмонд, США;
(4) Кэролин Бурактаон, Microsoft, Редмонд, США;
(5) Jingwen Lu, Microsoft, Redmond, США;
(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;
(7) Кун Чжоу, Microsoft, Пекин, Китай;
(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;
(9) Yeyun Gong, Microsoft, Пекин, Китай;
(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;
(11) Ник Красвелл, Microsoft, Redmond, США;
(12) Xing Xie, Microsoft, Пекин, Китай;
(13) Fan Yang, Microsoft, Пекин, Китай;
(14) Брайан Тауэр, Microsoft, Редмонд, США;
(15) Нихил Рао, Microsoft, Mountain View, США;
(16) Anlei Dong, Microsoft, Mountain View, США;
(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;
(18) Чжэн Лю, Microsoft, Пекин, Китай;
(19) Mingqin Li, Microsoft, Redmond, США;
(20) Chuanjie Liu, Microsoft, Пекин, Китай;
(21) Зенчжонг Ли, Microsoft, Редмонд, США;
(22) Ранган Мадждер, Microsoft, Редмонд, США;
(23) Дженнифер Невилл, Microsoft, Редмонд, США;
(24) Энди Окли, Microsoft, Редмонд, США;
(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;
(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;
(27) Маник Варма, Microsoft, Бенгалор, Индия;
(28) Юджин Ван, Microsoft, Пекин, Китай;
(29) Линджун Ян, Microsoft, Редмонд, США;
(30) Мао Ян, Microsoft, Пекин, Китай;
(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.
Эта статья есть
Оригинал