tech-stories ms-marco-web-search large-scale-dataset web-search real-world-web-data bing-search-engine clicked-query-document-pairs neural-indexer-models embedding-models

Глубокий погружение в веб -поиск г -жи Марко: характеристики распаковки наборов данных

30 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 предыстория и связанная с ним работа

2.1 Поиск информации в Интернете

2.2 Существующие наборы данных

3 MS MS MARCO WEBEATET и 3.1 Подготовка документов

3.2 Выбор запроса и маркировка

3.3 Анализ наборов данных

3.4 Новые проблемы, поднятые MS Marco Web Search

4 базовые результаты и настройка среды 4.1

4.2 Базовые методы

4.3 Метрики оценки

4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN

4.6 Оценка сквозной производительности

5 Потенциальные предубеждения и ограничения

6 Будущая работа и выводы, а также ссылки

3.3 Анализ наборов данных

Мы построили две шкалы наборов данных: SET-100M и SET10B. В таблице 2 приведена подробная статистика наборов данных. Пример файлов MS Marco Web Search Set-100M показаны на рисунке 2.

3.3.1 Анализ распределения языкаПолем MS Marco Web Search-это многоязычный набор данных с его запросами и документированием как из коммерческой поисковой системы. Мы анализируем 20 самых популярных языков среди 93 и 207 языков как на запросах, так и в документах в наборе данных 100 м соответственно; Набор данных 10B имеет аналогичное распределение. Рисунок 3 суммирует распределение языка документов в наборах поезда и тестовых документов. Мы можем видеть, что наборы как поезда, так и тестовые документы выровнены с исходным распространением документов ClueWeb22. Рисунок 4 суммирует распределение языка запросов в наборах поезда, DEV и тестовых запросов. Из распределения мы видим, что языковое распределение запросов в веб-сценарии с высокой точки зрения, что может привести к смещению модели. Он поощряет исследование методов, ориентированных на данные для обучения оптимизации данных.

3.3.2 Анализ искажения данных.Мы анализируем распределение ярлыков запроса в учебных данных. На рисунке 5 (а) показаны документы и

Figure 2: The example files in the MS MARCO Web Search dataset

Table 2: 100M and 10B dataset statistics

Figure 3: The distribution of 20 most popular languages in the train and test document sets.

Figure 4: The distribution of 20 most popular languages in the train, dev and test query sets.

количество соответствующих запросов, связанных с ними. Из рисунка мы видим, что есть только несколько документов с несколькими метками: только 7,77% документов имеют соответствующие маркированные запросы, а 0,46% документов имеют более одного обозначенного соответствующего запроса. Рисунок 5 (b) суммирует запросы и их соответствующие документы. Из рисунка мы видим, что только 1,4% запросов имеют несколько соответствующих документов. Этот очень искаженный характер набора данных согласуется с тем, что наблюдается во время обучения моделей для поиска информации в Интернете. Наше намерение состоит в том, чтобы сохранить этот перекос, чтобы сделать модели, обученные этому набору данных, применимых к реальным сценариям.

3.3.3 Анализ перекрытия испытаний.Как представлено в [30], существует большое перекрытие тестового поезда в некоторых популярных наборах данных QA с открытым доменом, которые приводят к тому, что многие популярные модели с открытым доменом просто запоминают запросы, наблюдаемые на тренировочной стадии. Впоследствии они выступают хуже по новым вопросам. Работа [56] отмечает это явление в наборе данных MSMARCO. Чтобы лучше оценить обобщаемость модели, мы минимизируем перекрытие между поездами и тестовыми наборами, разделяя пары запросов-документа на поезда и тестовые наборы по времени. Это означает, что пары тестового запроса-документы не имеют времени на перекрытие с парами запросов поезда, которые представляют большую часть новых запросов. Это может быть подтверждено в таблице 3. Мы суммируем пары с тестовым запросом-документом в четыре категории:

• Q∈Train, d∈Train:И запрос, и документ появились в наборе поезда,

• Q∉train, d∈Train:Запрос не был замечен в наборе поездов, но соответствующий документ был замечен в наборе поездов,

• Q∈Train, d∉train:Запрос был замечен в наборе поездов, но документ представляет собой новую веб -страницу, которая не была замечена в наборе поездов,

• Q∉train, d∉train:Как запрос, так и документ - это новый контент, который никогда не был замечен в наборе поездов.

Из таблицы 3 мы видим, что 82% пар запросов-документов являются новым контентом в тестовом наборе, которые не были замечены в наборе поезда. Следовательно, набор данных веб -поиска MS Marco способен предлагать эффективные оценки моделей на основе емкости и обобщения памяти, разделяя набор тестов на четыре категории для более подробного сравнения.

Авторы:

(1) Ци Чен, Microsoft Пекин, Китай;

(2) Xiubo Geng, Microsoft Пекин, Китай;

(3) Корби Россет, Microsoft, Редмонд, США;

(4) Кэролин Бурактаон, Microsoft, Редмонд, США;

(5) Jingwen Lu, Microsoft, Redmond, США;

(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;

(7) Кун Чжоу, Microsoft, Пекин, Китай;

(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;

(9) Yeyun Gong, Microsoft, Пекин, Китай;

(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;

(11) Ник Красвелл, Microsoft, Redmond, США;

(12) Xing Xie, Microsoft, Пекин, Китай;

(13) Fan Yang, Microsoft, Пекин, Китай;

(14) Брайан Тауэр, Microsoft, Редмонд, США;

(15) Нихил Рао, Microsoft, Mountain View, США;

(16) Anlei Dong, Microsoft, Mountain View, США;

(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;

(18) Чжэн Лю, Microsoft, Пекин, Китай;

(19) Mingqin Li, Microsoft, Redmond, США;

(20) Chuanjie Liu, Microsoft, Пекин, Китай;

(21) Зенчжонг Ли, Microsoft, Редмонд, США;

(22) Ранган Мадждер, Microsoft, Редмонд, США;

(23) Дженнифер Невилл, Microsoft, Редмонд, США;

(24) Энди Окли, Microsoft, Редмонд, США;

(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;

(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;

(27) Маник Варма, Microsoft, Бенгалор, Индия;

(28) Юджин Ван, Microsoft, Пекин, Китай;

(29) Линджун Ян, Microsoft, Редмонд, США;

(30) Мао Ян, Microsoft, Пекин, Китай;

(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Глубокий погружение в веб -поиск г -жи Марко: характеристики распаковки наборов данных

Таблица ссылок

3.3 Анализ наборов данных

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories