Представление веб -поиска MS Marco: новая эра для данных LLM и IR

Представление веб -поиска MS Marco: новая эра для данных LLM и IR

29 июня 2025 г.

Аннотация и 1 введение

2 предыстория и связанная с ним работа

2.1 Поиск информации в Интернете

2.2 Существующие наборы данных

3 MS MS MARCO WEBEATET и 3.1 Подготовка документов

3.2 Выбор запроса и маркировка

3.3 Анализ наборов данных

3.4 Новые проблемы, поднятые MS Marco Web Search

4 базовые результаты и настройка среды 4.1

4.2 Базовые методы

4.3 Метрики оценки

4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN

4.6 Оценка сквозной производительности

5 Потенциальные предубеждения и ограничения

6 Будущая работа и выводы, а также ссылки

3 MS Marco Web Dataet

В этой статье мы представляем MS Marco Web Search, крупномасштабный набор данных для исследований по поиску веб-информации. Набор данных веб-поиска MS Marco состоит из высококачественного набора веб-страниц, которые отражают высококачественное распространение веб-документов, набора запросов, который отражает реальное распространение веб-запросов, и широкомасштабный набор метки документов запроса для встраивания модели и оценки.

3.1 Подготовка документа

Мы используем ClueWeb22 [9] в качестве нашего документа, поскольку он является крупнейшим и новым набором данных о открытом веб -документах для нашей цели. Он отвечает требованиям крупномасштабного, высококачественного и реалистичного распределения документов, заполненных и обрабатываемым коммерческой веб -поисковой системой с богатой информацией. Сравните с Common Crawl [2], который заполняет только 35 миллионов зарегистрированных доменов и охватывает более 40 языков, ClueWeb22 тщательно имитирует реалистичный выбор коммерческой поисковой системы с 207 языками. Он имеет 10 миллиардов высококачественных веб-страниц с богатой аффилированной информацией, такой как URL, языковой тег, тема, заголовок и чистый текст и т. Д. Рисунок 2 (d) приведет пример структур данных, предоставленных ClueWeb22.

Чтобы сделать обучение экономически эффективным как для научных кругов, так и для промышленности, мы предоставляем набор документов на 100 миллионов и 10 миллиардов. Набор документов 100 миллионов представляет собой случайное подмножество из 10 миллиардов набора документов. Чтобы оценить способность генерализации модели в небольшом наборе данных, предоставляются два 100 миллионов непересекающихся наборов документов, один для обучения, а другой для тестирования. Весь процесс показан в левой части рисунка 1.

Авторы:

(1) Ци Чен, Microsoft Пекин, Китай;

(2) Xiubo Geng, Microsoft Пекин, Китай;

(3) Корби Россет, Microsoft, Редмонд, США;

(4) Кэролин Бурактаон, Microsoft, Редмонд, США;

(5) Jingwen Lu, Microsoft, Redmond, США;

(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;

(7) Кун Чжоу, Microsoft, Пекин, Китай;

(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;

(9) Yeyun Gong, Microsoft, Пекин, Китай;

(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;

(11) Ник Красвелл, Microsoft, Redmond, США;

(12) Xing Xie, Microsoft, Пекин, Китай;

(13) Fan Yang, Microsoft, Пекин, Китай;

(14) Брайан Тауэр, Microsoft, Редмонд, США;

(15) Нихил Рао, Microsoft, Mountain View, США;

(16) Anlei Dong, Microsoft, Mountain View, США;

(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;

(18) Чжэн Лю, Microsoft, Пекин, Китай;

(19) Mingqin Li, Microsoft, Redmond, США;

(20) Chuanjie Liu, Microsoft, Пекин, Китай;

(21) Зенчжонг Ли, Microsoft, Редмонд, США;

(22) Ранган Мадждер, Microsoft, Редмонд, США;

(23) Дженнифер Невилл, Microsoft, Редмонд, США;

(24) Энди Окли, Microsoft, Редмонд, США;

(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;

(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;

(27) Маник Варма, Microsoft, Бенгалор, Индия;

(28) Юджин Ван, Microsoft, Пекин, Китай;

(29) Линджун Ян, Microsoft, Редмонд, США;

(30) Мао Ян, Microsoft, Пекин, Китай;

(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE