
Создание реальных запросов: подлинные данные MS Marco Web Search
30 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 предыстория и связанная с ним работа
2.1 Поиск информации в Интернете
2.2 Существующие наборы данных
3 MS MS MARCO WEBEATET и 3.1 Подготовка документов
3.2 Выбор запроса и маркировка
3.3 Анализ наборов данных
3.4 Новые проблемы, поднятые MS Marco Web Search
4 базовые результаты и настройка среды 4.1
4.2 Базовые методы
4.3 Метрики оценки
4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN
4.6 Оценка сквозной производительности
5 Потенциальные предубеждения и ограничения
6 Будущая работа и выводы, а также ссылки
3.2 Выбор запроса и маркировка
Чтобы генерировать крупномасштабные высококачественные запросы и этикетки с актуальностью запроса, мы образуем образец кликов запросов в течение одного года в журналах поисковой системы Bing. Первоначальный набор запросов отфильтрован для удаления запросов, которые редко запускаются, содержат личную информацию, наступательное содержание, содержание взрослых и те, которые не имеют подключения к клику с набором документов ClueWeb22. Полученный набор включает запросы, запускаемые многими пользователями, что отражает реальное распределение запросов коммерческой поисковой системы.
Запросы разделены на наборы поезда и тестовые наборы в зависимости от времени, что похоже на реальные веб-сценарии, обучая модель встраивания с использованием прошлых данных и обслуживания будущих входящих веб-страниц и запросов. Мы попробовали около 10 миллионов пар запросов-документов из набора поездов и 10 тысяч паров запросов-документов из тестового набора. Документы в поезде и тестовых наборах запроса и тестовых наборах объединяются в набор документов 100 миллионов поездов и набор тестовых документов соответственно (показан в правой части рисунка 1). Чтобы обеспечить проверку качества модели во время обучения, мы разделили набор документов Dev Query-Document от набора запросов поезда. Поскольку набор поездов и разработчиков совместно используется тем же набором документов, набор DEV можно использовать для быстрого проверки правильности обучения и качества модели во время обучения. Для набора данных 10B мы используем один и тот же поезд, DEV и тестирование запросов, но обрабатываем больше паров запросов-документов.
Авторы:
(1) Ци Чен, Microsoft Пекин, Китай;
(2) Xiubo Geng, Microsoft Пекин, Китай;
(3) Корби Россет, Microsoft, Редмонд, США;
(4) Кэролин Бурактаон, Microsoft, Редмонд, США;
(5) Jingwen Lu, Microsoft, Redmond, США;
(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;
(7) Кун Чжоу, Microsoft, Пекин, Китай;
(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;
(9) Yeyun Gong, Microsoft, Пекин, Китай;
(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;
(11) Ник Красвелл, Microsoft, Redmond, США;
(12) Xing Xie, Microsoft, Пекин, Китай;
(13) Fan Yang, Microsoft, Пекин, Китай;
(14) Брайан Тауэр, Microsoft, Редмонд, США;
(15) Нихил Рао, Microsoft, Mountain View, США;
(16) Anlei Dong, Microsoft, Mountain View, США;
(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;
(18) Чжэн Лю, Microsoft, Пекин, Китай;
(19) Mingqin Li, Microsoft, Redmond, США;
(20) Chuanjie Liu, Microsoft, Пекин, Китай;
(21) Зенчжонг Ли, Microsoft, Редмонд, США;
(22) Ранган Мадждер, Microsoft, Редмонд, США;
(23) Дженнифер Невилл, Microsoft, Редмонд, США;
(24) Энди Окли, Microsoft, Редмонд, США;
(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;
(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;
(27) Маник Варма, Microsoft, Бенгалор, Индия;
(28) Юджин Ван, Microsoft, Пекин, Китай;
(29) Линджун Ян, Microsoft, Редмонд, США;
(30) Мао Ян, Microsoft, Пекин, Китай;
(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.
Эта статья есть
Оригинал