
Ссылки на проблемы с поиском информации в Интернете
5 июля 2025 г.Таблица ссылок
Аннотация и 1 введение
2 предыстория и связанная с ним работа
2.1 Поиск информации в Интернете
2.2 Существующие наборы данных
3 MS MS MARCO WEBEATET и 3.1 Подготовка документов
3.2 Выбор запроса и маркировка
3.3 Анализ наборов данных
3.4 Новые проблемы, поднятые MS Marco Web Search
4 базовые результаты и настройка среды 4.1
4.2 Базовые методы
4.3 Метрики оценки
4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN
4.6 Оценка сквозной производительности
5 Потенциальные предубеждения и ограничения
6 Будущая работа и выводы, а также ссылки
6 Будущая работа и выводы
Поиск MS Marco Web - это первый веб -данные, который эффективно соответствует критериям больших, реальных и богатых с точки зрения качества данных. Он состоит из крупномасштабных веб-страниц и меток-запросов, полученных из коммерческой поисковой системы, сохраняя богатую информацию о веб-страницах, которые широко используются в промышленности. Стандарт поиска, предлагаемый MS Marco Web Search, включает в себя три сложные задачи, которые требуют инноваций как в областях машинного обучения, так и в исследовании системы поиска информации. Мы надеемся, что GS Marco Web Search может послужить эталоном для современного поиска информации о веб-масштабах, способствуя будущим исследованиям и инновациям в разнообразных направлениях.
Ссылки
[1] [n. д.]. МИЛЛИОСКОЕ ОСНОВНЫЕ ОСНОВЫ. https://big-ann-benchmarks.com/.
[2] [n. д.]. Общий ползание.
[3] [n. д.]. Ortail04. https://trec.nist.gov/data/robust/04.guidelines.html.
[4] Мартин Аумуллер, Эрик Бернхардссон и Александр Фейлфлл. 2017. Annbenchmarks: инструмент сравнительного анализа для приблизительных алгоритмов ближайшего соседа. В Международной конференции по поиску сходства и приложениям. Springer, 34–49.
[5] Артема Бабенко и Виктор Лемпицкий. 2014. Инвертированный мультииндекс. IEEE Transactions по анализу шаблонов и интеллекта машин 37, 6 (2014), 1247–1260.
[6] Артем Бабенко и Виктор Лемпицкий. 2016. В материалах конференции IEEE по компьютерному видению и распознаванию шаблонов (CVPR). 2055–2063.
[7] Дмитрий Баранчук, Артем Бабенко и Юр Малков. 2018. Пересмотр инвертированных индексов для приблизительных ближайших соседей. В материалах Европейской конференции по компьютерному видению (ECCV). 202–216.
[8] Мишель Бевилаква, Джузеппе Оттавиано, Патрик Льюис, Скотт Йи, Себастьян Ридель и Фабио Петрони. 2022. Поисковые системы авторегрессии: генерирование подстроков в качестве идентификаторов документов. Достижения в системах обработки нейронной информации 35 (2022), 31668–31683.
[9] Джейми Каллан. 2012. Проект Lemur и его набор данных ClueWeb12. В приглашенном выступлении на семинаре Sigir 2012 по поиску информации с открытым исходным кодом.
[10] Jianlv Chen, Sithao Siao, Peitian Zhang, Kun Luo, Defu Lian и Zheng Liu. 2024. BGE M3-Embedding: многоязычный, многофункциональный текст с несколькими гранулярностью посредством дистилляции самопознания. Arxiv Preprint arxiv: 2402.03216 (2024).
[11] Ци Чен, Бинг Чжао, Хайдонг Ванг, Мингцин Ли, Чуанджи Лю, Зенгжонг Ли, Мао Ян и Цзиндон Ванг. 2021. Спанн: высокоэффективный миллиардные приблизительные поиска по соседству. Достижения в системах обработки нейронной информации 34 (2021), 5199–5212.
[12] Чарльз Кларк, Ник Красвелл и Ян Соборофф. 2004. Обзор трека Trec 2004 Terabyte. В Trec.
[13] Чарльз Ла Кларк, Ник Красвелл и Ян Соборофф. 2009. Обзор веб -трека TREC 2009 .. В Trec, Vol. 9. 20–29.
[14] Ник Красвелл, Даниэль Кампос, Бхаскар Митра, Эмин Йилмаз и Бодо Биллербек. 2020. ORCA: 20 миллионов щелкнули пары запросов-документов для анализа поиска. В материалах 29 -й Международной конференции ACM по управлению информацией и знаниями. 2983–2989.
[15] Чжуюн Дай и Джейми Каллан. 2019. Контекстно-ориентированное предложение/срок отрывка Оценка важности для поиска первой стадии. Arxiv Preprint arxiv: 1910.10687 (2019).
[16] Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли и Кристина Тутанова. 2018. Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка. Arxiv Preprint arxiv: 1810.04805 (2018).
[17] Лую Гао и Джейми Каллан. 2022. Неконтролируемое корпус, осведомленная о языковой модели, предварительная тренировка для плотного отпуска. В материалах 60 -го ежегодного собрания Ассоциации по вычислительной лингвистике (том 1: Долгие документы). 2843–2853.
[18] Jiafeng Guo, Yinqiong Cai, Yixing Fan, Fei Sun, Ruqing Zhang и Xueqi Cheng. 2022. Семантические модели для поиска первой стадии: всесторонний обзор. Транзакции ACM в информационных системах (TOIS) 40, 4 (2022), 1–42.
[19] Руики Го, Филип Сан, Эрик Линдгрен, Куан Генг, Дэвид Симча, Феликс Черн и Санджив Кумар. 2020. Ускорение крупномасштабного вывода с квантованием анизотропного вектора. В материалах 37 -й Международной конференции по машинному обучению (ICML). 3887–3896.
[20] Баотиан Ху, Чжэндонг Лу, Ханг Ли и Цингай Чен. 2014. Архитектуры сверточной нейронной сети для сопоставления предложений естественного языка. Достижения в системах обработки нейронной информации 27 (2014).
[21] Po-Sen Huang, Xiaodong HE, Jianfeng Gao, Li Deng, Alex Acero и Larry Heck. 2013. Изучение глубоких структурированных семантических моделей для веб -поиска с использованием данных клика. В материалах 22 -й Международной конференции ACM по управлению информацией и знаниями. 2333–2338.
[22] Сухас Джаярам Субраманья, Фну Девврит, Харша Вардхан Симхадри, Равишанкар Кришнавами и Рохан Кадекоди. 2019. Diskann: быстрый точный миллиард точек ближайшего соседа на одном узле. Достижения в системах обработки нейронной информации 32 (2019).
[23] Херве Джегу, Маттидж Дуз и Корделия Шмид. 2010. Квантование продукта для поиска ближайшего соседа. IEEE Transactions по анализу шаблонов и машинного интеллекта 33, 1 (2010), 117–128.
[24] Херве Жегу, Ромен Тавенард, Маттиджс Дуз и Лоран Амсалег. 2011. Поиск в одном миллиардах векторов: повторный рейк с исходным кодированием. В материалах Международной конференции IEEE по акустике, обработке речи и сигнала (ICASSP). 861–864.
[25] Джефф Джонсон, Маттийс Дуз и Херве Джегу. 2019. Поиск сходства в миллиардах с помощью графических процессоров. IEEE транзакции на больших данных (2019).
[26] Яннис Калантидис и Яннис Авриттис. 2014. Локально оптимизированное квантование продукта для приблизительного поиска ближайшего соседа. В материалах конференции IEEE по компьютерному видению и распознаванию шаблонов (CVPR). 2321–2328.
[27] Владимир Карпухин, Барлас Огуз, Сьюон Мин, Патрик Льюис, Лерелл Ву, Сергей Эдунов, Данки Чен и Вэнь-Тау Йи. 2020. Поиск плотного отхода для ответа на вопрос Opendomain. Arxiv Preprint arxiv: 2004.04906 (2020).
[28] Том Квиатковски, Дженнимария Паломаки, Оливия Редфилд, Майкл Коллинз, Анкур Парих, Крис Альберти, Даниэль Эпштейн, Илья Полосухин, Джейкоб Девлин, Кентон Ли, и др. 2019. Природные вопросы: эталон для вопросов, отвечающий на исследования. Транзакции Ассоциации по вычислительной лингвистике 7 (2019), 453–466.
[29] Карлос Лейсанс и Стефан Клиниш. 2023. Naver Labs Europe (Splade)@ Trec Deep Learning 2022. Arxiv Preprint arxiv: 2302.12574 (2023).
[30] Патрик Льюис, Понтус Стентерп и Себастьян Ридель. 2021. Перекрытие для тестового поезда вопросов и ответов в наборах данных с открытым доменом. В материалах 16 -й конференции Европейской главы Ассоциации вычислительной лингвистики: основной объем. 1000–1008.
[31] Вэнхао Лу, Цзянь Цзяо и Руофей Чжан. 2020. Твинберт: раздавили знания в сжатые модели BERT с двойными структуру для крупномасштабного поиска. В материалах 29 -й Международной конференции ACM по управлению информацией и знаниями. 2645–2652.
[32] Microsoft. 0. Bing Search. https://www.bing.com/.
[33] Microsoft. 0. Новый Бинг. https://www.bing.com/new.
[34] Рейхиро Накано, Джейкоб Хилтон, Сучир Баладжи, Джефф Ву, Лонг Оян, Кристина Ким, Кристофер Хессе, Шантану Джайн, Винеет Косараджу, Уильям Сондерс и др. 2021. Webgpt: браузер с помощью вопросов-ответа с человеческой обратной связью. Arxiv Preprint arxiv: 2112.09332 (2021).
[35] Три Нгуен, Мир Розенберг, Сюй Сонг, Цзянфенг Гао, Саураба Тивари, Ранган Маджумдер и Ли Дэн. 2016. В Coco@ nips.
[36] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. 2022. Достижения в системах обработки нейронной информации 35 (2022), 27730–27744.
[37] Арнольд Овервик, Членян Сионг и Джейми Каллан. 2022. ClueWeb22: 10 миллиардов веб -документов с богатой информацией. В материалах 45 -й Международной конференции ACM Sigir по исследованиям и разработкам в поисках информации. 3360–3362.
[38] Хамид Паланги, Ли Денг, Йелонг Шен, Цзянфенг Гао, Сяодон Х. Х., Цзяньшу Чен, Синьинг Песня и Рабаб Уорд. 2016. Глубокое предложение встраивалось с использованием длинных краткосрочных сетей памяти: анализ и применение для поиска информации. IEEE/ACM Транзакции по аудио, речи и языковой обработке 24, 4 (2016), 694–707.
[39] Йифан Цяо, Членян Сионг, Чженгао Лю и Чжиюань Лю. 2019. Понимание поведения Берта в рейтинге. Arxiv Preprint arxiv: 1904.07531 (2019).
[40] Нильс Реймерс и Ирина Гуревич. 2019. Приговор-Берт: встраивание приговора с использованием Siamese Bert-Networks. Arxiv Preprint arxiv: 1908.10084 (2019).
[41] Цзе Рен, Минья Чжан и Донг Ли. 2020. HM-ANN: Эффективный миллиард точек ближайшего соседа поиск по гетерогенной памяти. В материалах 34 -й Международной конференции по системам обработки нейронной информации, Vol. 33.
[42] Стивен Э Робертсон и Стив Уокер. 1994. Некоторые простые эффективные приближения к модели 2-Поссона для вероятностного взвешенного поиска. В Sigir’94: Материалы семнадцатой ежегодной Международной конференции ACM-Sigir по исследованиям и разработке в области поиска информации, организованной Дублинским городским университетом. Springer, 232–241.
[43] Шота Сасаки, Шуо Сан, Шигехико Шамони, Кевин Дух и Кентаро Инуи. 2018. Крестовое обучение в Rank с общими представлениями. В материалах конференции Северной Америки в Северной Америке Ассоциации вычислительной лингвистики: технологии человеческого языка, том 2 (короткие документы). 458–463.
[44] Минджун Сео, Джинхюк Ли, Том Квиатковски, Анкур Парих, Али Фархади и Ханнане Хаджисирзи. 2019. В реальном времени вопрос об открытых доменах, отвечающий с помощью индекса фразы с плотной фразой. В материалах 57 -го ежегодного собрания Ассоциации вычислительной лингвистики. 4430–4441.
[45] Сюань Шан, Чуанджи Лю, Ицян Ся, Ци Чен, Юси Чжан, Кайз Дин, Ябо Лян, Анген Луо и Юсиан Ло. 2021. Glow: Глобальная сеть самообразования в глобальной взвешении для веб -поиска. В 2021 году Международная конференция IEEE по большим данным (большие данные). IEEE, 519–528.
[46] Елонг Шен, Сяодон Х. Х., Цзянфенг Гао, Ли Денг и Грегуар Меснил. 2014. Обучение семантическим представлениям с использованием сверточных нейронных сетей для поиска в Интернете. В материалах 23 -й Международной конференции по всемирной паутине. 373–374.
[47] Ян Соборофф. 2021. Обзор TREC 2021. В 30 -й конференции по поиску текста. Гейтерсбург, Мэриленд.
[48] Сухас Джаярам Субраманья, Рохан Кадекоди, Равишанкар Кришасвами и Харша Вардхан Симхадри. 2019. Diskann: быстрый точный миллиард точек ближайшего соседа на одном узле. В материалах 33 -й Международной конференции по системам обработки нейронной информации. 13766–13776.
[49] Йи Тей, Вин Тран, Мостафа Дехгани, Цзяньмо Н.И., Дара Бахри, Харш Мехта, Чжэнь Цин, Кай Хуи, Чжэ Чжао, Джай Гупта и др. 2022. Память трансформатора как индекс дифференцируемого поиска. Достижения в системах обработки нейронной информации 35 (2022), 21831–21843.
[50] Хьюго Туврон, Тибо Лаврил, Гаутье Изакард, Ксавье Мартинет, Мари-Энн Лахау, Тимот Лакруа, Батист Розьер, Наман Гоял, Эрик Хамбро, Файсал Ажар, и др. 2023. Лама: открытые и эффективные языковые модели фундамента. Arxiv Preprint arxiv: 2302.13971 (2023).
[51] Юджин Ван, Юньян Хоу, Хаонан Ван, Зиминг Миао, Шибин Ву, Ци Чен, Юцин Ся, Ченгмин Чи, Гошуи Чжао, Чжэн Лю и др. 2022. Индексатор нейронного корпуса для поиска документов. Достижения в системах обработки нейронной информации 35 (2022), 25600–25614.
[52] Ширао Сяо, Чжэн Лю, Вейхао Хан, Цзяньцзянь Чжан, Дефу Лиан, Йеун Гонг, Ци Чен, Фан Ян, Хао Сан, Йинсия Шао и др. 2022. Distill-VQ: Ориентированное на обучение квантование вектора, дистилляя знания из плотных вторжений. В материалах 45 -й Международной конференции ACM Sigir по исследованиям и разработкам в поисках информации. 1513–1523.
[53] Ширао Сяо, Чжэн Лю, Пейтиан Чжан и Никлас Мененгоф. 2023. C-Pack: упакованные ресурсы для продвижения общего китайского встраивания. Arxiv Preprint arxiv: 2309.07597 (2023).
[54] Ли Сионг, Ченан Сионг, Йе Ли, Квок-Фунг Тан, Джиалин Лю, Пол Беннетт, Джунаид Ахмед и Арнольд Овервик. 2020. Приблизительно ближайший соседский негативное контрастное обучение для плотного извлечения текста. Arxiv Preprint arxiv: 2007.00808 (2020).
[55] Линлонг Сюй, Баосонг Ян, Сяою Л.В., Тяньчи Би, Дейхенг Лю и Хайбо Чжан. 2021. Использование преимуществ интерактивных и неинтерактивных моделей для векторного перекрестного поиска информации. Arxiv Preprint arxiv: 2111.01992 (2021).
[56] Jingtao Zhan, Xiaohui Xie, Jiaxin Mao, Yiqun Liu, Jiafeng Guo, Min Zhang и Shaoping MA. 2022. Оценка характеристик интерполяции и экстраполяции моделей нервного извлечения. В материалах 31 -й Международной конференции ACM по управлению информацией и знаниями. 2486–2496. [57] Кун Чжоу, Yeyun Gong, Сяо Лю, Уэйн Синь Чжао, Йелонг Шен, Анлей Донг, Цзингвен Лу, Ранган Маджумдер, Джи-Ронг Вэнь и Нан Дуан.
2022. СИМАНС: Простые неоднозначные негативы отбор проб для плотного поиска текста. В материалах конференции 2022 года по эмпирическим методам в обработке естественного языка: отраслевой трек. 548–559. [58] Шенгьяо Чжуан, Ханг Ли и Г. Зуккон. 2021. Модель вероятности глубокого запроса для поиска информации. В Ecir.
Авторы:
(1) Ци Чен, Microsoft Пекин, Китай;
(2) Xiubo Geng, Microsoft Пекин, Китай;
(3) Корби Россет, Microsoft, Редмонд, США;
(4) Кэролин Бурактаон, Microsoft, Редмонд, США;
(5) Jingwen Lu, Microsoft, Redmond, США;
(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;
(7) Кун Чжоу, Microsoft, Пекин, Китай;
(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;
(9) Yeyun Gong, Microsoft, Пекин, Китай;
(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;
(11) Ник Красвелл, Microsoft, Redmond, США;
(12) Xing Xie, Microsoft, Пекин, Китай;
(13) Fan Yang, Microsoft, Пекин, Китай;
(14) Брайан Тауэр, Microsoft, Редмонд, США;
(15) Нихил Рао, Microsoft, Mountain View, США;
(16) Anlei Dong, Microsoft, Mountain View, США;
(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;
(18) Чжэн Лю, Microsoft, Пекин, Китай;
(19) Mingqin Li, Microsoft, Redmond, США;
(20) Chuanjie Liu, Microsoft, Пекин, Китай;
(21) Зенчжонг Ли, Microsoft, Редмонд, США;
(22) Ранган Мадждер, Microsoft, Редмонд, США;
(23) Дженнифер Невилл, Microsoft, Редмонд, США;
(24) Энди Окли, Microsoft, Редмонд, США;
(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;
(26) Harsha Vardhan Simhadri, Microsoft, Bengaluru, India;
(27) Маник Варма, Microsoft, Бенгалор, Индия;
(28) Юджин Ван, Microsoft, Пекин, Китай;
(29) Линджун Ян, Microsoft, Редмонд, США;
(30) Мао Ян, Microsoft, Пекин, Китай;
(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.
Эта статья есть
Оригинал