
Проблемы в поисках информации в Интернете: от ключевых слов до внедрения
28 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 предыстория и связанная с ним работа
2.1 Поиск информации в Интернете
2.2 Существующие наборы данных
3 MS MS MARCO WEBEATET и 3.1 Подготовка документов
3.2 Выбор запроса и маркировка
3.3 Анализ наборов данных
3.4 Новые проблемы, поднятые MS Marco Web Search
4 базовые результаты и настройка среды 4.1
4.2 Базовые методы
4.3 Метрики оценки
4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN
4.6 Оценка сквозной производительности
5 Потенциальные предубеждения и ограничения
6 Будущая работа и выводы, а также ссылки
2 предыстория и связанная с ним работа
2.1 Поиск информации в Интернете
В традиционном поиске информации пользовательские запросы и документы представлены в виде списка ключевых слов, а поиск выполняется на основе сопоставления ключевых слов. Тем не менее, простое сопоставление ключевых слов сталкивается со многими проблемами. Во -первых, это не может четко понять намерения пользователей. В частности, он не может оценить положительные и отрицательные чувства пользователей и может по ошибке вернуть противоположные результаты. Во -вторых, он не может объединить синонимичные выражения, уменьшая разнообразие результатов [18]. В -третьих, он не может справиться с ошибками орфографии и вернет неактуальные результаты. Следовательно, изменение запроса используется для решения вышеуказанных проблем. К сожалению, трудно охватить всевозможные изменения запросов, особенно те новые изменения.
С большим успехом глубокого обучения в обработке естественного языка, как запросы, так и документы могут быть более осмысленно представлены как семантические векторы. С тех пор, как поиск внедрений решает три вышеупомянутые проблемы, он широко использовался в современных информационных системах для облегчения нового современного качества поиска и производительности. Многочисленные предыдущие исследования были сосредоточены на моделях глубокого встраивания, от DSSM [21], CDSSM [46], LSTM-RNN [38] и ARC-I [20] для моделей встраивания на основе трансформаторов [10, 16, 39, 40, 45, 53, 54]. Они продемонстрировали впечатляющие успехи с ближайшим соседним, встраиваемым в некоторых небольших наборах данных по сравнению с традиционным сопоставлением ключевых слов.
Из-за чрезвычайно высоких вычислительных затрат и задержки запроса поиска векторов грубой силы, существует множество исследовательских подходов, посвященных крупномасштабным алгоритмам и проектированию систем и систем, расположенных в области приблизительного вектора, 24–26, 26, 41, 48]. Они могут быть разделены на решения на основе разделов и на графиках. Решения на основе разделов, такие как Spann [11], разделяют все векторное пространство на большое количество кластеров и выполняют только мелкозернистый поиск на небольшом количестве ближайших кластеров к запросу в онлайн-поиске. Решения на основе графиков, такие как Diskann [48], постройте соседний график для всего набора данных и выполняют наилучшие первые прохождения из некоторых фиксированных отправных точек, когда вступает запрос. Оба этих подхода хорошо работают на некоторых наборах данных по единым распределению.
К сожалению, при применении встраивания поиска в веб-сценарии возникают несколько новых проблем. Во-первых, объемы данных в веб-масштабе требуют больших моделей, высоких размеров встраивания и крупномасштабного маркированного набора данных для обучения, чтобы гарантировать достаточный охват знаний. Во-вторых, прирост производительности современных моделей встраивания, проверенных на небольших наборах данных, не может быть напрямую перенесен в набор данных веб-масштаба (см. Раздел 4.4). В-третьих, модели встраивания должны сотрудничать с системами ANN, чтобы эффективно обслуживать крупномасштабные объемы данных. Тем не менее, различные распределения данных обучающих данных могут повлиять на точность и производительность системы алгоритма ANN, что значительно снизит точность результата по сравнению с моделями встраивания с поиском грубой силы. Distill-VQ [52] подтвердил, что модель встраивания Cocondenser [17] с FAISS-IVFPQ ANN INDEX достигает различной точности результата на наборах данных MSMARCO [35] и NQ [28]. Более того, даже одно и то же распределение данных обучающих данных также приведет к различным распределениям векторов встраивания, что приведет к различным тенденциям ранжирования моделей встраивания в поиске грубой силы (KNN) и приблизительному поиску ближнего соседа (ANN) (см. Раздел 4.6).
Авторы:
(1) Ци Чен, Microsoft Пекин, Китай;
(2) Xiubo Geng, Microsoft Пекин, Китай;
(3) Корби Россет, Microsoft, Редмонд, США;
(4) Кэролин Бурактаон, Microsoft, Редмонд, США;
(5) Jingwen Lu, Microsoft, Redmond, США;
(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;
(7) Кун Чжоу, Microsoft, Пекин, Китай;
(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;
(9) Yeyun Gong, Microsoft, Пекин, Китай;
(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;
(11) Ник Красвелл, Microsoft, Redmond, США;
(12) Xing Xie, Microsoft, Пекин, Китай;
(13) Fan Yang, Microsoft, Пекин, Китай;
(14) Брайан Тауэр, Microsoft, Редмонд, США;
(15) Нихил Рао, Microsoft, Mountain View, США;
(16) Anlei Dong, Microsoft, Mountain View, США;
(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;
(18) Чжэн Лю, Microsoft, Пекин, Китай;
(19) Mingqin Li, Microsoft, Redmond, США;
(20) Chuanjie Liu, Microsoft, Пекин, Китай;
(21) Зенчжонг Ли, Microsoft, Редмонд, США;
(22) Ранган Мадждер, Microsoft, Редмонд, США;
(23) Дженнифер Невилл, Microsoft, Редмонд, США;
(24) Энди Окли, Microsoft, Редмонд, США;
(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;
(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;
(27) Маник Варма, Microsoft, Бенгалор, Индия;
(28) Юджин Ван, Microsoft, Пекин, Китай;
(29) Линджун Ян, Microsoft, Редмонд, США;
(30) Мао Ян, Microsoft, Пекин, Китай;
(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.
Эта статья есть
Оригинал