Проблемы в поисках информации в Интернете: от ключевых слов до внедрения

Проблемы в поисках информации в Интернете: от ключевых слов до внедрения

28 июня 2025 г.

Аннотация и 1 введение

2 предыстория и связанная с ним работа

2.1 Поиск информации в Интернете

2.2 Существующие наборы данных

3 MS MS MARCO WEBEATET и 3.1 Подготовка документов

3.2 Выбор запроса и маркировка

3.3 Анализ наборов данных

3.4 Новые проблемы, поднятые MS Marco Web Search

4 базовые результаты и настройка среды 4.1

4.2 Базовые методы

4.3 Метрики оценки

4.4 Оценка моделей встраивания и 4.5 Оценка алгоритмов ANN

4.6 Оценка сквозной производительности

5 Потенциальные предубеждения и ограничения

6 Будущая работа и выводы, а также ссылки

2.1 Поиск информации в Интернете

В традиционном поиске информации пользовательские запросы и документы представлены в виде списка ключевых слов, а поиск выполняется на основе сопоставления ключевых слов. Тем не менее, простое сопоставление ключевых слов сталкивается со многими проблемами. Во -первых, это не может четко понять намерения пользователей. В частности, он не может оценить положительные и отрицательные чувства пользователей и может по ошибке вернуть противоположные результаты. Во -вторых, он не может объединить синонимичные выражения, уменьшая разнообразие результатов [18]. В -третьих, он не может справиться с ошибками орфографии и вернет неактуальные результаты. Следовательно, изменение запроса используется для решения вышеуказанных проблем. К сожалению, трудно охватить всевозможные изменения запросов, особенно те новые изменения.

С большим успехом глубокого обучения в обработке естественного языка, как запросы, так и документы могут быть более осмысленно представлены как семантические векторы. С тех пор, как поиск внедрений решает три вышеупомянутые проблемы, он широко использовался в современных информационных системах для облегчения нового современного качества поиска и производительности. Многочисленные предыдущие исследования были сосредоточены на моделях глубокого встраивания, от DSSM [21], CDSSM [46], LSTM-RNN [38] и ARC-I [20] для моделей встраивания на основе трансформаторов [10, 16, 39, 40, 45, 53, 54]. Они продемонстрировали впечатляющие успехи с ближайшим соседним, встраиваемым в некоторых небольших наборах данных по сравнению с традиционным сопоставлением ключевых слов.

Из-за чрезвычайно высоких вычислительных затрат и задержки запроса поиска векторов грубой силы, существует множество исследовательских подходов, посвященных крупномасштабным алгоритмам и проектированию систем и систем, расположенных в области приблизительного вектора, 24–26, 26, 41, 48]. Они могут быть разделены на решения на основе разделов и на графиках. Решения на основе разделов, такие как Spann [11], разделяют все векторное пространство на большое количество кластеров и выполняют только мелкозернистый поиск на небольшом количестве ближайших кластеров к запросу в онлайн-поиске. Решения на основе графиков, такие как Diskann [48], постройте соседний график для всего набора данных и выполняют наилучшие первые прохождения из некоторых фиксированных отправных точек, когда вступает запрос. Оба этих подхода хорошо работают на некоторых наборах данных по единым распределению.

К сожалению, при применении встраивания поиска в веб-сценарии возникают несколько новых проблем. Во-первых, объемы данных в веб-масштабе требуют больших моделей, высоких размеров встраивания и крупномасштабного маркированного набора данных для обучения, чтобы гарантировать достаточный охват знаний. Во-вторых, прирост производительности современных моделей встраивания, проверенных на небольших наборах данных, не может быть напрямую перенесен в набор данных веб-масштаба (см. Раздел 4.4). В-третьих, модели встраивания должны сотрудничать с системами ANN, чтобы эффективно обслуживать крупномасштабные объемы данных. Тем не менее, различные распределения данных обучающих данных могут повлиять на точность и производительность системы алгоритма ANN, что значительно снизит точность результата по сравнению с моделями встраивания с поиском грубой силы. Distill-VQ [52] подтвердил, что модель встраивания Cocondenser [17] с FAISS-IVFPQ ANN INDEX достигает различной точности результата на наборах данных MSMARCO [35] и NQ [28]. Более того, даже одно и то же распределение данных обучающих данных также приведет к различным распределениям векторов встраивания, что приведет к различным тенденциям ранжирования моделей встраивания в поиске грубой силы (KNN) и приблизительному поиску ближнего соседа (ANN) (см. Раздел 4.6).

Авторы:

(1) Ци Чен, Microsoft Пекин, Китай;

(2) Xiubo Geng, Microsoft Пекин, Китай;

(3) Корби Россет, Microsoft, Редмонд, США;

(4) Кэролин Бурактаон, Microsoft, Редмонд, США;

(5) Jingwen Lu, Microsoft, Redmond, США;

(6) Тао Шен, Технологический университет Сидней, Сидней, Австралия, и работа была выполнена в Microsoft;

(7) Кун Чжоу, Microsoft, Пекин, Китай;

(8) Чеменский Сюн, Университет Карнеги -Меллона, Питтсбург, США, и работа была выполнена в Microsoft;

(9) Yeyun Gong, Microsoft, Пекин, Китай;

(10) Пол Беннетт, Spotify, Нью -Йорк, США, и работа была выполнена в Microsoft;

(11) Ник Красвелл, Microsoft, Redmond, США;

(12) Xing Xie, Microsoft, Пекин, Китай;

(13) Fan Yang, Microsoft, Пекин, Китай;

(14) Брайан Тауэр, Microsoft, Редмонд, США;

(15) Нихил Рао, Microsoft, Mountain View, США;

(16) Anlei Dong, Microsoft, Mountain View, США;

(17) Венки Цзян, Эт Цюрих, Цюрих, Швейцария;

(18) Чжэн Лю, Microsoft, Пекин, Китай;

(19) Mingqin Li, Microsoft, Redmond, США;

(20) Chuanjie Liu, Microsoft, Пекин, Китай;

(21) Зенчжонг Ли, Microsoft, Редмонд, США;

(22) Ранган Мадждер, Microsoft, Редмонд, США;

(23) Дженнифер Невилл, Microsoft, Редмонд, США;

(24) Энди Окли, Microsoft, Редмонд, США;

(25) Knut Magne Risvik, Microsoft, Осло, Норвегия;

(26) Харша Вардхан Симхадри, Microsoft, Бангалор, Индия;

(27) Маник Варма, Microsoft, Бенгалор, Индия;

(28) Юджин Ван, Microsoft, Пекин, Китай;

(29) Линджун Ян, Microsoft, Редмонд, США;

(30) Мао Ян, Microsoft, Пекин, Китай;

(31) CE Zhang, Eth Zürich, Zürich, Швейцария, и работа была выполнена в Microsoft.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE