Понимание поиска ИИ

Понимание поиска ИИ

23 апреля 2023 г.

Слышать, как поисковые компании объясняют, как работает поиск и искусственный интеллект, может сбивать с толку. Bing добавил ChatGPT, который использует большие языковые модели (LLM), но даже до этого у них были возможности глубокого обучения. Недавно Google объявил о новых возможностях поиска изображений и собственном сервисе LLM. В Algolia мы также собираемся представить нашу собственную технологию на основе искусственного интеллекта, которая использует нейронное хэширование для масштабирования интеллектуального поиска для любого приложения. Все эти термины могут сбивать с толку.

Давайте исправим это, разобрав технологии, связанные с поиском.

Начнем с самого начала… что такое поиск по ключевым словам?

системы поиска по ключевым словам в течение десятилетий. Проект Apache Lucene — одна из самых известных поисковых систем с открытым исходным кодом, которая предлагает функции поиска по ключевым словам. Этот тип поисковой системы использует статистические методы для сопоставления запросов с элементами индекса. Они работают так же, как индекс в конце книги, указывая на все места в книге, где находится информация. Технологии обработки запросов, такие как устойчивость к опечаткам, сегментация слов и выделение корней, также помогают поисковым системам усваивать и понимать орфографию и понимать запросы.

Поиск по ключевому слову, как правило, очень быстрый и хорошо работает при точном совпадении запроса с ключевым словом. Однако они часто борются с длинными хвостовыми запросами, концептуальным поиском, поиском в стиле вопросов, синонимами и другими фразами, когда запрос не совсем соответствует содержанию в индексе. По этой причине многие компании добавили в помощь дополнительные функции, такие как генерация синонимов ИИ.

Что такое семантический поиск?

Семантический поиск включает в себя понимание значения слов и фраз в поисковом запросе и возврат результатов, которые семантически связаны с запросом. Семантические поисковые системы используют обработку естественного языка (NLP). ) методы для понимания значения слов и фраз и поиска связанных понятий, синонимов и другой связанной информации, которая может иметь отношение к поисковому запросу.

Чем это отличается от поиска с помощью ИИ? Являются ли семантический поиск и поиск ИИ одним и тем же?

Поиск ИИ – это общий и более широкий термин, который включает семантический поиск, а также другие методы машинного обучения для предоставления результатов поиска. Поиск с помощью ИИ обычно включает несколько этапов, включая обработку запросов, извлечение и ранжирование.

* Обработка запроса. Этот шаг включает анализ запроса пользователя, чтобы понять его намерения, масштаб и ограничения. Обработка запроса может включать в себя такие задачи, как разбор запроса на составные части, семантическое понимание ключевых слов и фраз, приведение запроса к стандартному формату и многое другое.

* Поиск: после обработки запроса система извлекает набор документов или элементов данных, соответствующих критериям запроса. Поиск ИИ обычно использует алгоритмы машинного обучения для определения сходства и измерения родства между терминами. для получения релевантных результатов.

* Рейтинг: после извлечения документов или элементов данных система ранжирует их на основе их релевантности и важности для запроса пользователя. Модели обучения для ранжирования, например обучение с подкреплением, используются для постоянной оптимизации результаты.

Отличается ли искусственный интеллект поисковых систем от генеративного искусственного интеллекта?

ChatGPT от OpenAI, Bard от Google, Midjourney и другие подобные технологии искусственного интеллекта — это то, что называется генеративным искусственным интеллектом. Эти решения общего назначения пытаются предсказать результаты на основе входных данных и фактически генерируют новый ответ. Они используют уже существующий текстовый и визуальный контент для создания чего-то нового.

С другой стороны, поисковые системы могут использовать ИИ для улучшения результатов поиска. Как и генеративный ИИ, поисковый ИИ можно использовать для понимания ввода на естественном языке. В отличие от генеративного ИИ, поисковые системы не создают никакого нового контента. Обе технологии могут использоваться вместе или независимо друг от друга. Технологии генеративного искусственного интеллекта могут использоваться для помощи в творческом выводе, а поиск используется для фильтрации и ранжирования результатов. Кто-то, кто ищет новые модные идеи, может спросить чат-бота о последних тенденциях, получить результаты, а затем использовать поиск, чтобы найти результаты. Или вы можете использовать поиск, чтобы найти продукты, а затем попросить чат объяснить плюсы и минусы каждого результата.

Генеративный ИИ для чата и поисковый ИИ часто обеспечивают лучший пользовательский опыт. через понимание естественного языка.

Использует ли поиск ИИ LLM?

Большие языковые модели (LLM) существуют уже некоторое время, но GPT уделяет им особое внимание. LLM — это модели искусственного интеллекта, обученные обрабатывать и генерировать текст на естественном языке. Эти модели обычно строятся с использованием методов глубокого обучения и требуют огромных объемов данных и вычислительных ресурсов для обучения. В Algolia мы тоже используем LLM, но для помощи в понимании машин. Мы используем LLM для создания векторов, которые можно использовать для сравнения запросов с результатами.

Что такое векторный поиск?

Векторизация — это процесс преобразования слов в векторы (числа), что позволяет кодировать их значение и математически обрабатывать. Вы можете думать о векторах как о группах чисел, которые что-то представляют. На практике векторы используются для автоматизации синонимов, кластеризации документов, обнаружения конкретных значений и намерений в запросах и ранжирования результатов. Встраивания очень универсальны, и другие объекты, такие как целые документы, изображения, видео, аудио и т. д., также могут быть внедрены.

Векторный поиск – это способ использования встраивания слов (или изображений, видео, документов, и т. д.), чтобы найти связанные объекты с похожими характеристиками, используя модели машинного обучения, обнаруживающие семантические отношения между объектами в индексе.

Image showing vector space dimensions. Similarity is often measured using Euclidean distance or cosine similarity.

Существует множество различных алгоритмов приближенного ближайшего соседа (ANN) для вычисления сходства векторов. Такие методы, как HNSW (Hierarchical Navigable Small World), IVF (Inverted File) или PQ (Product Quantization, метод уменьшения количества измерений вектора), являются одними из самых популярных методов ANN для поиска подобия между векторами. Каждый метод фокусируется на улучшении определенного свойства производительности, такого как сокращение памяти с помощью PQ или быстрое, но точное время поиска с помощью HNSW и IVF. Обычной практикой является смешивание нескольких компонентов для создания «составного» индекса для достижения оптимальной производительности для данного варианта использования.

Одной из проблем при работе с векторами является их размер. Как правило, это очень большие строки, требующие специализированных баз данных и управления графическим процессором. Нейронное хеширование — это новый процесс, в котором нейронные сети сжимают векторы, чтобы их можно было обработать. в 500 раз быстрее, чем стандартные векторные вычисления, и выполняются на обычном оборудовании.

Ключевые слова + векторы… Что такое гибридный поиск?

Гибридный поиск представляет собой сочетание векторного поиска с поиском по ключевым словам. Векторный поиск отлично подходит для нечетких или широких поисков, но поиск по ключевым словам по-прежнему доминирует над точными запросами. Например, когда вы запрашиваете «Adidas» в системе ключевых слов, по умолчанию вы видите только бренд Adidas. Поведение по умолчанию в векторном движке — возвращать похожие результаты — Nike, Puma, Adidas и т. д., потому что все они находятся в одном и том же концептуальном пространстве. Поиск по ключевым словам по-прежнему дает лучшие результаты для коротких запросов с конкретным намерением.

Гибридный поиск предлагает лучшее из обоих слов, обеспечивая скорость и точность для точных совпадений и простых фраз, в то время как векторы улучшают запросы с длинным хвостом и открывают дверь для новых поисковых решений. В Algolia скоро появится наше гибридное решение для искусственного интеллекта — Algolia NeuralSearch. Подробнее.

:::информация Также опубликовано здесь.

:::


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE