Простое руководство по скрытому семантическому индексированию (анализу) и тому, как оно помогает поиску
21 апреля 2023 г.Вы говорите «поты», кто-то другой говорит «джоггеры».
Он говорит «пятое колесо», она говорит «кемпер», ваш сосед говорит «дом на колесах».
Некоторые люди называют кинозвезд «богатыми»; другие описывают их как «богатых».
Английский язык развивался интересным образом вместе с различными группами словарных запасов людей, так что теперь у нас есть множество (богатство?) похожих слов и фраз — синонимов — для использования в качестве вариантов общения. Кроме того, некоторые из наших слов (например, «мышь») означают совершенно разные вещи.
Неоднозначность, вызванная этим явлением, может быть проблемой, например, когда в дело вмешиваются компьютерные науки. Благодаря использованию людьми естественного языка и уникальных слов каждый день создаются и распространяются огромные объемы информации и коллекции документов: исследования, электронные письма, школьные задания, веб-страницы, сообщения в социальных сетях, сообщения в блогах, расшифровки звонков, новости, поиск. запросы. И помимо создания новых документов есть масса возможностей для редактирования старых.
Благодаря обработка естественного языка (NLP), языковые нюансы, которые используют разные люди и ожидают услышать, могут быть преобразованы в информацию, которую программам легче понять и использовать или применять «разумно».
В частности, поиск по веб-сайтам и приложениям выигрывает от первоклассной технологии НЛП. В конце концов, если кто-то ищет «колготки» на веб-сайте электронной коммерции, где они упоминаются только как «леггинсы», и поисковая система не знает, что эти термины используются взаимозаменяемо или по-разному в разных географических группах. , покупателю, использующему неправильный поисковый запрос, скорее всего, не повезет.
Что такое скрытое семантическое индексирование?
К счастью, у нас есть скрытое семантическое индексирование (LSI; также называемое скрытым семантическим анализом или сокращенно LSA), разработанное для создания векторов и выполнения поиска информации. В этом техническом методе НЛП используется математический метод, называемый разложением по сингулярным числам (SVD), который ищет отношения между понятиями и словами в неструктурированных данных.
LSA анализирует отношения между документами и содержащимися в них терминами, сокращая количество измерений. Это полезно для понимания связанности документов путем анализа того, какие термины часто используются вместе — например, «королевская власть» и «королева» — в качестве прелюдии к построению модели семантической связанности.
LSI не новинка. Задолго до появления Интернета — в начале 1980-х годов — эта статистическая модель была разработана для облегчения сопоставления текстов. Это запатентованная технология (Bell Communications Research). В то время одним из его основных применений было помощь поисковым системам в понимании отношений между понятиями и словами, чтобы предоставить людям наиболее релевантные результаты поиска для их поисковых запросов. И хотя срок действия патента истек в 2008 году, он по-прежнему пользуется популярностью в мире науки о данных.
Для улучшения поиска он по-прежнему используется для обновления функций поиска на сайтах и в приложениях. Принцип работы технологии немного сложен, но достаточно сказать, что он связан с созданием векторов и поиском информации, несмотря на то, что люди вводят «альтернативные» слова тем, которые размещены в индексе сайта или приложения. Преимущество заключается в том, что он помогает людям быстрее находить нужный им контент, что повышает удовлетворенность пользователей, а также повышает показатели и доходы организаций и предприятий.
Что такое ключевые слова LSI?
Возможно, вы слышали термин "ключевые слова LSI", используемый в отношении стратегии поиска Google и поисковой оптимизации (SEO). Если да, то вы в хорошей компании, но мы должны временно отвлечься.
По словам старшего поискового аналитика Google Джона Мюллера, «ключевые слова LSI» не являются жизнеспособной вещью (равно как и такие вещи, как «предложения ключевых слов LSI», акт «поиска ключевых слов LSI», или планы «использовать генераторы ключевых слов LSI» или установить планировщик ключевых слов Google), по крайней мере, в контексте ключевых слов, связанных с Google, и инструментов SEO.
Заметки Роджера Монтти Search Engine Journal что миф о том, что Google использует ключевые слова LSI, может возникнуть из-за использования таких фраз, как «Семантический анализ», «Семантическое индексирование» и «Семантический поиск», которые стали модными словечками SEO, получившими жизнь благодаря технологии семантического поиска Ask Jeeves и покупке Google семантического поиска. аналитическая компания Applied Semantics». Гуру SEO Билл Славски подробно рассказывает об этом в сообщении в блоге.
Хорошо знать. Но если оставить в стороне эту ситуацию с Google, LSI по-прежнему актуальна в мире поиска. Ключевыми словами являются семантически связанные ключевые слова. Семантические ключевые слова по-прежнему требуют серьезного внимания, если вы хотите, чтобы веб-сайт или контент-маркетинг работали эффективно. Семантический поиск – это эффективное начинание, которое имеет разветвления с точки зрения добавления функций поиска на сайт или в приложение компании.
Синонимы: одна и та же идея в разных версиях
Чтобы выдавать точные результаты поиска, методы поиска поисковых систем должны быть в состоянии эффективно «понимать» и работать с синонимами, этими надоедливыми словами и фразами, которые не по своей вине имеют то же значение, что и другие слова и фразы.
Синонимы, конечно, не редкость. Даже в одной отрасли, такой как розничная торговля, их много из-за различных способов, которыми разные группы людей, например, говорящие на разных диалектах, думающие о товарах в разных контекстах, или выходцы из разных стран, относятся к одному и тому же товару или идея.
Это случается чаще, чем вы думаете. Пользователь, выполняющий поиск на сайте интернет-магазина одежды, может, естественно, подумать о том, чтобы ввести поисковый запрос для:
* рубашка, блузка, или топ * дамская сумочка, сумка, или кошелек * брюки или брюки * куртка, парка, или пальто * шляпа или кепка
Некоторые из этих терминов являются жертвами чрезмерного использования; другие считаются странными по общепринятым стандартам, потому что, например, их используют только определенные возрастные группы. Несмотря на огромную пропасть синонимов, поисковая система должна хорошо знать их все.
Полисемия: разные вещи под одним и тем же названием
Стол, мышь, острый... все это полисемы — слова с более чем одним значением. И, как и в случае с синонимами, с многозначностью ключевое значение имеет получение поисковой системой уверенного понимания того, на какую версию вы ссылаетесь.
Как скрытое семантическое индексирование улучшает поиск
С точки зрения цифрового маркетинга, если покупатель не может открыть страницу с хорошими результатами для того, что ему нужно, это насущная проблема. Если вы не можете предложить релевантные похожие поисковые запросы когда покупатель не получает полезных результатов по своему основному ключевому слову, это большой красный флаг. Для успеха онлайн-бизнеса необходимо учитывать каждый синоним; каждый известный связанный термин, каждое возможное семантически связанное слово или фраза, должным образом ожидаемые.
Озадачивает ли эта лингвистически сложная ситуация среднестатистическую современную поисковую систему?
Только не с LSI на картинке семантического поиска. Статистически анализируя слова, которые появляются в текстовом документе, он может предсказать, какое из синонимичных слов имеет разные значения, и ответить наиболее точной страницей результатов поисковой системы (SERP). А когда дело доходит до полисемии, он может сказать, какую версию слова хочет искатель.
Секрет: векторы
В Algolia этот тип технология семантического поиска относится к области векторного поиска. Используя модели машинного обучения, обнаруживающие семантические отношения между объектами в индексе, он находит связанные объекты со схожими характеристиками. (Вот некоторые сведения о том, как косинусное сходство определяет близость значения слова). Применяются векторные встраивания (также известные как "встраивания слов" или просто "векторы"), а также орфографическая коррекция, языковая обработка и сопоставление категорий.
Модели искусственного интеллекта (ИИ), основанные на векторных двигателях, могут мгновенно получать точную информацию. Они могут понять, что такие слова и фразы, как «садоводство» и «работа во дворе», являются родственными словами. Они знают, что кто-то, кто ищет «Puma», ищет спортивную обувь как соответствующий контент, а не крупную дикую кошку. «Они могут быстро выйти за пределы точного соответствия ключевых слов и немедленно предоставить оптимальные релевантные результаты.
Наше поисковое решение сочетает в себе эту функциональность векторного пространства на основе ИИ с традиционным поиском по ключевым словам, чтобы предложить настоящий гибридный поиск, охватывающий все базы. Применяя полнотекстовый поиск по ключевым словам и векторный поиск к каждому запросу, пользователи получают очень точные и быстрые результаты.
Если вы хотели, чтобы ваши пользователи или покупатели получали абсолютно правильные результаты поиска, чувствовали себя понятыми в своих информационных запросах и имели отличный пользовательский опыт независимо от конкретных ключевых слов, которые они первоначально вводят в строку поиска, вы находитесь в нужное место.
* Мы можем помочь вам добавить текстовый поиск на естественном языке к функциям поиска по сайту, создать возможности поиска изображений, создать мощную систему рекомендаций. * Мы можем удовлетворить потребности набора данных любого размера без дополнительных затрат. * Наш алгоритм устранения совпадений взвешивает и сравнивает совпадающие элементы, гарантируя, что лучшие совпадения появятся первыми.
Есть и дополнительный бонус: обновление функций поиска может привести к неожиданным улучшениям ваших конверсий; просто спросите у наших клиентов, которые знают об этом не понаслышке.
Подпишитесь на бесплатную демонстрацию или дайте нам знать, когда вы будете готовы узнать больше.
:::информация Также опубликовано здесь а>.
:::
Оригинал