Руководство для начинающих по анализу неструктурированных данных с помощью LangChain и DeepInfra

Руководство для начинающих по анализу неструктурированных данных с помощью LangChain и DeepInfra

10 июня 2023 г.

В этом посте я расскажу вам, как использовать LangChain и DeepInfra для анализа неструктурированных данных. Мы изучим их возможности, поймем важность решений, основанных на данных, и научимся извлекать ценную информацию из структурированных и неструктурированных данных. Приготовьтесь обнаружить скрытые закономерности и сделать осознанный выбор с помощью этих мощных инструментов. Давайте погрузимся!

Что такое DeepInfra?

DeepInfra – это мощная платформа машинного обучения, которая предлагает быстрые и масштабируемые выводы для лучших моделей ИИ. Благодаря простому API вы можете легко запускать модели ИИ и платить только за то, что используете. Он предоставляет недорогую, готовую к производству инфраструктуру, которая позволяет превращать модели в масштабируемые API-интерфейсы всего за несколько кликов. DeepInfra разработана как платформа самообслуживания, что позволяет разработчикам легко развертывать свои модели машинного обучения и получать выгоду от ее эффективной и экономичной инфраструктуры.

Магия LangChain для анализа данных

истинная сила LangChain заключается в его способности извлекать ценную информацию как из структурированных, так и из неструктурированных данных. Теперь структурированные данные уже организованы таким образом, что машины могут легко их понять. Однако с неструктурированными данными, такими как сообщения в социальных сетях, текстовые документы и отзывы клиентов, работать немного сложнее, поскольку им не хватает внутренней организации. Тем не менее, этот тип данных часто содержит золотую жилу неиспользованной информации, которую только и ждут, чтобы ее обнаружили и использовали для принятия стратегических решений.

Давайте возьмем в качестве примера коллекцию отзывов клиентов, переполненную неструктурированными, но жизненно важными данными. LangChain, оснащенный передовыми методами обработки естественного языка (NLP), может просеивать эти данные, выполнять анализ настроений и предоставлять бесценную информацию об отношении клиентов к продукту или услуге. Аналогичным образом, анализируя сообщения в социальных сетях, LangChain может выявлять новые тенденции, помогая компаниям согласовывать свои стратегии с текущей динамикой рынка.

Но LangChain не ограничивается только неструктурированными данными. Он одинаково эффективен и при анализе структурированных данных. Например, его можно использовать для анализа данных о продажах и выявления тенденций с течением времени, определения самых продаваемых продуктов или выявления закономерностей в покупательском поведении клиентов. Однако в этом руководстве мы сосредоточимся в первую очередь на неструктурированных данных и на том, как LangChain обрабатывает их с помощью модели FLAN-T5.

Использование модели FLAN-T5 для анализа данных

модель FLAN-T5 – это языковая модель, которая хорошо зарекомендовала себя. - настроенный на разнообразный набор из более чем тысячи задач, он доказал свое превосходство, продемонстрировав замечательную производительность в различных тестах. На самом деле, он превосходит даже более крупные модели в своей способности учиться на ограниченных данных, что является свидетельством невероятной изобретательности команды Google, которая его создала.

Более того, модель FLAN-T5 не только эффективна, но и впечатляюще универсальна с точки зрения языковой поддержки. Он может легко работать с широким спектром языков, от широко распространенных, таких как английский, испанский, французский и немецкий, до менее известных языков, таких как йоруба, курдский и чжуан. Однако важно проявлять осторожность при использовании FLAN-T5 или любой другой модели ИИ в этом отношении, поскольку у нее есть свои ограничения, о которых вы можете прочитать здесь.

Пошаговое руководство: использование LangChain для анализа данных с помощью DeepInfra

Теперь, когда у нас есть хорошее представление о LangChain и модели FLAN-T5, давайте углубимся в то, как мы можем использовать их для анализа данных с помощью DeepInfra. Ниже приведено пошаговое руководство по анализу примера файла с неструктурированными данными, в данном случае адресом штата Союз. Вы можете найти файл, который мы будем оценивать, здесь.

Настройка среды

Для начала вам необходимо импортировать необходимые библиотеки и настроить токен DeepInfra API. Замените «YOURTOKEN» вашим фактическим токеном DeepInfra API. Вот код:

from langchain import ConversationChain, LLMChain, PromptTemplate
from langchain.llms import DeepInfra
from langchain.document_loaders import TextLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains.question_answering import load_qa_chain
from getpass import getpass
import os
DEEPINFRA_API_TOKEN = getpass()
os.environ["DEEPINFRA_API_TOKEN"] = "YOURTOKEN"

Создайте экземпляр DeepInfra

Для этой демонстрации мы будем использовать модель google/flan-t5-xl. Вот код, который вам нужен — такой короткий!

llm = DeepInfra(model_id="google/flan-t5-xl")

Загрузите документы

Вы можете загрузить текстовые файлы с неструктурированными данными в LangChain. В этом примере мы используем файл с именем «state_of_the_union.txt». Вот код:

loader = TextLoader('./state_of_the_union.txt')
docs = loader.load()

Запрос ваших данных

Теперь вы можете выполнять запросы к загруженным документам. Например, если вы хотите найти упоминания о «свободе» в файле «state_of_the_union.txt», используйте следующий код:

query = "What did the president say about freedom?"

Запустить цепочку ответов на вопросы

Наконец, запустите цепочку ответов на вопросы, используя загруженные документы и ваш запрос. Вот код:

chain = load_qa_chain(llm)
output = chain.run(input_documents=docs, question=query)
print(output)

Какой результат вы получаете? Вот что у меня получилось:

freedom will always triumph over tyranny

Ресурсы и примеры

Чтобы глубже погрузиться в анализ данных с помощью LangChain и DeepInfra, вот несколько ресурсов, которые стоит изучить:

  1. Руководство Langchain по ответам на вопросы вместо документации
  2. Концептуальное руководство по контролю качества
  3. Введение в примеры использования LangChain с DeepInfra
  4. Ответы на вопросы и анализ документов с помощью LangChain и DeepInfra
  5. Создание Чат-бот службы поддержки клиентов с LangChain и DeepInfra: пошаговое руководство

Заключение

В заключение следует отметить, что LangChain и DeepInfra предоставляют стартапам мощные инструменты для анализа данных. Используя платформу LangChain для обработки данных и агентов, а также масштабируемую инфраструктуру DeepInfra, предприятия могут извлекать ценную информацию из структурированных и неструктурированных данных для принятия обоснованных решений.

Воспользуйтесь мощью LangChain и DeepInfra для извлечения информации из данных. Удачи!

Подпишитесь или следите за мной в Twitter, чтобы получать больше подобных материалов!

:::информация Также опубликовано здесь.

:::


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE