machine-learning machine-learning chatbot

Учебное пособие о том, как создать свой собственный RAG и запустить его локально: Langchain + Ollama + Streamlit

15 декабря 2023 г.

С появлением больших языковых моделей и их впечатляющими возможностями на базе таких гигантских поставщиков LLM, как OpenAI и Anthropic, создается множество необычных приложений. Мифом таких приложений является структура RAG, которая подробно описана в следующих статьях:

Что такое генерация с расширенным поиском?

Для знакомства с RAG рекомендую просмотреть эти статьи. Однако в этой статье мы пропустим основы и покажем вам, как создать собственное приложение RAG, которое можно будет запускать локально на вашем ноутбуке, не беспокоясь о конфиденциальности данных и стоимости токенов.

Мы создадим приложение, похожее на ChatPDF, но более простое. Где пользователи могут загружать PDF-документы и задавать вопросы через простой пользовательский интерфейс. Наш стек технологий очень прост: Langchain, Ollama и Streamlit.

Сервер LLM. Наиболее важным компонентом этого приложения является сервер LLM. Благодаря Ollama у нас есть надежный LLM-сервер, который можно настроить локально, даже на ноутбуке. Хотя llama.cpp является вариантом, я считаю, что Ollama, написанная на Go, проще установить вперед и вперед.

* RAG: Несомненно, двумя ведущими библиотеками в области LLM являются Langchain и LLamIndex. В этом проекте я буду использовать Langchain, поскольку знаком с ним по профессиональному опыту. Важным компонентом любой среды RAG является векторное хранилище. Мы будем использовать здесь Chroma, поскольку он хорошо интегрируется с Langchain.

* Интерфейс чата. Пользовательский интерфейс также является важным компонентом. Хотя существует множество доступных технологий, для спокойствия я предпочитаю использовать Streamlit, библиотеку Python.

Хорошо, приступим к настройке.

Настройка Олламы

Как упоминалось выше, настройка и запуск Ollama просты. Сначала посетите ollama.ai и загрузите приложение, подходящее для вашей операционной системы.

Затем откройте терминал и выполните следующую команду, чтобы получить последнюю версию Mistral-7B. Хотя существует множество других моделей LLM, я выбираю Mistral-7B из-за его компактных размеров и конкурентоспособного качества.< /п>

ollama pull mistral

После этого запустите ollama list, чтобы проверить, правильно ли была получена модель. Вывод терминала должен выглядеть следующим образом:

Теперь, если сервер LLM еще не запущен, запустите его с помощью ollama serve. Если вы столкнулись с сообщением об ошибке, например "Ошибка: прослушайте tcp 127.0.0.1:11434: привязка: адрес уже используется", это означает, что сервер уже запущен по умолчанию, и вы можете перейти к следующему шаг.

Создание конвейера RAG

Вторым шагом в нашем процессе является создание конвейера RAG. Учитывая простоту нашего приложения, нам в первую очередь нужны два метода: ingest и ask.

Метод ingest принимает путь к файлу и загружает его в векторное хранилище в два этапа: во-первых, он разбивает документ на более мелкие фрагменты, чтобы соответствовать лимиту токенов LLM; во-вторых, он векторизует эти фрагменты с помощью Qdrant FastEmbeddings и сохраняет их в Chroma.

Метод ask обрабатывает запросы пользователей. Пользователи могут задать вопрос, а затем RetrivalQAChain извлекает соответствующие контексты (фрагменты документов), используя методы поиска векторного сходства.

Используя вопрос пользователя и полученные контексты, мы можем составить подсказку и запросить прогноз от сервера LLM.

from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOllama
from langchain.embeddings import FastEmbedEmbeddings
from langchain.schema.output_parser import StrOutputParser
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema.runnable import RunnablePassthrough
from langchain.prompts import PromptTemplate
from langchain.vectorstores.utils import filter_complex_metadata


class ChatPDF:
    vector_store = None
    retriever = None
    chain = None

    def __init__(self):
        self.model = ChatOllama(model="mistral")
        self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=100)
        self.prompt = PromptTemplate.from_template(
            """
            <s> [INST] You are an assistant for question-answering tasks. Use the following pieces of retrieved context 
            to answer the question. If you don't know the answer, just say that you don't know. Use three sentences
             maximum and keep the answer concise. [/INST] </s> 
            [INST] Question: {question} 
            Context: {context} 
            Answer: [/INST]
            """
        )

    def ingest(self, pdf_file_path: str):
        docs = PyPDFLoader(file_path=pdf_file_path).load()
        chunks = self.text_splitter.split_documents(docs)
        chunks = filter_complex_metadata(chunks)

        vector_store = Chroma.from_documents(documents=chunks, embedding=FastEmbedEmbeddings())
        self.retriever = vector_store.as_retriever(
            search_type="similarity_score_threshold",
            search_kwargs={
                "k": 3,
                "score_threshold": 0.5,
            },
        )

        self.chain = ({"context": self.retriever, "question": RunnablePassthrough()}
                      | self.prompt
                      | self.model
                      | StrOutputParser())

    def ask(self, query: str):
        if not self.chain:
            return "Please, add a PDF document first."

        return self.chain.invoke(query)

    def clear(self):
        self.vector_store = None
        self.retriever = None
        self.chain = None

Приглашение получено из хаба Langchain: Langchain RAG Prompt для Mistral . Эта подсказка была протестирована и загружена тысячи раз и служит надежным ресурсом для изучения методов подсказок LLM.

Вы можете узнать больше о методах подсказок LLM здесь.

Подробнее о реализации:

* ingest: мы используем PyPDFLoader для загрузки PDF-файла, загруженного пользователем. RecursiveCharacterSplitter, предоставленный Langchain, затем разбивает этот PDF-файл на более мелкие фрагменты. Важно отфильтровывать сложные метаданные, не поддерживаемые ChromaDB, с помощью функции filter_complex_metadata из Langchain.

Для векторного хранения используется Chroma в сочетании с Qdrant FastEmbed в качестве модели внедрения. Эта облегченная модель затем преобразуется в ретривер с порогом оценки 0,5 и k=3, что означает, что она возвращает 3 верхних фрагмента с наивысшими оценками выше 0,5. Наконец, мы создаем простую цепочку диалогов, используя LECL.

* ask: этот метод просто передает вопрос пользователя в нашу предопределенную цепочку, а затем возвращает результат.

* clear: этот метод используется для очистки предыдущего сеанса чата и хранилища при загрузке нового PDF-файла.

Набросок простого пользовательского интерфейса

Для простого пользовательского интерфейса мы будем использовать Streamlit, инфраструктуру пользовательского интерфейса, предназначенную для быстрого создания прототипов ИИ. /ML-приложения.

import os
import tempfile
import streamlit as st
from streamlit_chat import message
from rag import ChatPDF

st.set_page_config(page_title="ChatPDF")


def display_messages():
    st.subheader("Chat")
    for i, (msg, is_user) in enumerate(st.session_state["messages"]):
        message(msg, is_user=is_user, key=str(i))
    st.session_state["thinking_spinner"] = st.empty()


def process_input():
    if st.session_state["user_input"] and len(st.session_state["user_input"].strip()) > 0:
        user_text = st.session_state["user_input"].strip()
        with st.session_state["thinking_spinner"], st.spinner(f"Thinking"):
            agent_text = st.session_state["assistant"].ask(user_text)

        st.session_state["messages"].append((user_text, True))
        st.session_state["messages"].append((agent_text, False))


def read_and_save_file():
    st.session_state["assistant"].clear()
    st.session_state["messages"] = []
    st.session_state["user_input"] = ""

    for file in st.session_state["file_uploader"]:
        with tempfile.NamedTemporaryFile(delete=False) as tf:
            tf.write(file.getbuffer())
            file_path = tf.name

        with st.session_state["ingestion_spinner"], st.spinner(f"Ingesting {file.name}"):
            st.session_state["assistant"].ingest(file_path)
        os.remove(file_path)


def page():
    if len(st.session_state) == 0:
        st.session_state["messages"] = []
        st.session_state["assistant"] = ChatPDF()

    st.header("ChatPDF")

    st.subheader("Upload a document")
    st.file_uploader(
        "Upload document",
        type=["pdf"],
        key="file_uploader",
        on_change=read_and_save_file,
        label_visibility="collapsed",
        accept_multiple_files=True,
    )

    st.session_state["ingestion_spinner"] = st.empty()

    display_messages()
    st.text_input("Message", key="user_input", on_change=process_input)


if __name__ == "__main__":
    page()

Запустите этот код с помощью команды streamlit run app.py, чтобы увидеть, как он выглядит.

Хорошо, вот и все! Теперь у нас есть приложение ChatPDF, которое полностью работает на вашем ноутбуке. Поскольку этот пост в основном посвящен общему обзору того, как создать собственное приложение RAG, есть несколько аспектов, которые требуют тонкой настройки. Вы можете рассмотреть следующие предложения, чтобы улучшить свое приложение и развить свои навыки:

* Добавить память в цепочку разговора: в настоящее время он не запоминает ход разговора. Добавление временной памяти поможет вашему помощнику понимать контекст.

* Разрешить загрузку нескольких файлов: можно обсуждать одновременно один документ. Но представьте, если бы мы могли обсуждать несколько документов — вы могли бы поместить туда всю свою книжную полку. Это было бы очень круто!

* Используйте другие модели LLM. Хотя Mistral эффективен, существует множество других альтернатив. Возможно, вы найдете модель, которая лучше соответствует вашим потребностям, например LlamaCode для разработчиков. Однако помните, что выбор модели зависит от вашего оборудования, особенно от объема оперативной памяти 💵

* Расширение конвейера RAG: внутри RAG есть место для экспериментов. Возможно, вы захотите изменить метрику поиска, модель внедрения или добавить слои, например систему повторного ранжирования, чтобы улучшить результаты.

Наконец, спасибо за чтение. Если вы считаете эту информацию полезной, рассмотрите возможность подписки на мой Substack или мой личный блог. Я планирую написать больше о приложениях RAG и LLM, и вы можете предлагать темы, оставив комментарий ниже. Ура!

Полный исходный код: https://github.com/vndee/local-rag-example

Оригинал

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве
20 августа 2025 г.

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему
20 августа 2025 г.

5 Рабочие процессы агента AI для повторяемого успеха (включен код)
20 августа 2025 г.

Почему OCR борется со страницами с несколькими колоннами
20 августа 2025 г.

Все, что я узнал (трудный путь) как начинающий основатель AI SaaS
20 августа 2025 г.

Categories

Python

blockchain

web

hackernoon

вычисления

вычислительные компоненты

цифровой дом

игры

аудио

домашний кинотеатр

Интернет

Мобильные вычисления

сеть

фотосъемка видео

портативные устройства

программного обеспечения

телефон и связь

телевидение

видео

мир технологий

умные гиды

облако

искусственный интеллект

се

Samsung

умные города

digitaltrends

отели

Startups

Venture

Crypto

Apps

безопасность

техника и работа

cxo

мобильность

разработчик

5г

майкрософт

инновации

Права и свободы

Законодательство и право

Политика и общество

Космическая промышленность

Информационные технологии

Технологии

Образование

Научные исследования

Автомобильная промышленность

Программная инженерия

IT и технологии

Веб-разработка

Программирование

Автоматизация

Карьерный рост

Программирование и анализ данных

Трудоустройство

Политика

Искусственный интеллект

ИТ-технологии

Программное обеспечение

Экологическая политика

Образование и рынок труда

Политика и право

Microsoft Teams и SharePoint

Информационная безопасность

Кибербезопасность

Налоги

Образование и карьера

Интернет и технологии

Технологии, Государственные услуги

Политика и технологии

Разработка программного обеспечения

Разработка ПО

Машинное обучение

Налогообложение, технологии, открытый исходный код

Финансы и налоги

Технологии, Интернет, Экология

Интернет, безопасность

Технологии и политика

Операционные системы

Профессиональная разработка

Технологии, Безопасность

Интернет и общество

Финансовая индустрия

Налоговый учёт

Общественное здравоохранение

Технологическая отрасль

Юриспруденция

Технологии и государство

Здоровье и фитнес

IT-инфраструктура

Технологии и ИИ

Здравоохранение

IT

Технологии, Экономика

Музыка и технологии

Здоровье и питание

IT и безопасность

Бизнес и предпринимательство

Технологии, Программное обеспечение

Технологии и инновации

Технологии, данные, этика

Технологии и Интернет

Технологии и SaaS

Медицина и здравоохранение

Онлайн-видеосервисы

Финансы и технологии

Чтение и саморазвитие

Экономика и бизнес

Безопасность данных

Удаленная работа

Авиация и технологии

Технологии, Игры

Энергетика

Социальные сети, безопасность, технологии

Саморазвитие

Безопасность информации

Бизнес и карьера

Технологии и отношения

Игровая индустрия

Компьютерная индустрия

Математика, Искусственный интеллект

Наука и технологии

Технологии и безопасность

Технологии, Удаленная работа, Бизнес

Видеоигры

Технологии, Искусственный интеллект, Этика

Технологии, социальные сети, 6G

Технологии, Программирование, AI, Разработка ПО

Программирование, Разработка ПО, Технологии

Животные

Технологии, Искусственный интеллект

Программирование, карьера, технологии, обучение

Бизнес и технологии

Технологии, Безопасность данных

Астрономия и физика

Продуктивность, личное развитие

Медиа и Технологии

Программирование и Искусственный Интеллект

Социальные сети

Политика и экономика

Технологии, Медицина, Искусственный интеллект

Технологии и управление

Космос и астрономия

Общество и политика

Космические исследования

Веб-дизайн

Искусственный интеллект и безопасность данных

Технологии, Безопасность, Конфиденциальность

Экологическая проблема

Технологии, Погода

Авиация

Транспортная сфера

Технологии и бизнес

Игровая промышленность

Телевидение и реклама

Аналитика данных

Технологии и кибербезопасность

Маркетинг

Технологии и гаджеты

Технологии, Авиация, Инновации

Финансы и инвестиции

Технологии и общество

Рыночный анализ

Космология

Данные и бизнес

IT и программирование

Технологии и право

Программирование и разработка

Астрофизика

Медицинские технологии

Авиационная промышленность

Технологии и искусственный интеллект

Генетическая инженерия

Бизнес и инвестиции

Компьютерная промышленность

Психология и социология

Образование и технологии

Рынок труда

Технологии, Стартапы

Технологии, Приватность, Чтение

Маркетинг и продажи

Виртуальная реальность

Технологии, Смартфоны, Маркетинг

Технологии, Бизнес, Личностный рост

Экологические проблемы

Экономика и технологии

IT и карьера

Интернет и безопасность

Разработка и технологии

Биотехнологии

Интернет-магазины, кибербезопасность

Финансы

Безопасность и технологии

Экономика

Защита данных

Data Science

Карьера и работа

Финансовый успех, мошенничество, маркетинг

Безопасность

Экология

Космическая индустрия

Программирование, Python, Обучение

Технологии искусственного интеллекта

Технологии, Дизайн, iOS

Программирование, DevOps, Kubernetes

Социальные сети и пропаганда

Корпоративная этика

Управление IT-инфраструктурой

Здоровье и медицина

Медицина

Медицинская промышленность

Разработка и дизайн

Искусственный интеллект, Диагностика систем

Образование и психология

Технологии, Автомобильная промышленность

Автомобили и путешествия

Астрономия и космология

Программирование и технологии

IT, работа в офисе, эмоциональный интеллект

Компьютерная техника

Здоровье и благополучие

Управление персоналом

Политика и управление

Бизнес и экономика

Социальные сети, Пропаганда, Информационная безопасность

Технологии и автоматизация

Геймдизайн

Экология и технологии

CRM-системы, IT-инфраструктура

Права человека

Цифровая цензура, свобода слова, технологии

Технологии, Искусственный интеллект, Работа

Наука о данных

Астрономия, Наука

Интернет и цифровые технологии

Технологии, управление

Интернет и связь

Технологии и конфиденциальность

Интернет и свобода слова

Психология и социальные науки

Книги и литература

Работа и карьера

Финансовые технологии

Психология и саморазвитие

IT, программирование, сети

Технологии, Видеоигры

Экология и энергетика

Космонавтика

Медицина и технологии

Игры и развлечения

Музыкальная индустрия

Логистика и складирование

Бизнес и финансы

Экология и окружающая среда

Правозащита

Социальные сети и дезинформация

Технологии и рынок труда

Технологии, Искусственный интеллект, Рынок труда

Технологии и будущее

Медицина и здоровье

Социальные медиа

Экология, политика, общество

Экономика и Финансы

Разработка игр

Пропаганда и дезинформация

Медицинские исследования

Онлайн-знакомства

Политика и СМИ

Энергетика и электромобили

Климатические изменения

Технологии, Рынок труда

IT и управление данными

Безопасность и кибербезопасность

Интернет-технологии

Психология и личностное развитие

Технологии, Мессенджеры

Цифровые технологии

Здоровье и самосовершенствование

Технологии и AI

Технологии и спорт

IT, Разработка программного обеспечения

Экология и климат

Космос и технологии

Юридическая сфера

Безопасность в интернете

Программирование, Искусственный Интеллект, Качество ПО

Технологии и мессенджеры

Социальная справедливость

Технологическая индустрия

Личностное развитие, Time-менеджмент, Психология

Бизнес и менеджмент

Технологии, Микросхемы, Автономные системы

Фриланс и предпринимательство

Социальные сети и искусственный интеллект

Криминальные дела

Социальные сети, Маркетинг

Энергетика и экология

Технологии, Искусственный Интеллект, Полиция

Программирование, Искусственный интеллект, Рынок труда

Социальные сети, дезинформация, анализ данных

Потребительские права

Образование и наука

Технологии и правосудие

Технологии, Безопасность, Автомобили

Энергетика и окружающая среда

Личностное развитие

Технологии и экономика

Медиа и коммуникации

Миграция и иммиграция

Личностный рост

Налоговая система

Медиа и телевидение

Интернет и телекоммуникации

Технологии, Кибербезопасность

Здоровье

Социальные сети и карьера

Политика и инфраструктура

Предпринимательство

Промышленность программного обеспечения

СМИ и коммуникации

Медиа и Общество

Медицина и генетика

Веб-разработка и дизайн

Технологии, процессоры

IT-индустрия

Кинопроизводство и технологии

Транспорт

Текстовый анализ

Технологии, дизайн интерфейсов

Офисные приложения

Технологии, Онлайн-сервисы

Медицина и биотехнологии

Общество и технологии

Экономика и рынок труда

Искусственный интеллект, программирование, аналитика

Технологии, следствие

Сетевые технологии

Технологии и веб-разработка

Программирование, Обучение, Практика

Коммуникации и ИТ

Технологии, Карьера, Экономика

Технологии и транспорт

Здравоохранение и медицина

Технологии, Государственное управление

IT-безопасность

IT и разработка

Финансы и экономика

Социальные сети, Общество, Сообщества

IT-разработка

СМИ и политика

Конфиденциальность и безопасность

Экономика и политика

Технологии и общественная жизнь

Бизнес и этика

Безопасность и защита информации

Технологии, бизнес

Интернет и цензура

Государственное регулирование

Игры, Технологии

Технологии и оптимизация

Технологии ИИ и машинного обучения

Технологии, IT, карьера

IT и программное обеспечение

Право и преступность

Криминал и Правоохранительные Органы

Технологии и энергетика

Нефтяная промышленность

Социальные конфликты

Преступность и безопасность

Таможенная очистка

Медиа и журналистика

Технологии и разработка приложений

Телекоммуникации

Консалтинг и управление

Управление человеческими ресурсами

Онлайн-контент

Психология и психотерапия

Морская отрасль

Психология и технологии

Социальные проблемы

Маркетинг и реклама

Политика и власть

Экономика и торговля

Карьера и развитие

Продуктивность и Управление Временем

Технологии, Искусственный интеллект, Реклама

Окружающая среда

Здоровье и технологии

Бытовая химия

Правовая информация

Юстиция

Технологии и экология

Социальные сети и безопасность

Базы данных

Политика и государственное управление

Интернет и социальные сети

Индустрия IT

Технологии и программное обеспечение

История и искусственный интеллект

Рестораны и обслуживание

Технологии и программирование

Социология

Телевидение и СМИ

Психология

Политика и бизнес

Мобильные устройства

Технологии и развлечения

Экология и охрана окружающей среды

Маркетинг и брендинг

Медицинская индустрия

Кибербезопасность и технологии

Социальные сети и политика

Развлечения

ИТ и автоматизация

Криптовалюты и блокчейн

История и идеология

Медицина и политика

Личная жизнь миллиардеров

Образование и Политика

Туризм и отдых

Психология и искусственный интеллект

Удаленная работа и производительность

Выживание

Управление командами

Разработка

Международная торговля

Корпоративная ответственность

Социальные сети и общество

Управление серверами

Индустрия компьютерных игр

Политика и климат

Онлайн-игры

Медицинская отрасль

Искусственный интеллект и технологии

Религия и мораль

Путешествия

Социальные сети и информация

Технологии и медиа

Технологии и свобода

Электронная коммерция

Бизнес и управление

Психическое здоровье и технологии

Технологии и устойчивое развитие

Технологии и социальные сети

Профессии

Экономика и промышленность

Технологии и трудоустройство

Иммиграционная политика

Продуктивность и фокус

Технологии и робототехника

Свобода слова

Психология и власть

Социальные сети и онлайн-платформы

Технологии и Права Человека

СМИ и журналистика

Окружающая среда и здоровье

Технологии и сервисы

Индустрия игр

Программирование и ИИ

Медиа и пропаганда

Социальная сфера

Социальные сети и общественное мнение

Поп-культура

Сервисы потокового вещания

Рынок развлечений

Социальные медиа и политика

Технологии и информация

Медиа и развлечения

Квантовая криптография

Искусственный интеллект в индустрии развлечений

Технологии и коммуникация

Индустрия программирования

Финансовая безопасность

Международные отношения

Бизнес и лидерство

Технологические новости и аналитика

Программное обеспечение и технологии

Предпринимательство и малый бизнес

Политика и общественный контроль

Здравоохранение и политика

Управление персоналом и эффективность разработки

Технологии и ИТ‑управление

Свобода слова и дезинформация

Веб-дизайн и разработка

Веб‑разработка и карьера

Культура и общество

Цифровые права и свобода слова

Безопасность и искусственный интеллект

Технологии и искусство

Мобильные приложения

Продуктивность

Космические технологии и безопасность

Технологические тренды и экономика

Безопасность и конфиденциальность

Продуктивность и личная эффективность

Веб‑скрейпинг и автоматизация

Политика и социальные сети

Политика и безопасность

Медиа и информационное пространство

Медицина и Психология

Интернет‑культура и медиа

Технологии и разработка

Сociety

Развитие интеллекта и профессиональные навыки

Linux, программирование