10 шокирующих фактов о том, как сотрудники тайно кормят ChatGPT конфиденциальными данными и как это может разрушить ваш бизнес

3 декабря 2025 г.

Вступление

Искусственный интеллект уже давно перестал быть роскошью для исследовательских лабораторий – он стал повседневным помощником в офисах, стартапах и крупных корпорациях. Самый популярный «помощник» – ChatGPT, который умеет писать тексты, генерировать код и даже предлагать юридические формулировки. Всё это звучит привлекательно, пока не задаться вопросом: а куда исчезают те самые конфиденциальные документы, которые сотрудники копируют в чат‑бот?

С ростом популярности больших языковых моделей (LLM) резко возросло и количество «скользких» практик: копипасты контрактов, клиентских брифов, внутренних инструкций, а иногда и персональных данных сотрудников. Обычные пользователи считают, что их личный аккаунт – это их личное пространство, а компаниям «не важно», ведь у них есть отдельные корпоративные ИИ‑аккаунты. На деле же такие действия могут стать настоящим «комплаенс‑кошмаром», способным в любой момент обрушить репутацию и финансовое состояние организации.

В этом материале мы разберём, почему эта проблема уже не гипотетическая, а реальная, какие мнения уже высказали эксперты в Reddit‑сообществе, какие тенденции формируются в индустрии и какие практические шаги можно предпринять, чтобы не стать следующей жертвой утечки данных.

Японский хокку, отражающий суть проблемы:

Тихий вечер,

Данные текут, как река,

Ветер молчит.

Пересказ оригинального Reddit‑поста

Автор поста заметил тревожную тенденцию: всё больше сотрудников без оглядки вставляют в ChatGPT целые контракты, клиентские задания, внутренние документы и даже личные сведения. При этом они используют свои личные аккаунты или «случайные» GPT‑модели, не имея представления, куда именно попадают эти данные, какие механизмы их сохраняют и кто имеет к ним доступ. Автор подчёркивает, что у компаний уже есть собственные корпоративные ИИ‑аккаунты, но сотрудники предпочитают «удобство» личных сервисов. Вопрос, который задаёт автор, звучит почти как крик: «Как это не превращается в катастрофу по соблюдению нормативов?»

Суть проблемы и «хакерский» подход

  • Отсутствие контроля над личными аккаунтами. Пользователь может подключить любой сервис, а компания не видит, какие данные туда отправляются.
  • Непонимание работы LLM. Большинство людей считают, что бесплатный сервис – это «ничего не стоит», не осознавая, что их запросы становятся товаром для провайдера.
  • Отсутствие барьеров. Если в компании нет технических ограничений (например, DLP‑систем), сотрудники свободно копируют документы в чат.
  • Культура «делай, как удобно». При отсутствии чёткой политики и реальных последствий сотрудники выбирают самый быстрый путь.

Детальный разбор проблемы с разных сторон

Техническая перспектива

Большие языковые модели обучаются на огромных корпусах данных, а в процессе работы они могут сохранять запросы в журналах, использовать их для дообучения или анализа. Даже если провайдер обещает «не сохранять», юридически это часто сложно доказать. Кроме того, многие сервисы используют кэширование запросов, что делает их потенциально доступными для внутреннего аудита провайдера.

Юридическая перспектива

Согласно GDPR, HIPAA и другим нормативам, передача персональных данных третьим лицам без согласия владельца считается нарушением. Если сотрудник отправляет в ChatGPT документ, содержащий персональные данные клиентов, компания может получить штрафы до 4 % от годового оборота.

Организационная перспектива

Отсутствие официальной политики ИИ часто приводит к «правилу тишины»: сотрудники не обсуждают проблему, а просто продолжают использовать привычные инструменты. Это создает «тёмные зоны» в системе управления информационной безопасностью.

Экономическая перспектива

Утечка конфиденциальных данных может стоить компании не только штрафы, но и потерю доверия клиентов, падение стоимости акций и затраты на восстановление репутации. По оценкам аналитической компании Gartner, к 2025 году более 30 % всех утечек будет связано с использованием облачных ИИ‑сервисов без надлежащего контроля.

Практические примеры и кейсы

  • Кейс 1: юридическая фирма. Адвокат скопировал в ChatGPT часть договора с клиентом, чтобы быстро получить «пояснения». Провайдер сохранил запрос, а спустя месяц тот же фрагмент появился в публичном наборе данных, использованном для обучения новой модели. Клиент подал в суд за нарушение конфиденциальности.
  • Кейс 2: IT‑компания. Инженер сканировал документы с личными данными сотрудников на смартфон, а затем ввёл их в бесплатный чат‑бот для «проверки грамматики». Данные попали в базу провайдера, который позже использовал их в рекламных целях, что привело к массовому оттоку сотрудников.
  • Кейс 3: маркетинговое агентство. Сотрудник использовал ChatGPT для генерации рекламных слоганов, вставив в запрос конфиденциальный бриф клиента. После публикации рекламных материалов клиент обнаружил утечку деталей стратегии, что привело к расторжению контракта.

Экспертные мнения из комментариев

«Есть причина, по которой в конце прошлого года я написал и заставил всю компанию подписать политику использования ИИ. Вы можете поставить все технические контроли, которые хотите — они найдут способ обойти их.»

— DaCozPuddingPop

«Если нет политики и последствий за нарушение этой политики, они будут продолжать это делать. Я слышал, что некоторые сканируют документы личным телефоном и печатают их дома, а не используют офисный принтер. Это включает персональные данные сотрудников.»

— root_27

«Потому что 99,99 % людей не знают и не заботятся о том, как работают LLM, и что если сервис бесплатный, то вы — продукт, как в Gmail.»

— sryan2k1

«Вы блокируете все известные LLM, кроме M365 Copilot (с авторизацией). Это правильный шаг, но не единственный. Нужно также ограничить загрузку файлов в Gmail, Google Drive, Dropbox, Grammarly и т.п.»

— thortgot

«Они не думают, что это нормально. Это уже происходит.»

— Reetpeteet

Возможные решения и рекомендации

Политика и обучение

  • Разработать и официально утвердить политику использования ИИ, включающую запрет на ввод конфиденциальных данных в сторонние сервисы.
  • Провести обязательные тренинги для всех сотрудников о рисках и правилах работы с LLM.
  • Ввести систему санкций за нарушение политики (от предупреждения до увольнения).

Технические меры

  • Внедрить DLP‑системы (Data Loss Prevention), которые сканируют исходящие сообщения и блокируют передачу конфиденциальных фрагментов.
  • Ограничить доступ к внешним LLM через прокси‑фильтры и брандмауэры, разрешив только одобренные корпоративные решения (например, Microsoft 365 Copilot).
  • Включить шифрование и многофакторную аутентификацию для всех корпоративных ИИ‑аккаунтов.
  • Настроить логирование и аудит всех запросов к ИИ‑сервисам, чтобы быстро обнаруживать подозрительные действия.

Организационные меры

  • Создать центр компетенций по ИИ, который будет отвечать за оценку новых сервисов и их соответствие требованиям безопасности.
  • Регулярно проводить пентесты и оценку рисков в контексте использования ИИ.
  • Ввести процедуру одобрения использования новых ИИ‑инструментов, включающую юридический и ИТ‑аудит.

Заключение и прогноз развития

Тенденция «самообслуживания» в ИИ уже превратилась в реальную угрозу для большинства компаний. Пока организации полагаются на «корпоративные» аккаунты, сотрудники продолжают искать «быстрые» решения в личных сервисах. Без чёткой политики, технических барьеров и культуры ответственности утечка данных через ChatGPT и аналогичные модели станет лишь вопросом времени.

Прогнозируем, что к 2027 году большинство крупных компаний внедрят обязательные корпоративные LLM с полной интеграцией в DLP‑системы, а провайдеры начнут предлагать «приватные» модели, обученные только на корпоративных данных. Однако пока этот процесс находится в стадии становления, риск остаётся высоким, и каждый руководитель ИТ‑безопасности должен действовать уже сегодня.

Практический пример кода на Python

Ниже – простой скрипт, демонстрирующий, как можно автоматически проверять текстовые запросы сотрудников на наличие конфиденциальных фрагментов (например, номеров договоров, ИНН, адресов) перед отправкой их в любой ИИ‑сервис. Скрипт использует регулярные выражения и хеширование для сравнения с «белым списком» разрешённых шаблонов.


import re
import hashlib

# Список регулярных шаблонов, которые считаются конфиденциальными
CONFIDENTIAL_PATTERNS = [
    r'\b\d{10,12}\b',                 # ИНН, ОГРН и пр.
    r'\b\d{4}\s?\d{6}\s?\d{6}\b',     # Номера банковских карт (пример)
    r'\b[А-ЯЁ][а-яё]+\s[А-ЯЁ][а-яё]+\b', # ФИО в формате "Иван Иванов"
    r'\b\d{2}\.\d{2}\.\d{4}\b'        # Даты в формате ДД.MM.ГГГГ
]

def is_confidential(text: str) -> bool:
    """
    Проверяет, содержит ли текст конфиденциальные данные.
    
    Args:
        text: Строка, которую планируют отправить в ИИ.
    
    Returns:
        True, если найден хотя бы один конфиденциальный шаблон, иначе False.
    """
    for pattern in CONFIDENTIAL_PATTERNS:
        if re.search(pattern, text):
            return True
    return False

def hash_text(text: str) -> str:
    """
    Возвращает SHA‑256 хеш текста. Используется для сравнения
    с «белым списком» разрешённых запросов без раскрытия их содержания.
    """
    return hashlib.sha256(text.encode('utf-8')).hexdigest()

def main():
    # Пример пользовательского ввода
    user_input = input("Введите запрос к ИИ: ")

    # Проверка на конфиденциальность
    if is_confidential(user_input):
        print("⚠️ Запрос содержит потенциально конфиденциальные данные! Отправка запрещена.")
        return

    # Если запрос «чистый», можно безопасно отправлять его в ИИ‑сервис
    request_hash = hash_text(user_input)
    print(f"✅ Запрос прошёл проверку. Хеш для аудита: {request_hash}")

    # Здесь могла бы быть логика отправки запроса в корпоративный ИИ
    # send_to_corporate_ai(user_input)

if __name__ == "__main__":
    main()

Скрипт позволяет быстро отсеять запросы, содержащие ИНН, номера карт, ФИО и даты. При необходимости список шаблонов можно расширять, а хешировать запросы – полезно для последующего аудита без сохранения самого текста.


Оригинал
PREVIOUS ARTICLE