Как графики повышают точность и объяснение LLM в кибербезопасности

Как графики повышают точность и объяснение LLM в кибербезопасности

13 августа 2025 г.

Графики давно подкрепляют кибербезопасность; Их важность выросла только с сложностью облачного масштаба.

Я ранее исследовал, какЗащитники могут защитить свои среды CI/CD, используя графикиКартирование репо, строительство рабочих мест, секретов, бегунов и облачных учетных данных в подключенные взгляды, которые отражают то, как думают злоумышленники.

Эта статья пересматривает эту идею в эпоху крупных языковых моделей и показывает, почему графики являются ключом к перемещению ИИ для обеспечения безопасности от шумиха к чему -то оперативному.


TL; DR: Когда вы объединяете представления графика с рассуждением LLM, вы получаете точность и объяснение на уровне плоских структур данных не могут совпадать.


Почему кибербезопасность не отстает в эпоху атмосфера

LLM уже изменили, как создается программное обеспечение, но внедрение кибербезопасности все еще отстает. В таких областях, как разработка приложений, «высокотемпературная«Выходы могут быть функцией, где творчество и гибкость приветствуются, даже если результат несовершенен.


Однако работа по безопасности принципиально отличается: результаты безопасности требуют точности, сильной точности/отзывов и, что не менее важно, объясняемость.

Обещание LLM в области безопасности все еще огромно. Агентные системы могут объединить выводы, добавлять контекст, который когда -то потребовался дни, чтобы собрать, и значительно сократить время сортировки. Старая модель статических, тополодерных оповещений создает усталость, а не ясность, даже при повышении анализа времени выполнения. Даже с контекстуализацией времени выполнения и анализом достижения, «плоские» результаты остаются шумными из -за наличия слишком большого количества жестких и мягких переменных.

Когда эти модели основаны на организационных сигналах, таких как политика и приоритеты риска, и когда они включают в себя данные об окружающей среде в реальном времени, рабочий процесс полностью меняется. Представьте себе реальность, в которой агенты должным образом обоснованы, объяснимы и оснащены адекватным контекстом в организационных сигналах (политики, аппетит риска, критичность активов) и контекст окружающей среды (конфигурации, преобладающие угрозы, контроль). Командам безопасности не придется просеивать тысячи статических проблем; Они смогут участвовать в итеративном диалоге о том, что имеет значение сейчас, на следующей неделе и в следующем квартале.

Заземление и объяснение: где все становится сложным для LLM в кибербезопасности

Прогноз токена LLM является основной проблемой для вариантов использования безопасности LLM. Когда вы предлагаете LLM написать стихотворение, десятки или сотни следующих токенов правдоподобны; В течение следующих 10 токенов взорвутся комбинаторика.

Безопасность отличается. Рассмотрим оценку осанки экземпляра EC2 на основе потока вызовов API. Один неверный токен (например, неправильный подготовка группы безопасности или отсутствие правила входа) может лишить всю оценку. Приемлемое пространство прогнозирования должно быть узким.

Внутренние решения низкого уровня, такие как прогнозы токнов, которые приводят к фактическим выводам, должны быть плотно ограничены и полностью обоснованы в доказательствах. Мы не можем неверно истолковывать или упускать из виду группу безопасности при оценке бокового движения.

Планирование/оркестры на высоком уровне может переносить более широкое пространство предсказания, потому что мы можем итеративно управлять и уточнить гипотезу.

Объяснение - это контракт с аудиторами, инженерами и группами риска/соответствия. Без графика вы эффективно просите их доверять вероятностному потоку токена. Там нет конкретной точки зрения, когда они спрашивают: «Почему это предупреждение?»
С помощью графика каждое претензия сводится к видимому пути: какие факты (узлы) были использованы, какие отношения (края) были соблюдены и где были введены какие -либо предположения. Этот путь - это тропа аудита; Без этого доверие и усыновление разваливаются.

Когда графики приходят в марш

Графики разрубают комплекс, шумные документы в дискретные, напечатанные отношения. С средой, моделируемой как узлы и края (например, EC2 → HAS_SG → SG → ALISS → CIDR), агент не догадывается в потоке обширного токена; Это навигация по ограниченному графику, который резко сокращает пространство поиска и делает каждый шаг осмотренным. Давайте посмотрим на гипотетический пример:


Форма графика:

(i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0)
(i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24)
Raw JSON:

RAW JSON:

{
  "Reservations": [{
    "Instances": [{
      "InstanceId": "i-0a12",
      "SecurityGroups": [
        {"GroupId": "sg-0aa1","GroupName":"web-sg"},
        {"GroupId": "sg-0bb2","GroupName":"db-sg"}
      ],
      "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...],
      "BlockDeviceMappings": [...],
      "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}],
      ...
    }, ...]
  }],
  "SecurityGroups": [{
    "GroupId": "sg-0aa1",
    "IpPermissions": [{
      "IpProtocol": "tcp",
      "FromPort": 22,
      "ToPort": 22,
      "IpRanges": [{"CidrIp":"0.0.0.0/0"}],
      "UserIdGroupPairs": []
    }, ...],
    "Description": "allow-ssh",
    ...
  }, ...]
}

Чтобы достичь того же вывода безопасности от RAW JSON, LLM должен пройти сложный многоэтапный путь рассуждения:

  1. Расположение экземпляра "I-0A12" в глубине вложенногоБронирование [0]. INSTANCES [0]структура
  2. СинированиеГруппы безопасностимассив для извлечения идентификаторов группы
  3. Перекрестный набор этих идентификаторов против отдельногоГруппы безопасностираздел (потенциально сотни линий)
  4. Погружение в каждую группуIppermissionsмножество
  5. ИнтерпретацияИпраговыеЧтобы понять шаблоны доступа к сети

Это создает длительную цепочку выводов в рассеянных точках данных, где каждый шаг вводит потенциал для ошибок или галлюцинации.

Напротив, представление графика предлагает прямой, почти детерминированный путь:
(I-0A12)-[HAS_SG]-> (SG-0AA1)-[ALMING]-> (0.0.0.0/0)Полем В терминах трансформатора явная структура графика сужает внимание и концентрирует распределение следующего ток. Затем каждая глава внимания может сосредоточиться на семантически значимых ребрах, а не на анализе вложенных структур данных.

Заимствовав из теории информации, мы рассматриваем энтропию как неопределенность в распределении вероятностей. Здесь мы используем его эвристически, чтобы противопоставить (а) насколько неоднозначен контекст ввода, и (б) насколько широко распределение модели следующее ток.


Низкая энтропия ⇒ Явная

  • Контекст энтропия (вход):Насколько разбросаны или неоднозначны данные, которые модель должна разобраться? \ Json: ** Высокая энтропия - вложенные массивы, дополнительные поля, неявные отношения.

    • График:Низкая энтропия - явные узлы/края инкапсулируют семантику и ограничивают интерпретацию.

  • Энтропия генерации (выходные/токены):Сколько токенов «приемлемы» на каждом этапе прогнозирования? Для низкоуровневых решений о безопасности мы хотим небольшого пространства прогнозирования (в идеале почти детерминированного). Рассуждения, окруженные графиками, уменьшают энтропию генерации, предоставляя меньше правдоподобных следующих шагов, согласуясь с тем, как внимание трансформатора концентрирует вероятность массы вероятности.

  • Json:Высокая энтропия - внимание модели должно охватывать вложенные массивы, дополнительные поля и неявные отношения, которые создают диффузное схему внимания в сотнях токенов.

    • График: Низкая энтропия - фокусирует внимание на явных, напечатанных отношениях, резко уменьшая энтропию внимания.

GraphRAG предлагаетконкретные доказательства преимуществПолем Реализация Microsoft показала, что поиск на графиках резко превосходит традиционную векторную тряпку для полной и разнообразия (выигрывая 72–83% парных сравнений). Важно отметить, что их резюме сообщества на уровне корня требовало на 97% токенов меньше, чем суммирование источника текста, в то же время обыграв векторное встраивание тряпки в глобальные задачи по созданию чувств.

Понижение обоих видов энтропии путем структурирования контекста и ограничения поколения повышает точность и делает объяснения тривиальными: «Мы отметили боковое движение, потому что есть край x → y, и правило Z допускает это».

Помимо уменьшения энтропии, GraphRAG решает вопросы безопасности, которые трудны для тряпичной тряпки, составляя выводы из отношений, а не одного отрывка. Для «Какие функции AWS Lambda могут получить доступ к секретам?», Соответствующие доказательства - роли, прикрепленные политики, действия, ARN и условия - отсутствуют из текста вопроса и разбросаны по источникам. График позволяет системе пересекать все лямбда → секретные пути и определять, какие из них действительно предоставляют доступ.

Решающее значение масштаб и семантики.

Представление графика современной среды SaaS продолжает расти более сложным с каждым днем и не показывает никаких признаков замедления. Как я отмечал в моей предыдущей статье, основные проблемы сохраняются: базы данных графиков остаются более хрупкими, чем традиционные запасы данных, плохо масштабируют, требуют тщательного моделирования, чтобы избежать ловушек производительности, и несут более высокие эксплуатационные расходы.

Эти технические препятствия, усугубляемые нехваткой опыта графика в большинстве организаций, создают значительные барьеры для усыновления. Но даже если команды преодолевают эти начальные проблемы, они сталкиваются с еще более шикарной проблемой: эффективное обход графа в масштабе предприятия.

Scale Challenge

Рассмотрим реальность моделирования массивных, кросс-поставщиков экосистемы. Как мы можем эффективно пройти эти растягивающиеся графики во время вывода, сохраняя при этом затраты с стоимостью бизнеса?

Даже если бы мы могли каким-то образом вписать целую схему граф-поставщика в окно контекста, результаты, вероятно, были бы разочаровывающими, когда потребуется нетривное обход. Высокая энтропия снизит производительность, в то время как затраты на токен будут взлететь с минимальными возможностями для кеширования токена, чтобы компенсировать расходы.

Потенциальное решение:Применение методов RAG для обслуживания сфокусированных схем подраздел, адаптированные для конкретных задач вывода.

Семантический разрыв

В то время как отдельные края несут четкое семантическое значение (a → b), пути нет. Возьмите вектор A → B → C: Что эта цепь рассказывает нам об отношениях между A и C?

Без явной семантики агентские системы часто переигрывают или полностью неверно истолковывают эти пути.

Потенциальное решение:Используйте возможности тряпки для связывания векторов графика (A → B → C) с встраиваемыми векторами, создавая семантические мосты, где их не существовало раньше.

Глядя в будущее

Эти проблемы не являются непреодолимыми; Это проблемы с дизайном, ожидающие элегантных решений.

Решения возникают с помощью гибридных подходов, используя методы RAG для генерации целенаправленных подорафов для конкретных задач вывода и векторов связывания с встраиваемыми векторами для создания семантических мостов, среди прочего. Это не просто техническая оптимизация; Это фундаментальные шаблоны дизайна для обеспечения безопасности графиков как практической, так и масштабируемой.

Обещание остается убедительным: специалисты по безопасности, разговаривающие с ИИ о том, что сейчас имеет значение сейчас, на следующей неделе или в следующем квартале, а не тонут в тысячах статических оповещений.



Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE