Алгоритм MEME: оптимизация уклонения от вредоносных программ посредством извлечения модели и обучения с подкреплением

18 апреля 2024 г.

Пересечение обучения с подкреплением и извлечения моделей в кибербезопасности

18 апреля 2024 г.

Понимание модели угроз: атаки «черного ящика» на системы обнаружения вредоносных программ

18 апреля 2024 г.

Сила MEME: создание состязательного вредоносного ПО с помощью обучения с подкреплением на основе моделей

18 апреля 2024 г.

Итеративное применение RLHF в языковых моделях

17 января 2024 г.

Понимание несоответствия целей

17 января 2024 г.

Механика моделей вознаграждения в RLHF

17 января 2024 г.

Сопутствующая работа по подкреплению обучения на основе обратной связи с людьми

17 января 2024 г.

Потолок согласования: объективное несоответствие в обучении с подкреплением на основе обратной связи с людьми

17 января 2024 г.