Алгоритм MEME: оптимизация уклонения от вредоносных программ посредством извлечения модели и обучения с подкреплением
18 апреля 2024 г.
Пересечение обучения с подкреплением и извлечения моделей в кибербезопасности
18 апреля 2024 г.
Понимание модели угроз: атаки «черного ящика» на системы обнаружения вредоносных программ
18 апреля 2024 г.
Сила MEME: создание состязательного вредоносного ПО с помощью обучения с подкреплением на основе моделей
18 апреля 2024 г.
Итеративное применение RLHF в языковых моделях
17 января 2024 г.
Понимание несоответствия целей
17 января 2024 г.
Механика моделей вознаграждения в RLHF
17 января 2024 г.
Сопутствующая работа по подкреплению обучения на основе обратной связи с людьми
17 января 2024 г.
Потолок согласования: объективное несоответствие в обучении с подкреплением на основе обратной связи с людьми
17 января 2024 г.