Итеративное применение RLHF в языковых моделях
17 января 2024 г.
Понимание несоответствия целей
17 января 2024 г.
Механика моделей вознаграждения в RLHF
17 января 2024 г.
Сопутствующая работа по подкреплению обучения на основе обратной связи с людьми
17 января 2024 г.
Потолок согласования: объективное несоответствие в обучении с подкреплением на основе обратной связи с людьми
17 января 2024 г.