Теоретическая структура: запоминание трансформатора и динамика производительности
19 июня 2025 г.
Связанная работа: Законы масштабирования и модели Hopfield в исследованиях LLM
19 июня 2025 г.
Ассоциативные воспоминания: запоминание трансформатора и динамика производительности
19 июня 2025 г.
Архитектура блока трансформаторов: внимание и интеграция с подачей
19 июня 2025 г.
Новая энергетическая функция для трансформаторов: нет внешней регуляризации
19 июня 2025 г.
Моделирование слоев трансформаторов: минимизация мажоризации и сети хопфилда
19 июня 2025 г.
Анализ потерь по перекрестной энтропии в трансформаторных сетях
19 июня 2025 г.