Теория трансформатора и ссылки LLM: вот что вы должны проверить
25 июня 2025 г.
Производительность трансформатора: теория хопфилда и данные о потерь
24 июня 2025 г.
Свойства функции logsumexp: леммы для энергетических функций
24 июня 2025 г.
Теоретические производные: потери потери энтропии и энергетические функции в LLMS
24 июня 2025 г.
Архитектура и сведения о архитектуре и обучении GPT-2: параметры и потери перекрестной энтропии
24 июня 2025 г.
Проверка теоретической потерь связана: эксперименты с ванильным трансформатором
23 июня 2025 г.
Новая энергетическая функция без регуляризации для анализа трансформатора
23 июня 2025 г.
Эмпирические результаты: анализ GPT-2 запоминания трансформатора и потери
22 июня 2025 г.
Влияние размера данных на обучение трансформатора: динамика переживания и потерь
22 июня 2025 г.
Теоретическая структура: запоминание трансформатора и динамика производительности
19 июня 2025 г.