Заправление LLMS следующего поколения: выявлены настройки гиперпараметра, управляемых данными
25 июля 2025 г.
Непревзойденная эффективность LLM: многократный прогноз революционизирует производительность между доменами
18 июля 2025 г.
Теория трансформатора и ссылки LLM: вот что вы должны проверить
25 июня 2025 г.
Производительность трансформатора: теория хопфилда и данные о потерь
24 июня 2025 г.
Свойства функции logsumexp: леммы для энергетических функций
24 июня 2025 г.
Теоретические производные: потери потери энтропии и энергетические функции в LLMS
24 июня 2025 г.
Архитектура и сведения о архитектуре и обучении GPT-2: параметры и потери перекрестной энтропии
24 июня 2025 г.
Проверка теоретической потерь связана: эксперименты с ванильным трансформатором
23 июня 2025 г.
Новая энергетическая функция без регуляризации для анализа трансформатора
23 июня 2025 г.
Эмпирические результаты: анализ GPT-2 запоминания трансформатора и потери
22 июня 2025 г.