Блог


attention-mechanism



Теория трансформатора и ссылки LLM: вот что вы должны проверить

25 июня 2025 г.

Производительность трансформатора: теория хопфилда и данные о потерь

24 июня 2025 г.

Свойства функции logsumexp: леммы для энергетических функций

24 июня 2025 г.

Теоретические производные: потери потери энтропии и энергетические функции в LLMS

24 июня 2025 г.

Архитектура и сведения о архитектуре и обучении GPT-2: параметры и потери перекрестной энтропии

24 июня 2025 г.

Проверка теоретической потерь связана: эксперименты с ванильным трансформатором

23 июня 2025 г.

Новая энергетическая функция без регуляризации для анализа трансформатора

23 июня 2025 г.

Эмпирические результаты: анализ GPT-2 запоминания трансформатора и потери

22 июня 2025 г.

Влияние размера данных на обучение трансформатора: динамика переживания и потерь

22 июня 2025 г.

Теоретическая структура: запоминание трансформатора и динамика производительности

19 июня 2025 г.