Блог


model-scaling



Заправление LLMS следующего поколения: выявлены настройки гиперпараметра, управляемых данными

25 июля 2025 г.

Непревзойденная эффективность LLM: многократный прогноз революционизирует производительность между доменами

18 июля 2025 г.

Теория трансформатора и ссылки LLM: вот что вы должны проверить

25 июня 2025 г.

Производительность трансформатора: теория хопфилда и данные о потерь

24 июня 2025 г.

Свойства функции logsumexp: леммы для энергетических функций

24 июня 2025 г.

Теоретические производные: потери потери энтропии и энергетические функции в LLMS

24 июня 2025 г.

Архитектура и сведения о архитектуре и обучении GPT-2: параметры и потери перекрестной энтропии

24 июня 2025 г.

Проверка теоретической потерь связана: эксперименты с ванильным трансформатором

23 июня 2025 г.

Новая энергетическая функция без регуляризации для анализа трансформатора

23 июня 2025 г.

Эмпирические результаты: анализ GPT-2 запоминания трансформатора и потери

22 июня 2025 г.