Microsoft выпускает самый большой 1-битный LLM, позволяя мощному искусственному интеллекту.
19 апреля 2025 г.Исследователи Microsoft утверждают, что разработали первую 1-разрядную большую языковую модель с 2 миллиардами параметров. Модель, Bitnet B1.58 2B4T, может работать на коммерческих процессорах, таких как Apple M2.
«Обученная на корпусе из 4 триллионов токенов, эта модель демонстрирует, как нативные 1-битные LLM могут достичь производительности, сравнимой с ведущими открытым весом, моделями полного определения аналогичного размера, одновременно предлагая существенные преимущества в вычислительной эффективности (память, энергия, задержка)»,-написал Microsoft в депозитории об объятиях проекта.
Что отличает модель Bitnet?
Биттаны, или 1-битные LLM, являются сжатыми версиями крупных языковых моделей. Первоначальная модель шкалы параметров в 2 миллиарда, обученная корпусу 4 миллиарда токенов, была сокращена в версию с резко сниженными требованиями к памяти. Все веса выражаются в виде одного из трех значений: -1, 0 и 1. Другие LLM могут использовать 32-битные или 16-битные форматы с плавающей точкой.
См.: Актеры угроз могут вводить вредоносные пакеты в модели искусственного интеллекта, которые всплывают во время «кодирования атмосфера».
В исследовательской статье, которая была размещена на Arxiv в качестве работы, исследователи подробно описывают, как они создали Bitnet. Другие группы создавали биттаны раньше, но, как говорят исследователи, большинство их усилий-это либо методы квантования после тренировки (PTQ), применяемые к предварительно обученным моделям полного определения, либо нативные 1-битные модели, обученные с нуля, которые были разработаны в меньшем масштабе. Bitnet B1.58 2B4T-это нативный 1-битный LLM, обученный по шкале; Это занимает всего 400 МБ по сравнению с другими «небольшими моделями», которые могут достигать 4,8 ГБ.
Bitnet B1.58 2B4T Производительность модели, цель и ограничения
Производительность по сравнению с другими моделями ИИ
Bitnet B1.58 2B4T превосходит другие 1-битные модели, согласно Microsoft. Bitnet B1.58 2B4T имеет максимальную длину последовательности 4096 токенов; Microsoft утверждает, что она превосходит небольшие модели, такие как Meta Llama 3.2 1B или Google Gemma 3 1B.
Цель исследователей для этого Bitnet
Цель Microsoft состоит в том, чтобы сделать LLMS доступными для большего количества людей, создавая версии, которые работают на устройствах Edge, в средах с ограниченными ресурсами или в приложениях в реальном времени.
Тем не менее, Bitnet B1.58 2B4T по -прежнему не прост в запуске; Это требует оборудования, совместимого с Microsoft Bitnet.cpp Framework. Запуск его в стандартной библиотеке трансформаторов не принесет никаких преимуществ с точки зрения скорости, задержки или потребления энергии. Bitnet B1.58 2B4T не работает на графических процессорах, как это делают большинство моделей ИИ.
Что дальше?
Исследователи Microsoft планируют изучить обучение более крупных 1-битных моделей (7B, 13b параметры и многое другое). Они отмечают, что в большинстве современной инфраструктуры искусственного интеллекта не хватает подходящего оборудования для 1-битных моделей, поэтому они планируют исследовать «совместные разработки будущих ускорителей оборудования», специально разработанных для сжатых ИИ. Исследователи также стремятся:
- Увеличить длину контекста.
Повышение производительности в цепочке задач с длинным контекстом.
Добавьте поддержку для нескольких языков, кроме английского.
Интегрируйте 1-битные модели в мультимодальные архитектуры.
Лучше понимать теорию, почему 1-битная тренировка в масштабе, повышала эффективность.
Оригинал