Распаковка Phi-3-Mini: архитектура, управляемая телефона, расширяется Power LLM Power

Распаковка Phi-3-Mini: архитектура, управляемая телефона, расширяется Power LLM Power

4 июля 2025 г.

Аннотация и 1 введение

2 технические характеристики

3 академические тесты

4 Безопасность

5 Слабость

6 Phi-3-Vision

6.1 Технические спецификации

6.2 академические тесты

6.3 Безопасность

6.4 Слабость

Ссылки

Пример подсказки для тестов

B Авторы (алфавитный)

C подтверждения

2 технические характеристики

Модель PHI-3-Mini представляет собой архитектуру декодера трансформатора [VSP+ 17], с длиной контекста по умолчанию 4K. Мы также вводим длинную контекстную версию через Longrope [dzz+ 24a], которая расширяет длину контекста до 128 тыс., Называется Phi-3-Mini-128K.

Чтобы наилучшим образом принести пользу сообществу с открытым исходным кодом, Phi-3-Mini построен на аналогичной структуре блоков, что и Llama-2 [tli+ 23], и использует один и тот же токензатор с размер словарного запаса 32064 [1]. Это означает, что все пакеты, разработанные для семейства моделей Llama-2, могут быть непосредственно адаптированы к Phi-3-Mini. Модель использует 3072 скрытого размера, 32 головы и 32 слоя. Мы тренировались, используя BFLOAT16 в общей сложности 3,3 т токенов. Модель уже проведена в чате, а шаблон чата заключается в следующем:

Модель PHI-3-ял (параметры 7B) использует токенизатор Tiktoken (для лучшей многоязычной токенизации) с размер словарного запаса 100352 [2] и имеет длину контекста по умолчанию 8192. Она следует за стандартным архитектурой декодера 4B-модельного класса, с 32 головами, 32 слоя и hidden Size Size 4096. Мы переключаем GLE-активацию GLE-nef-nef-nef-stica glu-stica and gelu-активацию на 32 головы, 32 слоя и hidden size 4096. Обновите параметризацию (MUP) [?] Настройку гиперпараметров на небольшую прокси -модель и перенесите их в модель Target 7B. Они помогли обеспечить лучшую производительность и стабильность обучения. Кроме того, модель использует внимание сгруппированного вопроса, с 4 запросами, разделяющими 1 ключ. Чтобы оптимизировать обучение и скорость вывода, мы разрабатываем новый модуль внимания блоков. Для каждой главы внимания внимание блокировки обеспечивает различные паттерны разреженности по сравнению с кэшем KV. Это гарантирует, что все токены посещаются на разных головах для данного выбора редкости. Как показано на рисунке 1, контекст затем эффективно разделяется и завоевывается среди головок внимания, со значительным снижением кеша кВ. Для достижения фактического ускорения развертывания от дизайна блоков мы внедрили высокоэффективные, но гибкие ядра как для обучения, так и для вывода. Для обучения мы строим ядро ​​тритона на основе флэш -внимания [DFE+ 22]. Для вывода мы внедрили ядро ​​для фазы предварительного профиля и расширили ядро ​​с обратным вниманием в VLLM для фазы декодирования [KLZ+ 23]. Наконец, в архитектуре PHI-3-SMALL мы чередую плотные слои внимания и слои внимания блокировки для оптимизации экономии кэша KV, сохраняя при этом длительную производительность поиска контекста. Дополнительные 10% многоязычных данных также использовались для этой модели.

Высоко способная языковая модель, работающая локально по мобильному телефону.Благодаря своему небольшому размеру, PHI3-Mini может быть квантован до 4-битных, чтобы он занимал только ≈ 1,8 ГБ памяти. Мы протестировали квантовую модель, развернув Phi-3-Mini на iPhone 14 с A16 Bionic Chip, работающим национально на устройстве и полностью офлайн, достигая более 12 токенов в секунду.

Figure 1: Toy illustration of the blocksparse attention in phi-3-small with 2 local blocks and vertical stride of 3. The table shows the Keys/values a query token in block 8 attended to. Blue=local blocks, orange=remote/vertical blocks, gray=blocks skipped.

Методология обучения.Мы следуем последовательности работ, инициированных в «Учебных книгах-это все, что вам нужно» [GZA+ 23], в которой используются высококачественные данные обучения для повышения производительности моделей малых языков и отклоняться от стандартных законов. В этой работе мы показываем, что такой метод позволяет достигать уровня высокоэффективных моделей, таких как GPT-3.5 или Mixtral, с общим параметром 3,8B (например, Mixtral имеет 45b общие параметры). Наши учебные данные состоит из сильно отфильтрованных общедоступных веб-данных (в соответствии с «уровнем образования») из различных открытых интернет-источников, а также синтетических данных, сгенерированных LLM. Предварительное обучение выполняется в двух непрерывных и последовательных этапах; Фаза-1 состоит в основном из веб-источников, направленных на обучение модели общим знаниям и пониманию языка. Фаза-2 объединяет еще более отфильтрованные WebData (подмножество, используемое в фазе-1) с некоторыми синтетическими данными, которые обучают модели логическим рассуждениям и различным нишевым навыкам.

Оптимальный режим данных.В отличие от предыдущих работ, которые обучают языковые модели либо в «Вычислите оптимальный режим» [HBM+ 22], либо «режим переученика», мы в основном сосредотачиваемся на качестве данных для данной шкалы. [3] Мы стараемся калибровать учебные данные, чтобы быть ближе к «оптимальному» режиму данных для небольших моделей. В частности, мы отфильтровали общедоступные веб -данные, чтобы содержать правильный уровень «знаний» и сохраняем больше веб -страниц, которые потенциально могут улучшить «способность рассуждать» для модели. Например, результатом игры в Премьер -лиге в определенный день может быть хорошие учебные данные для пограничных моделей, но нам необходимо удалить такую ​​информацию, чтобы оставить больше моделей для «рассуждений» для мини -размеров моделей. Мы сравниваем наш подход с Llama-2 на рисунке 3.

Чтобы проверить наши данные о большем размере моделей, мы также обучалисьPhi-3-Medium, модель с параметрами 14b с использованием того же такеизатора и архитектурыPhi-3-Miniи обучались тем же данным для немного большего количества эпох (всего 4,8t токенов, как и дляPhi-3-SmallПолем Модель имеет 40 голов и 40 слоев, с внедрением измерения 5120. Мы наблюдаем, что некоторые критерии улучшаются гораздо меньше с 7b до 14b, чем с 3,8b до 7b, возможно, указывая на то, что наша смесь данных требует дальнейшей работы, чтобы быть в «оптимальном режиме данных» для модели параметров 14b.

После тренировки.После тренировки PHI-3-Mini проходили два этапа, включая контролируемое создание Manetuning (SFT) и непосредственную оптимизацию предпочтений (DPO). SFT использует высококачественные высококачественные данные в разных областях, например, математике, кодировании, рассуждениях, разговоре, идентичности модели и безопасности. Смесь данных SFT начинается с использования примеров только на английском языке. Данные DPO охватывают данные формата чата, рассуждения и ответственные усилия по ИИ (RAI). Мы используем DPO, чтобы убрать модель от нежелательного поведения, используя эти выходы в качестве «отклоненных» ответов. Помимо улучшения математики, кодирования, рассуждений, устойчивости и безопасности, после тренировки преобразует языковую модель помощнику по искусственному интеллекту, с которым пользователи могут эффективно и безопасно взаимодействовать.

Figure 2: 4-bit quantized phi-3-mini running natively on an iPhone with A16 Bionic chip, generating over 12 tokens per second.

Figure 3: Scaling law close to the “Data Optimal Regime” (from left to right: phi-1.5, phi-2, phi-3-mini, phi-3-small) versus Llama-2 family of models (7B, 13B, 34B, 70B) that were trained on the same fixed data. We plot the log of MMLU error versus the log of model size.

Как часть процесса после тренировки, мы разработали длинную контекстную версиюPhi-3-Miniс ограничением длины контекста, увеличенным до 128K вместо 4K. По всем направлениям качество модели 128K находится наравне с версией длины 4K, одновременно выполняя длительные контексты. Длинное расширение контекста было выполнено на двух этапах, включая длительный контекст среднего тренировок и длинно короткого смешанного пост-тренировки как с SFT, так и с DPO.

Авторы:

(1) Мара Абдин;

(2) Сэм Аде Джейкобс;

(3) Аммар Ахмад Аван;

(4) jyoti aneja;

(5) Ахмед Авадаллах;

(6) Hany Awadalla;

(7) Нгуен Бах;

(8) Амит Бахри;

(9) Араш Бахтиари;

(10) Цзянмин Бао;

(11) Харкират Бел;

(12) Алон Бенхайм;

(13) Миша Биленко;

(14) Йохан Бьорк;

(15) Sébastien Bubeck;

(16) Цин Цай;

(17) Мартин Кай;

(18) Caio César Teodoro Mendes;

(19) Вейджу Чен;

(20) Вишрав Чаудхари;

(21) Донг Чен;

(22) Дундонг Чен;

(23) Йен-Чун Чен;

(24) Йи-Линг Чен;

(25) Парул Чопра;

(26) Xiyang Dai;

(27) Элли Дель Джирно;

(28) Густаво де Роза;

(29) Мэтью Диксон;

(30) Ронен Эльдан;

(31) Виктор Фаросо;

(32) Дэн Итер;

(33) Мэй Гао;

(34) мин Гао;

(35) Цзянфенг Гао;

(36) Амит Гарг;

(37) Абхишек Госвами;

(38) Сурия Гунасекар;

(39) Эмман Хайдер;

(40) Junheng Hao;

(41) Рассел Дж. Хьюитт;

(42) Джейми Хьюнх;

(43) Mojan Javaheripi;

(44) Синь Джин;

(45) Пьеро Кауфманн;

(46) Никос Карампатцциакис;

(47) Dongwoo Kim;

(48) Махоуд Хадеми;

(49) Лев Куриленко;

(50) Джеймс Р. Ли;

(51) Инь Тэт Ли;

(52) Юаньжи Ли;

(53) Юншенг Ли;

(54) Чен Лян;

(55) Ларс Лиден;

(56) CE Liu;

(57) Менгхен Лю;

(58) Вайшунг Лю;

(59) Эрик Лин;

(60) Zeqi Lin;

(61) Чонг Луо;

(62) Пиюш Мадан;

(63) Мэтт Маццола;

(64) Ариндам Митра;

(65) Хардик Моди;

(66) ANH NGUYEN;

(67) Брэндон Норик;

(68) Барун Патра;

(69) Даниэль Перес-Бекер;

(70) Портет Томаса;

(71) Рейд Прайзант;

(72) Хейанг Цинь;

(73) Марко Радмилак;

(74) Корби Россет;

(75) Самбудха Рой;

(76) Olatunji Ruwase;

(77) Олли Саарикиви;

(78) Амин Саид;

(79) Адил Салим;

(80) Майкл Сантакрос;

(81) Шитал Шах;

(82) Нин Шан;

(83) Хитеши Шарма;

(84) Свадхин Шукла;

(85) Sia Song;

(86) Масахиро Танака;

(87) Андреа Тупини;

(88) Синь Ван;

(89) Лиджуань Ван;

(90) Чуню Ван;

(91) Ю Ван;

(92) Рэйчел Уорд;

(93) Гуанхуа Ван;

(94) Филипп Витте;

(95) haiping wu;

(96) Майкл Уайетт;

(97) бен Сяо;

(98) может XU;

(99) Цзяхан Сюй;

(100) Weijian Xu;

(101) Сонали Ядав;

(102) вентилятор Ян;

(103) Цзяньвей Ян;

(104) Зийи Ян;

(105) Йифан Ян;

(106) Донган Ю;

(107) Лу Юань;

(108) Chengruidong Zhang;

(109) Кирилл Чжан;

(110) Цзянвен Чжан;

(111) Ли Лина Чжан;

(112) И Чжан;

(113) Юэ Чжан;

(114) Юнан Чжан;

(115) Ксирен Чжоу.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

[1] Мы удаляем токены BOS и добавляем дополнительные токены для шаблона чата.

[2] Мы удаляем неиспользованные токены из словарного запаса.

[3] Как и для «вычислительного оптимального режима», мы используем термин «оптимальный» в желательном смысле для «оптимального режима данных». Мы не подразумеваем, что на самом деле нашли доказуемо «оптимальную» смесь данных для данной шкалы.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE