Раскрытие Phi-3-Vision: архитектура, предварительное обучение и после тренировки для визуального ИИ

Раскрытие Phi-3-Vision: архитектура, предварительное обучение и после тренировки для визуального ИИ

8 июля 2025 г.

Аннотация и 1 введение

2 технические характеристики

3 академические тесты

4 Безопасность

5 Слабость

6 Phi-3-Vision

6.1 Технические спецификации

6.2 академические тесты

6.3 Безопасность

6.4 Слабость

Ссылки

Пример подсказки для тестов

B Авторы (алфавитный)

C подтверждения

6.1 Технические спецификации

АрхитектураАPhi-3-Vision(4.2b Параметры) - это мультимодальная модель, предназначенная для обработки изображения и текстовой подсказки в качестве входов, и впоследствии генерировать текстовые выходы. Эта модель состоит из двух первичных компонентов: энкодера изображения, то есть клипа Vit-L/14 [RKH+ 21] и декодера трансформатора, то есть, PHI-3-Mini-128K-Instruct. Визуальные токены, когда -то извлекаемые с помощью энкодера изображения, затем объединяются с текстовыми токенами в чередованном виде (нет особого порядка для изображения и токенов текста). Для размещения изображений с высоким разрешением и различных соотношений сторонна стратегия динамического обрезки [DZZ+ 24B] используется для разделения входного изображения на 2D-массив блоков, где токены блоков объединяются для представления всего изображения.

Предварительное обучениеАPhi-3-VisionМодель подвергается фазе предварительного обучения с использованием разнообразного набора данных, который состоит из комбинации переплетенных документов с изображениями (например, [LST+ 24]), парами-текстовых паров из FLD-5B [XWX+ 24], синтетических данных, полученных из распознавания оптических символов (OCR) файлов PDF, данных DataSets для получения карты/таблицы и текстовых данных. Цель прогнозирования следующего токена используется специально на текстовых токенах, в то время как любая потеря, связанная с токенами изображения, игнорируется на этом этапе. Процесс предварительного обучения включает в себя в общей сложности 0,5t токенов, которые охватывают как визуальные, так и текстовые элементы. Во время фазы предварительного обучения максимальное разрешение изображения ограничено 1344 × 1344, поскольку большинство тренировочных изображений меньше этого разрешения.

После тренировки.АPhi-3-VisionМодель содержит две стадии после тренировки: контролируемое создание (SFT) и оптимизация прямой предпочтения (DPO). Для SFT мы использовали набор данных SFT Text, публичные наборы данных мультимодальной настройки инструктов, а также крупномасштабные наборы данных настройки мультимодальной настройки инструктов, которые мы сами создали, охватывая различные области и задачи, такие как общее понимание естественных изображений, диаграмма/таблица/- Понимание/разумный разум, понимание PowerPoint и модель. Мультимодальные данные SFT имеют в общей сложности около 15b токенов. Для DPO мы в основном используем текстовый набор данных DPO и относительно меньший многомодальный набор данных DPO. Для этих двух этапов мы совместно тренируем мультимодальные задачи и текстотонные задачи, чтобы модель могла могла достичь мультимодальных рассуждений при одновременном поддержании языковых возможностей как можно больше.

Авторы:

(1) Мара Абдин;

(2) Сэм Аде Джейкобс;

(3) Аммар Ахмад Аван;

(4) jyoti aneja;

(5) Ахмед Авадаллах;

(6) Hany Awadalla;

(7) Нгуен Бах;

(8) Амит Бахри;

(9) Араш Бахтиари;

(10) Цзянмин Бао;

(11) Харкират Бел;

(12) Алон Бенхайм;

(13) Миша Биленко;

(14) Йохан Бьорк;

(15) Sébastien Bubeck;

(16) Цин Цай;

(17) Мартин Кай;

(18) Caio César Teodoro Mendes;

(19) Вейджу Чен;

(20) Вишрав Чаудхари;

(21) Донг Чен;

(22) Дундонг Чен;

(23) Йен-Чун Чен;

(24) Йи-Линг Чен;

(25) Парул Чопра;

(26) Xiyang Dai;

(27) Элли Дель Джирно;

(28) Густаво де Роза;

(29) Мэтью Диксон;

(30) Ронен Эльдан;

(31) Виктор Фаросо;

(32) Дэн Итер;

(33) Мэй Гао;

(34) мин Гао;

(35) Цзянфенг Гао;

(36) Амит Гарг;

(37) Абхишек Госвами;

(38) Сурия Гунасекар;

(39) Эмман Хайдер;

(40) Junheng Hao;

(41) Рассел Дж. Хьюитт;

(42) Джейми Хьюнх;

(43) Mojan Javaheripi;

(44) Синь Джин;

(45) Пьеро Кауфманн;

(46) Никос Карампатцциакис;

(47) Dongwoo Kim;

(48) Махоуд Хадеми;

(49) Лев Куриленко;

(50) Джеймс Р. Ли;

(51) Инь Тэт Ли;

(52) Юаньжи Ли;

(53) Юншенг Ли;

(54) Чен Лян;

(55) Ларс Лиден;

(56) CE Liu;

(57) Менгхен Лю;

(58) Вайшунг Лю;

(59) Эрик Лин;

(60) Zeqi Lin;

(61) Чонг Луо;

(62) Пиюш Мадан;

(63) Мэтт Маццола;

(64) Ариндам Митра;

(65) Хардик Моди;

(66) ANH NGUYEN;

(67) Брэндон Норик;

(68) Барун Патра;

(69) Даниэль Перес-Бекер;

(70) Портет Томаса;

(71) Рейд Прайзант;

(72) Хейанг Цинь;

(73) Марко Радмилак;

(74) Корби Россет;

(75) Самбудха Рой;

(76) Olatunji Ruwase;

(77) Олли Саарикиви;

(78) Амин Саид;

(79) Адил Салим;

(80) Майкл Сантакрос;

(81) Шитал Шах;

(82) Нин Шан;

(83) Хитеши Шарма;

(84) Свадхин Шукла;

(85) Sia Song;

(86) Масахиро Танака;

(87) Андреа Тупини;

(88) Синь Ван;

(89) Лиджуань Ван;

(90) Чуню Ван;

(91) Ю Ван;

(92) Рэйчел Уорд;

(93) Гуанхуа Ван;

(94) Филипп Витте;

(95) haiping wu;

(96) Майкл Уайетт;

(97) бен Сяо;

(98) может XU;

(99) Цзяхан Сюй;

(100) Weijian Xu;

(101) Сонали Ядав;

(102) вентилятор Ян;

(103) Цзяньвей Ян;

(104) Зийи Ян;

(105) Йифан Ян;

(106) Донган Ю;

(107) Лу Юань;

(108) Chengruidong Zhang;

(109) Кирилл Чжан;

(110) Цзянвен Чжан;

(111) Ли Лина Чжан;

(112) И Чжан;

(113) Юэ Чжан;

(114) Юнан Чжан;

(115) Ксирен Чжоу.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE