
Раскрытие Phi-3-Vision: архитектура, предварительное обучение и после тренировки для визуального ИИ
8 июля 2025 г.Таблица ссылок
Аннотация и 1 введение
2 технические характеристики
3 академические тесты
4 Безопасность
5 Слабость
6 Phi-3-Vision
6.1 Технические спецификации
6.2 академические тесты
6.3 Безопасность
6.4 Слабость
Ссылки
Пример подсказки для тестов
B Авторы (алфавитный)
C подтверждения
6.1 Технические спецификации
АрхитектураАPhi-3-Vision(4.2b Параметры) - это мультимодальная модель, предназначенная для обработки изображения и текстовой подсказки в качестве входов, и впоследствии генерировать текстовые выходы. Эта модель состоит из двух первичных компонентов: энкодера изображения, то есть клипа Vit-L/14 [RKH+ 21] и декодера трансформатора, то есть, PHI-3-Mini-128K-Instruct. Визуальные токены, когда -то извлекаемые с помощью энкодера изображения, затем объединяются с текстовыми токенами в чередованном виде (нет особого порядка для изображения и токенов текста). Для размещения изображений с высоким разрешением и различных соотношений сторонна стратегия динамического обрезки [DZZ+ 24B] используется для разделения входного изображения на 2D-массив блоков, где токены блоков объединяются для представления всего изображения.
Предварительное обучениеАPhi-3-VisionМодель подвергается фазе предварительного обучения с использованием разнообразного набора данных, который состоит из комбинации переплетенных документов с изображениями (например, [LST+ 24]), парами-текстовых паров из FLD-5B [XWX+ 24], синтетических данных, полученных из распознавания оптических символов (OCR) файлов PDF, данных DataSets для получения карты/таблицы и текстовых данных. Цель прогнозирования следующего токена используется специально на текстовых токенах, в то время как любая потеря, связанная с токенами изображения, игнорируется на этом этапе. Процесс предварительного обучения включает в себя в общей сложности 0,5t токенов, которые охватывают как визуальные, так и текстовые элементы. Во время фазы предварительного обучения максимальное разрешение изображения ограничено 1344 × 1344, поскольку большинство тренировочных изображений меньше этого разрешения.
После тренировки.АPhi-3-VisionМодель содержит две стадии после тренировки: контролируемое создание (SFT) и оптимизация прямой предпочтения (DPO). Для SFT мы использовали набор данных SFT Text, публичные наборы данных мультимодальной настройки инструктов, а также крупномасштабные наборы данных настройки мультимодальной настройки инструктов, которые мы сами создали, охватывая различные области и задачи, такие как общее понимание естественных изображений, диаграмма/таблица/- Понимание/разумный разум, понимание PowerPoint и модель. Мультимодальные данные SFT имеют в общей сложности около 15b токенов. Для DPO мы в основном используем текстовый набор данных DPO и относительно меньший многомодальный набор данных DPO. Для этих двух этапов мы совместно тренируем мультимодальные задачи и текстотонные задачи, чтобы модель могла могла достичь мультимодальных рассуждений при одновременном поддержании языковых возможностей как можно больше.
Авторы:
(1) Мара Абдин;
(2) Сэм Аде Джейкобс;
(3) Аммар Ахмад Аван;
(4) jyoti aneja;
(5) Ахмед Авадаллах;
(6) Hany Awadalla;
(7) Нгуен Бах;
(8) Амит Бахри;
(9) Араш Бахтиари;
(10) Цзянмин Бао;
(11) Харкират Бел;
(12) Алон Бенхайм;
(13) Миша Биленко;
(14) Йохан Бьорк;
(15) Sébastien Bubeck;
(16) Цин Цай;
(17) Мартин Кай;
(18) Caio César Teodoro Mendes;
(19) Вейджу Чен;
(20) Вишрав Чаудхари;
(21) Донг Чен;
(22) Дундонг Чен;
(23) Йен-Чун Чен;
(24) Йи-Линг Чен;
(25) Парул Чопра;
(26) Xiyang Dai;
(27) Элли Дель Джирно;
(28) Густаво де Роза;
(29) Мэтью Диксон;
(30) Ронен Эльдан;
(31) Виктор Фаросо;
(32) Дэн Итер;
(33) Мэй Гао;
(34) мин Гао;
(35) Цзянфенг Гао;
(36) Амит Гарг;
(37) Абхишек Госвами;
(38) Сурия Гунасекар;
(39) Эмман Хайдер;
(40) Junheng Hao;
(41) Рассел Дж. Хьюитт;
(42) Джейми Хьюнх;
(43) Mojan Javaheripi;
(44) Синь Джин;
(45) Пьеро Кауфманн;
(46) Никос Карампатцциакис;
(47) Dongwoo Kim;
(48) Махоуд Хадеми;
(49) Лев Куриленко;
(50) Джеймс Р. Ли;
(51) Инь Тэт Ли;
(52) Юаньжи Ли;
(53) Юншенг Ли;
(54) Чен Лян;
(55) Ларс Лиден;
(56) CE Liu;
(57) Менгхен Лю;
(58) Вайшунг Лю;
(59) Эрик Лин;
(60) Zeqi Lin;
(61) Чонг Луо;
(62) Пиюш Мадан;
(63) Мэтт Маццола;
(64) Ариндам Митра;
(65) Хардик Моди;
(66) ANH NGUYEN;
(67) Брэндон Норик;
(68) Барун Патра;
(69) Даниэль Перес-Бекер;
(70) Портет Томаса;
(71) Рейд Прайзант;
(72) Хейанг Цинь;
(73) Марко Радмилак;
(74) Корби Россет;
(75) Самбудха Рой;
(76) Olatunji Ruwase;
(77) Олли Саарикиви;
(78) Амин Саид;
(79) Адил Салим;
(80) Майкл Сантакрос;
(81) Шитал Шах;
(82) Нин Шан;
(83) Хитеши Шарма;
(84) Свадхин Шукла;
(85) Sia Song;
(86) Масахиро Танака;
(87) Андреа Тупини;
(88) Синь Ван;
(89) Лиджуань Ван;
(90) Чуню Ван;
(91) Ю Ван;
(92) Рэйчел Уорд;
(93) Гуанхуа Ван;
(94) Филипп Витте;
(95) haiping wu;
(96) Майкл Уайетт;
(97) бен Сяо;
(98) может XU;
(99) Цзяхан Сюй;
(100) Weijian Xu;
(101) Сонали Ядав;
(102) вентилятор Ян;
(103) Цзяньвей Ян;
(104) Зийи Ян;
(105) Йифан Ян;
(106) Донган Ю;
(107) Лу Юань;
(108) Chengruidong Zhang;
(109) Кирилл Чжан;
(110) Цзянвен Чжан;
(111) Ли Лина Чжан;
(112) И Чжан;
(113) Юэ Чжан;
(114) Юнан Чжан;
(115) Ксирен Чжоу.
Эта статья есть
Оригинал