Навигация по границам LLM: слабости PHI-3 и пути увеличения

Навигация по границам LLM: слабости PHI-3 и пути увеличения

8 июля 2025 г.

Аннотация и 1 введение

2 технические характеристики

3 академические тесты

4 Безопасность

5 Слабость

6 Phi-3-Vision

6.1 Технические спецификации

6.2 академические тесты

6.3 Безопасность

6.4 Слабость

Ссылки

Пример подсказки для тестов

B Авторы (алфавитный)

C подтверждения

5 Слабость

С точки зрения возможностей LLM, в то время какPhi-3-MiniМодель достигает аналогичного уровня понимания языка и способности мышления, как и гораздо более крупных моделей, она все еще принципиально ограничена своими размерами для определенных задач.

Figure 5: Left: phi-3-mini’s completion without search. Right: phi-3-mini’s completion with search, using the default HuggingFace Chat-UI search ability. For reference, the 2026 Winter Olympic Games are scheduled to be held in Milano and Cortina in Italy, while the 2022 and 2018 Winter Olympic Games were held in Beijing, China and PyeongChang, Korea, respectively. Without the search results, the response is incorrect, while with the web search, not only does the response become accurate, but also gets more specific with suggestions.

Модель просто не имеет возможности хранить слишком много «фактических знаний», которые можно увидеть, например, с низкой производительностью на вирвиаке. Тем не менее, мы считаем, что такая слабость может быть разрешена путем увеличения с помощью поисковой системы. Мы показываем пример, используя чат с Uggingface default сPhi-3-MiniНа рисунке 5. Другая слабость, связанная с способностью модели, заключается в том, что мы в основном ограничивали язык английским языком. Изучение многоязычных возможностей для малых языковых моделей является важным следующим шагом, с некоторыми первоначальными многообещающими результатами наPhi-3-Smallвключив более многоязычные данные.

Несмотря на наши усердные усилия RAI, как и в большинстве LLM, остаются проблемы, связанные с фактическими неточностями (или галлюцинациями), воспроизведением или усилением предубеждений, ненадлежащей генерации содержания и вопросам безопасности. Использование тщательно кураторских данных обучения и целенаправленные после тренировки и улучшения от понимания красного команды значительно смягчает эти проблемы во всех измерениях. Тем не менее, впереди существует значительная работа, чтобы полностью решить эти проблемы, и использование моделей вниз по течению должно быть оценено для конкретных вариантов использования и соображений безопасности для этого контекста.

Figure 6: The demo case shows Phi-3-Vision’s capability in natural image understanding and reasoning.

Авторы:

(1) Мара Абдин;

(2) Сэм Аде Джейкобс;

(3) Аммар Ахмад Аван;

(4) jyoti aneja;

(5) Ахмед Авадаллах;

(6) Hany Awadalla;

(7) Нгуен Бах;

(8) Амит Бахри;

(9) Араш Бахтиари;

(10) Цзянмин Бао;

(11) Харкират Бел;

(12) Алон Бенхайм;

(13) Миша Биленко;

(14) Йохан Бьорк;

(15) Sébastien Bubeck;

(16) Цин Цай;

(17) Мартин Кай;

(18) Caio César Teodoro Mendes;

(19) Вейджу Чен;

(20) Вишрав Чаудхари;

(21) Донг Чен;

(22) Дундонг Чен;

(23) Йен-Чун Чен;

(24) Йи-Линг Чен;

(25) Парул Чопра;

(26) Xiyang Dai;

(27) Элли Дель Джирно;

(28) Густаво де Роза;

(29) Мэтью Диксон;

(30) Ронен Эльдан;

(31) Виктор Фаросо;

(32) Дэн Итер;

(33) Мэй Гао;

(34) мин Гао;

(35) Цзянфенг Гао;

(36) Амит Гарг;

(37) Абхишек Госвами;

(38) Сурия Гунасекар;

(39) Эмман Хайдер;

(40) Junheng Hao;

(41) Рассел Дж. Хьюитт;

(42) Джейми Хьюнх;

(43) Mojan Javaheripi;

(44) Синь Джин;

(45) Пьеро Кауфманн;

(46) Никос Карампатцциакис;

(47) Dongwoo Kim;

(48) Махоуд Хадеми;

(49) Лев Куриленко;

(50) Джеймс Р. Ли;

(51) Инь Тэт Ли;

(52) Юаньжи Ли;

(53) Юншенг Ли;

(54) Чен Лян;

(55) Ларс Лиден;

(56) CE Liu;

(57) Менгхен Лю;

(58) Вайшунг Лю;

(59) Эрик Лин;

(60) Zeqi Lin;

(61) Чонг Луо;

(62) Пиюш Мадан;

(63) Мэтт Маццола;

(64) Ариндам Митра;

(65) Хардик Моди;

(66) ANH NGUYEN;

(67) Брэндон Норик;

(68) Барун Патра;

(69) Даниэль Перес-Бекер;

(70) Портет Томаса;

(71) Рейд Прайзант;

(72) Хейанг Цинь;

(73) Марко Радмилак;

(74) Корби Россет;

(75) Самбудха Рой;

(76) Olatunji Ruwase;

(77) Олли Саарикиви;

(78) Амин Саид;

(79) Адил Салим;

(80) Майкл Сантакрос;

(81) Шитал Шах;

(82) Нин Шан;

(83) Хитеши Шарма;

(84) Свадхин Шукла;

(85) Sia Song;

(86) Масахиро Танака;

(87) Андреа Тупини;

(88) Синь Ван;

(89) Лиджуань Ван;

(90) Чуню Ван;

(91) Ю Ван;

(92) Рэйчел Уорд;

(93) Гуанхуа Ван;

(94) Филипп Витте;

(95) haiping wu;

(96) Майкл Уайетт;

(97) бен Сяо;

(98) может XU;

(99) Цзяхан Сюй;

(100) Weijian Xu;

(101) Сонали Ядав;

(102) вентилятор Ян;

(103) Цзяньвей Ян;

(104) Зийи Ян;

(105) Йифан Ян;

(106) Донган Ю;

(107) Лу Юань;

(108) Chengruidong Zhang;

(109) Кирилл Чжан;

(110) Цзянвен Чжан;

(111) Ли Лина Чжан;

(112) И Чжан;

(113) Юэ Чжан;

(114) Юнан Чжан;

(115) Ксирен Чжоу.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE