
Укрепление безопасности LLM: ответственное выравнивание AI PHI-3
8 июля 2025 г.Таблица ссылок
Аннотация и 1 введение
2 технические характеристики
3 академические тесты
4 Безопасность
5 Слабость
6 Phi-3-Vision
6.1 Технические спецификации
6.2 академические тесты
6.3 Безопасность
6.4 Слабость
Ссылки
Пример подсказки для тестов
B Авторы (алфавитный)
C подтверждения
4 Безопасность
Phi-3-Miniбыл разработан в соответствии с ответственными принципами ИИ Microsoft. Общий подход состоял из выравнивания безопасности в пост-тренировочном, красном командовании, автоматическом тестировании и оценках по десяткам категорий RAI вреда. Наборы данных о полезности и безвредных предпочтениях [BJN+ 22, JLD+ 23] с модификациями, вдохновленными [BSA+ 24], и множественные внутренние наборы данных были использованы для решения категорий RAI HARM в области безопасности. Независимая красная команда в Microsoft итеративно осмотрелаPhi-3-MiniДля дальнейшего определения областей улучшения во время процесса после тренировки. Основываясь на их обратной связи, мы курировали дополнительные наборы данных, адаптированные для решения их понимания, тем самым уточнив набор данных после обучения. Этот процесс привел к значительному снижению вредных частот ответа, как показано на рисунке 4.
Выравнивание безопасностиPhi-3-SmallиPhi-3-Mediumпроводился путем прохождения того же процесса красного команды, с использованием идентичных наборов данных и включения немного большего количества образцов. В таблице 1 показаны результаты внутренних тестов RAI [MHJ+ 23] дляPHI-3Модели по сравнению с PHI-2 [JBA+ 23], MISTRAL-7B-V0.1 [JSM+ 23], GEMMA 7B [TMH+ 24] и Llama-3-instruct-8B [AI]. В этом эталоне использовались GPT-4 для моделирования многократных разговоров в пяти различных категориях и для оценки ответов на модели. Необоснованность между 0 (полностью заземленными) и 4 (не заземленными) измерениями, если информация в ответе основана на данной подсказке. В других категориях ответы были оценены с точки зрения тяжести вредности от 0 (без вреда) до 7 (крайний вред), а показатели дефектов (DR-X) были рассчитаны как процент образцов, при этом показатель серьезности превышал или равен X.
Авторы:
(1) Мара Абдин;
(2) Сэм Аде Джейкобс;
(3) Аммар Ахмад Аван;
(4) jyoti aneja;
(5) Ахмед Авадаллах;
(6) Hany Awadalla;
(7) Нгуен Бах;
(8) Амит Бахри;
(9) Араш Бахтиари;
(10) Цзянмин Бао;
(11) Харкират Бел;
(12) Алон Бенхайм;
(13) Миша Биленко;
(14) Йохан Бьорк;
(15) Sébastien Bubeck;
(16) Цин Цай;
(17) Мартин Кай;
(18) Caio César Teodoro Mendes;
(19) Вейджу Чен;
(20) Вишрав Чаудхари;
(21) Донг Чен;
(22) Дундонг Чен;
(23) Йен-Чун Чен;
(24) Йи-Линг Чен;
(25) Парул Чопра;
(26) Xiyang Dai;
(27) Элли Дель Джирно;
(28) Густаво де Роза;
(29) Мэтью Диксон;
(30) Ронен Эльдан;
(31) Виктор Фаросо;
(32) Дэн Итер;
(33) Мэй Гао;
(34) мин Гао;
(35) Цзянфенг Гао;
(36) Амит Гарг;
(37) Абхишек Госвами;
(38) Сурия Гунасекар;
(39) Эмман Хайдер;
(40) Junheng Hao;
(41) Рассел Дж. Хьюитт;
(42) Джейми Хьюнх;
(43) Mojan Javaheripi;
(44) Синь Джин;
(45) Пьеро Кауфманн;
(46) Никос Карампатцциакис;
(47) Dongwoo Kim;
(48) Махоуд Хадеми;
(49) Лев Куриленко;
(50) Джеймс Р. Ли;
(51) Инь Тэт Ли;
(52) Юаньжи Ли;
(53) Юншенг Ли;
(54) Чен Лян;
(55) Ларс Лиден;
(56) CE Liu;
(57) Менгхен Лю;
(58) Вайшунг Лю;
(59) Эрик Лин;
(60) Zeqi Lin;
(61) Чонг Луо;
(62) Пиюш Мадан;
(63) Мэтт Маццола;
(64) Ариндам Митра;
(65) Хардик Моди;
(66) ANH NGUYEN;
(67) Брэндон Норик;
(68) Барун Патра;
(69) Даниэль Перес-Бекер;
(70) Портет Томаса;
(71) Рейд Прайзант;
(72) Хейанг Цинь;
(73) Марко Радмилак;
(74) Корби Россет;
(75) Самбудха Рой;
(76) Olatunji Ruwase;
(77) Олли Саарикиви;
(78) Амин Саид;
(79) Адил Салим;
(80) Майкл Сантакрос;
(81) Шитал Шах;
(82) Нин Шан;
(83) Хитеши Шарма;
(84) Свадхин Шукла;
(85) Sia Song;
(86) Масахиро Танака;
(87) Андреа Тупини;
(88) Синь Ван;
(89) Лиджуань Ван;
(90) Чуню Ван;
(91) Ю Ван;
(92) Рэйчел Уорд;
(93) Гуанхуа Ван;
(94) Филипп Витте;
(95) haiping wu;
(96) Майкл Уайетт;
(97) бен Сяо;
(98) может XU;
(99) Цзяхан Сюй;
(100) Weijian Xu;
(101) Сонали Ядав;
(102) вентилятор Ян;
(103) Цзяньвей Ян;
(104) Зийи Ян;
(105) Йифан Ян;
(106) Донган Ю;
(107) Лу Юань;
(108) Chengruidong Zhang;
(109) Кирилл Чжан;
(110) Цзянвен Чжан;
(111) Ли Лина Чжан;
(112) И Чжан;
(113) Юэ Чжан;
(114) Юнан Чжан;
(115) Ксирен Чжоу.
Эта статья есть
Оригинал
Recent Post
-
Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain
20 августа 2025 г. -
Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение
20 августа 2025 г. -
Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства
20 августа 2025 г. -
За кулисами эксперимента парного программирования
19 августа 2025 г. -
Простое руководство по измерению времени и труда в программировании
19 августа 2025 г.
Categories
- Python
- blockchain
- web
- hackernoon
- вычисления
- вычислительные компоненты
- цифровой дом
- игры
- аудио
- домашний кинотеатр
- Интернет
- Мобильные вычисления
- сеть
- фотосъемка видео
- портативные устройства
- программного обеспечения
- телефон и связь
- телевидение
- видео
- мир технологий
- умные гиды
- облако
- искусственный интеллект
- се
- Samsung
- умные города
- digitaltrends
- отели
- Startups
- Venture
- Crypto
- Apps
- безопасность
- техника и работа
- cxo
- мобильность
- разработчик
- 5г
- майкрософт
- инновации
- Права и свободы
- Законодательство и право
- Политика и общество
- Космическая промышленность
- Информационные технологии
- Технологии
- Образование
- Научные исследования
- Автомобильная промышленность
- Программная инженерия
- IT и технологии
- Веб-разработка
- Программирование
- Автоматизация
- Карьерный рост
- Программирование и анализ данных
- Трудоустройство
- Политика
- Искусственный интеллект
- ИТ-технологии
- Программное обеспечение
- Экологическая политика
- Образование и рынок труда
- Политика и право
- Microsoft Teams и SharePoint
- Информационная безопасность
- Кибербезопасность
- Налоги
- Образование и карьера
- Интернет и технологии
- Технологии, Государственные услуги
- Политика и технологии
- Разработка программного обеспечения
- Разработка ПО
- Машинное обучение
- Налогообложение, технологии, открытый исходный код
- Финансы и налоги
- Технологии, Интернет, Экология
- Интернет, безопасность
- Технологии и политика
- Операционные системы
- Профессиональная разработка
- Технологии, Безопасность
- Интернет и общество
- Финансовая индустрия
- Налоговый учёт
- Общественное здравоохранение
- Технологическая отрасль
- Юриспруденция
- Технологии и государство
- Здоровье и фитнес
- IT-инфраструктура
- Технологии и ИИ
- Здравоохранение
- IT
- Технологии, Экономика
- Музыка и технологии
- Здоровье и питание
- IT и безопасность
- Бизнес и предпринимательство
- Технологии, Программное обеспечение
- Технологии и инновации
- Технологии, данные, этика
- Технологии и Интернет
- Технологии и SaaS
- Медицина и здравоохранение
- Онлайн-видеосервисы
- Финансы и технологии
- Чтение и саморазвитие
- Экономика и бизнес
- Безопасность данных
- Удаленная работа
- Авиация и технологии
- Технологии, Игры
- Энергетика
- Социальные сети, безопасность, технологии
- Саморазвитие
- Безопасность информации
- Бизнес и карьера
- Технологии и отношения
- Игровая индустрия
- Компьютерная индустрия
- Математика, Искусственный интеллект
- Наука и технологии
- Технологии и безопасность
- Технологии, Удаленная работа, Бизнес
- Видеоигры
- Технологии, Искусственный интеллект, Этика
- Технологии, социальные сети, 6G
- Технологии, Программирование, AI, Разработка ПО
- Программирование, Разработка ПО, Технологии
- Животные
- Технологии, Искусственный интеллект
- Программирование, карьера, технологии, обучение
- Бизнес и технологии
- Технологии, Безопасность данных
- Астрономия и физика
- Продуктивность, личное развитие
- Медиа и Технологии
- Программирование и Искусственный Интеллект
- Социальные сети
- Политика и экономика
- Технологии, Медицина, Искусственный интеллект
- Технологии и управление
- Космос и астрономия
- Общество и политика
- Космические исследования
- Веб-дизайн
- Искусственный интеллект и безопасность данных
- Технологии, Безопасность, Конфиденциальность
- Экологическая проблема
- Технологии, Погода
- Авиация
- Транспортная сфера
- Технологии и бизнес
- Игровая промышленность
- Телевидение и реклама
- Аналитика данных
- Технологии и кибербезопасность
- Маркетинг
- Технологии и гаджеты
- Технологии, Авиация, Инновации
- Финансы и инвестиции
- Технологии и общество
- Рыночный анализ
- Космология
- Данные и бизнес
- IT и программирование
- Технологии и право
- Программирование и разработка
- Медицинские технологии
- Авиационная промышленность
- Технологии и искусственный интеллект
- Генетическая инженерия
- Бизнес и инвестиции
- Компьютерная промышленность
- Психология и социология
- Образование и технологии
- Рынок труда
- Технологии, Стартапы
- Технологии, Приватность, Чтение
- Маркетинг и продажи
- Виртуальная реальность
- Технологии, Смартфоны, Маркетинг
- Технологии, Бизнес, Личностный рост
- Экологические проблемы
- Экономика и технологии
- IT и карьера
- Интернет и безопасность
- Разработка и технологии
- Биотехнологии
- Интернет-магазины, кибербезопасность
- Финансы
- Безопасность и технологии
- Экономика
- Защита данных
- Data Science
- Карьера и работа
- Финансовый успех, мошенничество, маркетинг
- Безопасность
- Экология
- Космическая индустрия
- Программирование, Python, Обучение
- Технологии искусственного интеллекта
- Технологии, Дизайн, iOS
- Программирование, DevOps, Kubernetes
- Социальные сети и пропаганда
- Корпоративная этика
- Управление IT-инфраструктурой
- Здоровье и медицина
- Медицина
- Медицинская промышленность
- Разработка и дизайн
- Искусственный интеллект, Диагностика систем
- Образование и психология
- Технологии, Автомобильная промышленность
- Автомобили и путешествия
- Астрономия и космология
- Программирование и технологии
- IT, работа в офисе, эмоциональный интеллект
- Компьютерная техника
- Здоровье и благополучие
- Управление персоналом
- Политика и управление
- Бизнес и экономика
- Социальные сети, Пропаганда, Информационная безопасность
- Технологии и автоматизация
- Геймдизайн
- Экология и технологии
- CRM-системы, IT-инфраструктура
- Права человека
- Цифровая цензура, свобода слова, технологии
- Технологии, Искусственный интеллект, Работа
- Наука о данных
- Астрономия, Наука
- Интернет и цифровые технологии
- Технологии, управление
- Интернет и связь
- Технологии и конфиденциальность
- Интернет и свобода слова
- Психология и социальные науки
- Книги и литература
- Работа и карьера
- Финансовые технологии
- Психология и саморазвитие
- IT, программирование, сети
- Технологии, Видеоигры
- Экология и энергетика
- Космонавтика
- Медицина и технологии
- Игры и развлечения
- Музыкальная индустрия
- Логистика и складирование
- Бизнес и финансы
- Экология и окружающая среда
- Правозащита
- Социальные сети и дезинформация
- Технологии и рынок труда
- Технологии, Искусственный интеллект, Рынок труда
- Технологии и будущее
- Медицина и здоровье
- Социальные медиа
- Экология, политика, общество
- Экономика и Финансы
- Разработка игр
- Пропаганда и дезинформация
- Медицинские исследования
- Онлайн-знакомства
- Политика и СМИ
- Энергетика и электромобили
- Климатические изменения
- Технологии, Рынок труда
- IT и управление данными
- Безопасность и кибербезопасность
- Интернет-технологии
- Психология и личностное развитие
- Технологии, Мессенджеры
- Цифровые технологии
- Здоровье и самосовершенствование
- Технологии и AI
- Технологии и спорт
- IT, Разработка программного обеспечения
- Экология и климат
- Космос и технологии
- Юридическая сфера
- Безопасность в интернете
- Программирование, Искусственный Интеллект, Качество ПО
- Технологии и мессенджеры
- Социальная справедливость
- Технологическая индустрия
- Личностное развитие, Time-менеджмент, Психология
- Бизнес и менеджмент
- Технологии, Микросхемы, Автономные системы
- Фриланс и предпринимательство
- Социальные сети и искусственный интеллект
- Криминальные дела
- Социальные сети, Маркетинг
- Энергетика и экология
- Технологии, Искусственный Интеллект, Полиция
- Программирование, Искусственный интеллект, Рынок труда
- Социальные сети, дезинформация, анализ данных
- Потребительские права
- Образование и наука
- Технологии и правосудие
- Технологии, Безопасность, Автомобили
- Энергетика и окружающая среда
- Личностное развитие
- Технологии и экономика
- Медиа и коммуникации
- Миграция и иммиграция
- Личностный рост
- Налоговая система
- Медиа и телевидение
- Интернет и телекоммуникации
- Технологии, Кибербезопасность
- Здоровье
- Социальные сети и карьера
- Политика и инфраструктура
- Предпринимательство
- Промышленность программного обеспечения
- СМИ и коммуникации
- Медиа и Общество
- Медицина и генетика
- Веб-разработка и дизайн
- Технологии, процессоры
- IT-индустрия
- Кинопроизводство и технологии
- Транспорт
- Текстовый анализ
- Технологии, дизайн интерфейсов
- Офисные приложения
- Технологии, Онлайн-сервисы
- Медицина и биотехнологии
- Общество и технологии
- Экономика и рынок труда
- Искусственный интеллект, программирование, аналитика
- Технологии, следствие
- Сетевые технологии
- Технологии и веб-разработка
- Программирование, Обучение, Практика
- Коммуникации и ИТ
- Технологии, Карьера, Экономика
- Технологии и транспорт
- Здравоохранение и медицина
- Технологии, Государственное управление
- IT-безопасность
- IT и разработка
- Финансы и экономика
- Социальные сети, Общество, Сообщества
- IT-разработка
- СМИ и политика
- Конфиденциальность и безопасность
- Экономика и политика
- Технологии и общественная жизнь
- Бизнес и этика
- Безопасность и защита информации
- Технологии, бизнес
- Интернет и цензура
- Государственное регулирование
- Игры, Технологии
- Технологии и оптимизация
- Технологии ИИ и машинного обучения
- Технологии, IT, карьера
- IT и программное обеспечение
- Право и преступность
- Криминал и Правоохранительные Органы
- Технологии и энергетика
- Нефтяная промышленность
- Социальные конфликты
- Преступность и безопасность
- Таможенная очистка
- Медиа и журналистика
- Технологии и разработка приложений
- Телекоммуникации
- Консалтинг и управление
- Управление человеческими ресурсами
- Онлайн-контент
- Психология и психотерапия
- Морская отрасль
- Психология и технологии
- Социальные проблемы
- Маркетинг и реклама
- Политика и власть
- Экономика и торговля
- Карьера и развитие
- Продуктивность и Управление Временем
- Технологии, Искусственный интеллект, Реклама
- Окружающая среда
- Здоровье и технологии
- Бытовая химия
- Правовая информация
- Юстиция
- Технологии и экология
- Социальные сети и безопасность
- Базы данных
- Политика и государственное управление
- Интернет и социальные сети
- Индустрия IT
- Технологии и программное обеспечение
- История и искусственный интеллект
- Рестораны и обслуживание
- Технологии и программирование
- Социология
- Телевидение и СМИ
- Психология
- Политика и бизнес
- Мобильные устройства
- Технологии и развлечения
- Экология и охрана окружающей среды
- Маркетинг и брендинг
- Медицинская индустрия
- Кибербезопасность и технологии
- Социальные сети и политика
- Развлечения
- ИТ и автоматизация
- Криптовалюты и блокчейн
- История и идеология
- Медицина и политика
- Личная жизнь миллиардеров
- Образование и Политика
- Туризм и отдых
- Психология и искусственный интеллект
- Удаленная работа и производительность
- Выживание
- Управление командами
- Разработка
- Международная торговля
- Корпоративная ответственность
- Социальные сети и общество
- Управление серверами
- Индустрия компьютерных игр
- Политика и климат
- Онлайн-игры
- Медицинская отрасль
- Искусственный интеллект и технологии
- Религия и мораль
- Путешествия
- Социальные сети и информация
- Технологии и медиа
- Технологии и свобода
- Электронная коммерция
- Бизнес и управление
- Психическое здоровье и технологии
- Технологии и устойчивое развитие
- Технологии и социальные сети
- Профессии
- Экономика и промышленность
- Технологии и трудоустройство
- Иммиграционная политика
- Продуктивность и фокус
- Технологии и робототехника
- Свобода слова