Оценки.

5 апреля 2025 г.

С последним стабильным выпуском от 28 января 2025 года, QWEN2.5-MAX классифицируется как языковая модель смеси экспертов (MOE), разработанная Alibaba. Как и другие языковые модели, QWEN2.5-Max способен генерировать текст, понимание разных языков и выполнять расширенную логику. Согласно недавним тестам, это также более безопасно, чем DeepSeek-V3-0324.

Использование Recon для сканирования для уязвимостей

Команда аналитиков с Protect AI, компанией, стоящей за красным инструментом сканирования уязвимостей команды и безопасности, известного как Recon, недавно использовала свою платформу для сравнения безопасности QWEN2.5-Max с безопасностью DeepSeek-V3.

Отчасти гласит оценка команды: «Мы заметили, что DeepSeek-V3-0324 более уязвим, чем QWEN2,5-MAX, причем резон достигает почти на 25% более высокого уровня успеха атаки (ASR)».

Хотя это может быть более безопасным, чем его соревнование, QWEN2.5-Max не совсем идеально. Согласно их тестам, модель ИИ наиболее подвержена быстрым атакам инъекций, поскольку они составляли почти 48% всех успешных кибератак против QWEN2,5-MAX. Атаки уклонения и джейлбрейка оказались менее успешными с приблизительным ASR 40% для обоих.

Разоблачение уязвимостей в DeepSeek-V3

Recon использует комплексную библиотеку атак для сканирования моделей искусственного искусства текущего поколения и выявления уязвимостей по шести конкретных категориям:

    Методы уклонения Системная подсказка утечек Оперативные атаки впрыска Ай -джейлбрейк пытается Общее управление безопасности Согласное суффикс сопротивление

В дополнение к моделируемым кибератакам Recon также оценивает устойчивость моделей ИИ генерированию потенциально вредного или незаконного содержания. Например, во время тестов на сопротивление суффикса суффикса Recon пытается манипулировать моделью ИИ в создание вредного или незаконного содержания.

Команда AI Protect выступала против QWEN2,5-MAX и DeepSeek-V3, причем бывшие показали более низкий уровень успеха атаки (ASR) в различных атаках; в том числе джейлбрейки, быстрое впрыск и методы уклонения.

Принимая во внимание, что QWEN2,5-MAX имел 47% ASR против быстрого инъекционного атаки по сравнению с DeepSeek-V3, особенно более 77%. Против методов уклонения QWEN2,5-MAX набрал 39,4% ASR против методов уклонения, в то время как DeepSeek-V3 набрал 69,2%. Обе модели ИИ показали аналогичные результаты в других моделируемых кибератаках.

Анализ сильных сторон DeepSeek-V3

Несмотря на свои слабости безопасности, Deepseek-V3-0324 все еще превосходит QWEN2,5-MAX в нескольких различных тестах. В отличие от ASR, более высокий балл в этих тестах фактически указывает на лучшую производительность.

DeepSeek-V3-0324qwen2.5-Max MMLU-PRO81.275.9 GPQA Diamond68.459.1 Математика-50094.090.2 AIME 202459.439.6 LiveCodebench49.239.2

Согласно этим критериям, сильные стороны DeepSeek-V3-0324 включают в себя общее понимание языка (MMLU-PRO), передовые темы, такие как биология, физика и химия (Diamond GPQA), математика (Math-500, AI в медицине (AIME 2024) и кодирование (Livecodebench).

Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнюю о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многое другое. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться
Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнюю о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многое другое. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE