Оценки.
5 апреля 2025 г.С последним стабильным выпуском от 28 января 2025 года, QWEN2.5-MAX классифицируется как языковая модель смеси экспертов (MOE), разработанная Alibaba. Как и другие языковые модели, QWEN2.5-Max способен генерировать текст, понимание разных языков и выполнять расширенную логику. Согласно недавним тестам, это также более безопасно, чем DeepSeek-V3-0324.
Использование Recon для сканирования для уязвимостей
Команда аналитиков с Protect AI, компанией, стоящей за красным инструментом сканирования уязвимостей команды и безопасности, известного как Recon, недавно использовала свою платформу для сравнения безопасности QWEN2.5-Max с безопасностью DeepSeek-V3.
Отчасти гласит оценка команды: «Мы заметили, что DeepSeek-V3-0324 более уязвим, чем QWEN2,5-MAX, причем резон достигает почти на 25% более высокого уровня успеха атаки (ASR)».
Хотя это может быть более безопасным, чем его соревнование, QWEN2.5-Max не совсем идеально. Согласно их тестам, модель ИИ наиболее подвержена быстрым атакам инъекций, поскольку они составляли почти 48% всех успешных кибератак против QWEN2,5-MAX. Атаки уклонения и джейлбрейка оказались менее успешными с приблизительным ASR 40% для обоих.
Разоблачение уязвимостей в DeepSeek-V3
Recon использует комплексную библиотеку атак для сканирования моделей искусственного искусства текущего поколения и выявления уязвимостей по шести конкретных категориям:
- Методы уклонения
Системная подсказка утечек
Оперативные атаки впрыска
Ай -джейлбрейк пытается
Общее управление безопасности
Согласное суффикс сопротивление
В дополнение к моделируемым кибератакам Recon также оценивает устойчивость моделей ИИ генерированию потенциально вредного или незаконного содержания. Например, во время тестов на сопротивление суффикса суффикса Recon пытается манипулировать моделью ИИ в создание вредного или незаконного содержания.
Команда AI Protect выступала против QWEN2,5-MAX и DeepSeek-V3, причем бывшие показали более низкий уровень успеха атаки (ASR) в различных атаках; в том числе джейлбрейки, быстрое впрыск и методы уклонения.
Принимая во внимание, что QWEN2,5-MAX имел 47% ASR против быстрого инъекционного атаки по сравнению с DeepSeek-V3, особенно более 77%. Против методов уклонения QWEN2,5-MAX набрал 39,4% ASR против методов уклонения, в то время как DeepSeek-V3 набрал 69,2%. Обе модели ИИ показали аналогичные результаты в других моделируемых кибератаках.
Анализ сильных сторон DeepSeek-V3
Несмотря на свои слабости безопасности, Deepseek-V3-0324 все еще превосходит QWEN2,5-MAX в нескольких различных тестах. В отличие от ASR, более высокий балл в этих тестах фактически указывает на лучшую производительность.
DeepSeek-V3-0324qwen2.5-Max MMLU-PRO81.275.9 GPQA Diamond68.459.1 Математика-50094.090.2 AIME 202459.439.6 LiveCodebench49.239.2
Согласно этим критериям, сильные стороны DeepSeek-V3-0324 включают в себя общее понимание языка (MMLU-PRO), передовые темы, такие как биология, физика и химия (Diamond GPQA), математика (Math-500, AI в медицине (AIME 2024) и кодирование (Livecodebench).
Оригинал