Google Gemini 2.5 Pro лучше в кодировании, математике и науке, чем ваша любимая модель искусственного интеллекта

Google Gemini 2.5 Pro лучше в кодировании, математике и науке, чем ваша любимая модель искусственного интеллекта

27 марта 2025 г.

Google представила Gemini 2.5 Pro, первый в своем семействе Gemini 2.5. Эта мультимодальная модель рассуждений превосходит конкурентов из OpenAI, антропного и DeepSeek в ключевых показателях, связанных с кодированием, математикой и наукой.

Что такое модели ИИ?

Рассуждение AIS предназначено для того, чтобы «думать, прежде чем говорить». Они оценивают контекст, методические детали процесса и ответы проверки фактов, чтобы обеспечить логическую точность-хотя эти возможности требуют большей вычислительной мощности и более высоких эксплуатационных затрат.

OpenAI запустила первую модель рассуждений в сентябре прошлого года с O1, заметным отходом серии GPT, которая была в значительной степени сосредоточена на поколении языка. С тех пор основные игроки в гонке ИИ ответили: Deepseek с R1, антропным с Клодом Сонетом 3.7 и Xai's с Grok 3.

Развивается за пределами «флэш -мышления»

Ранее Google запустил свою первую модель AI AIS, Gemini 2.0 Flash Speading, в декабре. Маркетинг для своих агентских возможностей, Flash Speault недавно была обновлена, чтобы разрешить загрузку файлов и более крупные подсказки; Однако с внедрением Gemini 2.5 Pro Google, похоже, вообще уходит на пенсию «мыслительного» ярлыка.

Согласно объявлению Google о Gemini 2.5, это связано с тем, что возможности рассуждений теперь будут интегрированы на всех будущих моделях. Этот сдвиг знаменует собой шаг к более объединенной архитектуре ИИ, а не разделяет «мыслительные» функции как автономный брендинг.

Новая экспериментальная модель сочетает в себе «значительно улучшенную базовую модель» с «улучшенной пост-тренировкой». Google рекламирует свою производительность на вершине лидеров Lmarena, которая оценивает крупные крупные языковые модели по различным задачам.

Скачать: Как использовать ИИ в бизнесе от TechRepublic Premium

Контрольный лидер в области науки, математики и кода

Gemini 2,5 Pro выдерживают в академических показателях рассуждений, набрав 86,7% на AIME 2025 (математика) и 84,0% по критерию Diamond GPQA (Science). На последнем экзамене Humanity - широком тесте с тысячами вопросов по математике, науке и гуманитарным наукам - модель ведет со счетом 18,8%.

Примечательно, что эти результаты были достигнуты без использования дорогостоящих методов времени испытания, которые позволяют таким моделям, как O1 и R1 продолжать обучение во время оценки.

В контрольных показателях разработки программного обеспечения производительность Gemini 2.5 Pro смешана. Он набрал 68,6% на эталонном эталоне PolyGlot для редактирования кода, опередив большинство моделей высшего уровня. Тем не менее, он набрал 63,8% по проверке SWE-Bench, заняв второе место в Claude Sonnet 3.7 в более широких задачах программирования.

Несмотря на это, Google говорит, что Gemini 2.5 Pro «преуспевает в создании визуально убедительных веб -приложений и приложений агентского кода», о чем свидетельствует его способность создавать видеоигру с одной подсказки.

Модель поддерживает контекстное окно в один миллион токенов, то есть она может обработать эквивалент подсказки из 750 000 слов или первых шести книг о Гарри Поттере. Google планирует увеличить этот порог до двух миллионов токенов в свое время.

Gemini 2.5 Pro в настоящее время доступен через приложение Gemini Advanced, которое требует подписки на 20 долларов в месяц, а также для разработчиков и предприятий через Google AI Studio. В ближайшие недели Gemini 2.5 Pro будет доступен в Vertex AI, платформе для машинного обучения Google для разработчиков, а также будут введены детали цен для различных ограничений по цене.

Подпишитесь на еженедельный бюллетень Google Узнайте, как получить максимальную отдачу от Google Docs, Google Cloud Platform, Google Apps, Chrome OS и всех других продуктов Google, используемых в бизнес -средах. Доставлено по пятницам Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться
Подпишитесь на еженедельный бюллетень Google Узнайте, как получить максимальную отдачу от Google Docs, Google Cloud Platform, Google Apps, Chrome OS и всех других продуктов Google, используемых в бизнес -средах. Доставлено по пятницам Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE