Две флагманские нейронки — что предлагают GPT-5.5 и DeepSeek V4

OpenAI представила новое поколение большой языковой модели — GPT-5.5. Спустя несколько часов случился релиз DeepSeek V4 от одноимённого китайского стартапа. Сравниваем заявленные возможности и результаты тестов обеих моделей.

GPT-5.5

Флагманский релиз OpenAI ориентирован на агентные цели: программирование, работу с документами, управление компьютером. То есть когда модель сама планирует шаги, использует инструменты и доводит задачу до результата. По словам разработчиков, прирост относительно GPT-5.4 особенно заметен там, где необходимо долго удерживать контекст и оперировать инструментами без постоянных уточнений пользователя.

Ещё одно преимущество — более эффективное использование токенов. Хотя GPT-5.5 дороже предшественницы при использовании через API, на генерацию ответа ей требуется меньше усилий и времени. 

Что предлагают GPT-5.5 и DeepSeek V4?

В тесте Terminal-Bench 2.0, где проверяется выполнение сложных задач в командной строке с планированием и использованием инструментов, GPT-5.5 набрала 82,7%. Это на 7 процентных пунктов больше результата GPT-5.4. А если сравнивать с Claude Opus 4.7 — на 11 пунктов. При этом в разработке новинка отстаёт от Claude: бенчмарк SWE-Bench Pro (исправление багов в репозиториях) показывает 58,6%, а у модели Anthropic — 64,3%. Бенчмарк Graphwalks BFS 1M F1 демонстрирует сильный скачок на фоне GPT-5.4 в задачах с длинным контекстом: 45,4 процента вместо 9,4.

Конкретное число параметров и длина контекста GPT-5.5, как и для большинства других релизов OpenAI, не раскрываются. При этом в будущем компания обещает открыть доступ по API к контексту до 1 млн токенов.

Что предлагают GPT-5.5 и DeepSeek V4?

В веб-версии и приложениях ChatGPT модель доступна в вариантах GPT-5.5 Thinking и GPT-5.5 Pro. Первая предлагается для подписчиков Plus, Pro, Business и Enterprise, вторая — для Pro, Business и Enterprise. Также новинка уже интегрирована в инструмент для разработки Codex. Протестировать свежую версию на бесплатном тарифе ChatGPT пока нельзя. Кроме того, чат-бот всё ещё официально недоступен в России.

DeepSeek V4

Китайская модель выстрелила в начале 2025 года, и теперь возвращается с новым уровнем вычислений. DeepSeek по-прежнему придерживается политики открытого исходного кода, так что развернуть модель можно на собственном оборудовании.

Есть две версии нейросети: думающая DeepSeek-V4-Pro и DeepSeek-V4-Flash для мгновенных ответов. DeepSeek-V4-Pro имеет 1,6 трлн параметров, из которых одновременно активируются 49 млрд; DeepSeek-V4-Flash — 284 млрд параметров и 13 млрд активных. Обе поддерживают контекст 1 млн токенов.

Что предлагают GPT-5.5 и DeepSeek V4?

Интересная деталь: DeepSeek V4 адаптирована для чипов HUAWEI Ascend, поскольку решения NVIDIA и других западных вендоров в Китае недоступны из-за санкций. 

DeepSeek утверждает, что V4-Pro-Max — максимальный режим рассуждения V4-Pro — лидирует по качеству среди открытых моделей. В SimpleQA-Verified он получил 57,9%, в GPQA Diamond — 90,1%, в HLE — 37,7%, в LiveCodeBench — 93,5%. В агентных задачах модель не столь хороша: SWE-Bench Pro выдаёт 55,4%, Terminal-Bench 2.0 — 67,9%. 

Разработчики также подчёркивают успехи в задачах с длинным контекстом: на отдельных академических тестах V4-Pro-Max превосходит Gemini 3.1 Pro.

Что предлагают GPT-5.5 и DeepSeek V4?

В России DeepSeek популярен за счёт доступности: сервис не ограничивает посещения, приложения скачиваются в магазинах без смены региона. К тому же у нейросети нет платной версии — стартап берёт деньги лишь за доступ по API. Для взаимодействия с DeepSeek-V4-Flash в интерфейсе чат-бота необходимо активировать режим «Быстрый», для V4-Pro — «Эксперт».

Источник

Поделиться ссылкой:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *