Перейти к контенту

Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах. По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%). Ключевое отличие GLM-4.7 — работа с мышлением. Модель использует interleaved thinking (думает перед каждым действием), а в агентных сценариях сохраняет reasoning между ходами. За счёт этого длинные цепочки команд в терминале и IDE становятся заметно стабильнее: меньше дрейфа контекста и меньше «переизобретений» одного и того же шага. Отдельно прокачали tool using. На τ²-bench и браузерных задачах модель показывает резкий прирост — и это хорошо коррелирует с реальной практикой: меньше лишних вызовов, больше осмысленных действий. Параллельно выросли математика и сложный reasoning — на HLE с инструментами GLM-4.7 поднимается до 42.8%, что почти на 12 пунктов выше прошлой версии. Есть и неожиданный плюс — UI и “vibe coding”. Модель генерирует более аккуратные веб-страницы, с адекватной версткой, размерами и визуальной иерархией. Для быстрых прототипов и внутренних тулов это может сэкономить немало времени. Важно, что GLM-4.7 уже встроена в популярные агентные среды (Claude Code, Roo Code, Cline и др.), доступна через API Z.ai и OpenRouter, а веса выложены публично — модель можно развернуть локально через vLLM или SGLang. По цене её позиционируют как «Claude-уровень за долю стоимости», что делает её особенно интересной для постоянных агентных нагрузок.

Обновлено:
Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.  По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).   Ключевое отличие GLM-4.7 — работа с мышлением. Модель использует interleaved thinking (думает перед каждым действием), а в агентных сценариях сохраняет reasoning между ходами. За счёт этого длинные цепочки команд в терминале и IDE становятся заметно стабильнее: меньше дрейфа контекста и меньше «переизобретений» одного и того же шага.   Отдельно прокачали tool using. На τ²-bench и браузерных задачах модель показывает резкий прирост — и это хорошо коррелирует с реальной практикой: меньше лишних вызовов, больше осмысленных действий. Параллельно выросли математика и сложный reasoning — на HLE с инструментами GLM-4.7 поднимается до 42.8%, что почти на 12 пунктов выше прошлой версии.  Есть и неожиданный плюс — UI и “vibe coding”. Модель генерирует более аккуратные веб-страницы, с адекватной версткой, размерами и визуальной иерархией. Для быстрых прототипов и внутренних тулов это может сэкономить немало времени.  Важно, что GLM-4.7 уже встроена в популярные агентные среды (Claude Code, Roo Code, Cline и др.), доступна через API Z.ai и OpenRouter, а веса выложены публично — модель можно развернуть локально через vLLM или SGLang. По цене её позиционируют как «Claude-уровень за долю стоимости», что делает её особенно интересной для постоянных агентных нагрузок.
Z.ai выпустили обновление, которое меняет правила игры в AI-программировании. Разбираемся, как модель научилась «думать» перед действием, почему она лучше пишет сайты и как это поможет сэкономить на дорогих подписках.
Загрузка реакций...

Кажется, мы начинаем привыкать к гонке нейросетей. Новые релизы выходят чуть ли не еженедельно, и часто это просто игра цифрами - "быстрее, выше, сильнее" на полпроцента. Разницу замечают только энтузиасты, сидящие в бенчмарках. Но свежий релиз от Z.ai - модель GLM-4.7 - это история другого порядка. Здесь разработчики не просто накинули мощности, а попытались вылечить главную головную боль всех, кто пишет код с AI: проблему "короткой памяти" и хаотичных действий.

Давайте разберемся, что именно изменилось и почему это может сэкономить вам часы отладки.

Проблема, которую все игнорировали

Если вы пробовали писать сложный код с помощью топовых нейросетей, то знаете этот сценарий. Сначала все идет отлично: модель пишет функцию, предлагает структуру. Но стоит задаче растянуться на десять шагов или потребовать работы с терминалом, как начинается хаос. AI забывает, что делал три шага назад, начинает предлагать те же самые ошибочные решения или теряет нить разговора.

GLM-4.7 пытается лечить именно это. Главное нововведение - так называемое interleaved thinking. Проще говоря, модель "думает" перед каждым действием. Это звучит банально, но на практике дает огромную разницу. Раньше модели часто спешили выдать код, не проверив логику. Теперь же, особенно в агентных сценариях (когда AI сам выполняет цепочку задач), сохраняется ход рассуждений между шагами.

Результат? Длинные цепочки команд в терминале или IDE перестали рассыпаться. Модель помнит, зачем она открыла этот файл пять минут назад, и не пытается "переизобрести велосипед", если что-то пошло не так.

Что говорят сухие цифры

Чтобы не быть голословными, посмотрим на тесты. Рост производительности здесь не косметический:

  1. SWE-bench Verified: 73.8% (рост на 5.8%). Это тест на решение реальных задач по программной инженерии.
  2. Terminal Bench 2.0: 41% (рост на 16.5%). Это про умение работать с командной строкой, где одна ошибка может сломать все окружение.
  3. Математика и сложная логика: на тестах с использованием инструментов модель прыгнула сразу на 12 пунктов вверх.

Это значит, что "галлюцинаций" при работе со сложными алгоритмами станет меньше, а шанс, что модель правильно настроит вам рабочее окружение с первого раза - выше.

"Vibe coding" и верстка, на которую можно смотреть

Интересный побочный эффект обновления, который разработчики назвали "vibe coding". Обычно, когда просишь нейросеть набросать простой веб-интерфейс, получается что-то кривое, в стиле сайтов из 90-х. GLM-4.7 научилась чувствовать визуальную иерархию.

Она генерирует аккуратные страницы с нормальными отступами, адекватными размерами шрифтов и логичным расположением кнопок. Это не заменит профессионального дизайнера, но для создания быстрых прототипов или внутренних админок - это спасение. Вы получаете рабочий инструмент, от которого не вытекают глаза, сразу, без получаса правок CSS.

Экономия бюджета

Пожалуй, самый приятный момент - это доступность. Рынок сейчас захвачен дорогими моделями вроде Claude или GPT-4. GLM-4.7 позиционируется как "топовый уровень за долю стоимости".

Более того, модель уже встроили в популярные инструменты для разработчиков (Claude Code, Roo Code, Cline). А самое главное - веса модели выложены публично. Это значит, что если у вас есть мощное железо, вы можете развернуть её локально и вообще не платить за токены, сохраняя при этом полную приватность вашего кода.

Перспектива и риски

Конечно, чудес не бывает. Даже с улучшенным "мышлением" модель может ошибаться. Риск здесь в том, что из-за возросшей стабильности мы можем начать доверять ей слишком сложные задачи без должной проверки. Если AI уверенно выполняет 20 шагов в терминале, легко расслабиться и пропустить момент, когда на 21-м шаге он случайно удалит важную папку. Контроль со стороны человека все еще обязателен.

Но тренд очевиден: мы переходим от чат-ботов, которые просто выплевывают куски кода, к автономным помощникам, способным вести проект и удерживать в "голове" сложную архитектуру.

Итог

GLM-4.7 - это не революция, но очень крепкая эволюция в правильном направлении. Она делает ставку на надежность в длинных дистанциях и понимание контекста, а не просто на генерацию красивого текста.

А вы готовы доверить AI доступ к вашему терминалу для самостоятельной работы, или пока предпочитаете копировать код вручную, чтобы держать руку на пульсе?

Читайте также

Что такое RAG в нейросетях: гайд для новичков и разработчиков
ИИ
0

Что такое RAG в нейросетях: гайд для новичков и разработчиков

Разбираем технологию Retrieval-Augmented Generation (RAG) простыми словами и на уровне кода. Узнайте, как избавить нейросеть от галлюцинаций, подключить ее к корпоративной базе знаний и сколько стоят векторные базы данных в 2026 году.

Процессор NVIDIA Vera для ИИ: характеристики, тесты и сравнение производительности
ИИ
0

Процессор NVIDIA Vera для ИИ: характеристики, тесты и сравнение производительности

NVIDIA представила специализированный процессор Vera, призванный ликвидировать главный барьер производительности современных ИИ-кластеров - медленную подготовку данных классическими CPU. Чип демонстрирует превосходство в 1.8 раза по сравнению с традиционными серверными решениями за счет интеграции тензорных блоков прямо в архитектуру процессора. Рассматриваем технические нюансы архитектуры 2026 года и ее экономическую целесообразность.

Anthropic Claude Opus 4.8: ИИ-модель, которая сама исправляет свои баги - обзор и цены
ИИ
0

Anthropic Claude Opus 4.8: ИИ-модель, которая сама исправляет свои баги - обзор и цены

Компания Anthropic выкатила масштабное обновление своей топовой языковой модели - Claude Opus 4.8. Главным прорывом релиза стала способность нейросети запускать сотни субагентов для проверки собственного кода и автоматического исправления багов. Кроме того, разработчики радикально снизили цены на генерацию в быстром режиме.

Загрузка комментариев...