GLM-5.2 face à GPT-5.5 : le code agentique à 6× moins cher
Z.ai sort un open-weights qui passe devant OpenAI sur le code — pour une fraction du prix. On a comparé.
Le 13 juin, Z.ai (ex-Zhipu) a posé GLM-5.2 sur la table sans tambour ni trompette : un modèle open-weights de 753 milliards de paramètres, 1 million de tokens de contexte, et une grille tarifaire qui descend jusqu'à six fois sous celle de GPT-5.5. Pour qui fait tourner des agents codeurs en volume, l'écart de facture n'a rien d'anecdotique. J'ai branché les deux sur les mêmes tâches pendant trois jours. Voici ce qui tient, et ce qui craque.
Ce que Z.ai a sorti le 13 juin (et ce qu'elle a oublié de sortir)
La fiche technique impressionne sur le papier. GLM-5.2 ouvre une fenêtre de contexte d'un million de tokens — environ cinq fois plus que GLM-5.1 — et peut renvoyer jusqu'à 131 072 tokens en une seule réponse. De quoi avaler un dépôt entier sans découper. Le modèle est dispo immédiatement via l'API Z.ai, sur OpenRouter, sur Hugging Face, et dans plus de vingt environnements de code (Claude Code, Cline, Roo, Kilo…).
La vraie nouveauté, c'est l'effort de raisonnement réglable, exactement comme chez Anthropic : un mode High pour le code et les résumés courants, un mode Max que Z.ai recommande pour le travail multi-fichiers complexe et les longues chaînes agentiques. Dans Claude Code, on bascule via la commande /effort.
Le détail qui devrait alerter tout acheteur sérieux : Z.ai n'a publié aucun benchmark le jour du lancement. Comme le notait MarkTechPost, « il n'y a aucun score SWE-bench, Terminal-Bench ou Code Arena au lancement ». Les poids MIT, eux, étaient annoncés pour « la semaine suivante » — donc pas téléchargeables le jour J. Sortir un modèle frontière sans le moindre chiffre, c'est un pari de communication : on mise sur le bouche-à-oreille des devs plutôt que sur la fiche marketing.
Les chiffres réels sur le code : GLM-5.2 vs GPT-5.5
Faute de chiffres maison, ce sont les tests tiers qui parlent. VentureBeat a relayé une série de benchmarks « long-horizon » qui placent GLM-5.2 juste devant GPT-5.5 :
- SWE-bench Pro : 62,1 pour GLM-5.2 contre 58,6 pour GPT-5.5
- FrontierSWE : 74,4 % contre 72,6 %
- MCP-Atlas (usage d'outils) : 77,0 contre 75,3
Soyons honnêtes sur l'ampleur : on parle de 1 à 3,5 points d'écart. Ce n'est pas un gouffre, c'est une coudée. Sur une tâche réelle, vous ne sentirez pas GLM-5.2 « deux fois plus malin » — au mieux, il bouclera un ticket de plus sur dix. La vraie bascule n'est pas dans la qualité brute. Elle est dans la colonne du prix.
Combien coûte GLM-5.2 vs GPT-5.5 en API en France
C'est ici que la conversation devient sérieuse pour un budget de PME ou de freelance. GPT-5.5, qui propulse aujourd'hui l'API d'OpenAI, Codex et ChatGPT, facture 5 $ le million de tokens d'entrée et 30 $ en sortie (cache à 0,50 $). GLM-5.2 affiche 1,40 $ en entrée et 4,40 $ en sortie, avec un cache à 0,26 $.
Traduction concrète : les tokens de sortie — ceux qui coûtent le plus cher dans un agent qui écrit du code à longueur de journée — sont près de 7 fois moins chers chez Z.ai. En entrée, on est à 3,5×. Sur un agent qui mouline 50 millions de tokens de sortie par mois, on passe de 1 500 $ à 220 $. Ce n'est plus une optimisation, c'est un changement de ligne budgétaire.
Pour ceux qui ne veulent pas raisonner au token, Z.ai propose un GLM Coding Plan (Lite, Pro, Max, Team) avec des paliers d'abonnement qui démarrent autour de 12,60 $/mois — l'équivalent fonctionnel d'un abonnement Codex, mais sans la facture API qui grimpe en arrière-plan. Et si vous téléchargez les poids MIT pour auto-héberger, le seul coût restant, c'est votre GPU et votre électricité.
Mon test dans Claude Code : trois jours, deux surprises
J'ai pointé GLM-5.2 et GPT-5.5 sur le même chantier : un refacto multi-fichiers d'une API Node un peu crade, plus une série de tickets de bug sur un front React. J'ai laissé GLM en mode Max via /effort pour ne pas le brider.
Première surprise, bonne : sur le refacto, GLM-5.2 a tenu le contexte large sans perdre le fil entre les fichiers. Là où je devais parfois re-rappeler à un modèle ce qu'il avait écrit trois étapes plus tôt, lui gardait la cohérence des imports et des signatures. Le 1M de contexte n'est pas du marketing — il s'en sert vraiment.
Deuxième surprise, moins bonne : le mode Max est lent. Sur une chaîne agentique de dix appels, j'ai senti la latence s'empiler ; GPT-5.5 rendait la main plus vite à qualité comparable. Et j'ai eu une vraie frustration le premier jour — les poids MIT n'étaient pas encore en ligne, donc impossible de tester l'auto-hébergement comme prévu. J'ai dû me rabattre sur l'API hébergée en Chine, ce qui ramène pile au point suivant.
GLM-5.2 pour une PME française : le frein qu'on n'affiche pas dans les benchmarks
Le prix fait rêver, mais voilà le vrai obstacle : tant que vous passez par l'API hébergée, vos prompts — donc parfois votre code propriétaire et vos données clients — transitent par un fournisseur chinois. Pour une PME soumise au RGPD et bientôt à l'AI Act, ce n'est pas un détail juridique mineur. Le contexte de juin n'aide pas : plusieurs banques (Goldman Sachs, JPMorgan) ont restreint l'accès à certains modèles d'IA pour leurs équipes, signe que la question de l'hébergement remonte jusqu'aux directions.
La parade existe et c'est tout l'intérêt de l'open-weights : télécharger les poids MIT et les faire tourner chez vous (ou chez un hébergeur européen). Mais soyons clairs, 753 milliards de paramètres ne tournent pas sur le MacBook du stagiaire — il faut une vraie infra GPU. C'est exactement le même dilemme que pour DeepSeek V4, dont nous avions décortiqué le pari open source : le modèle est gratuit, l'hébergement souverain ne l'est pas.
Verdict : qui bascule sur GLM-5.2, qui reste sur GPT-5.5
Si vous brûlez des tokens à coder des agents en volume et que le code n'est pas ultra-sensible — projets perso, side-projects, prototypes, agence qui livre du jetable — GLM-5.2 est une évidence économique. À qualité quasi égale sur le code, diviser sa facture par six change la viabilité d'un produit. C'est le genre d'arbitrage qui transforme un POC trop cher en service rentable.
Si vous gérez des données clients, du code propriétaire ou que la conformité vous regarde de près, restez sur GPT-5.5 hébergé sur Azure Europe, ou auto-hébergez GLM — mais alors comptez l'infra. Et si vous voulez l'écosystème intégré, le support, Codex et l'assistant grand public sans rien gérer, l'abonnement OpenAI reste le chemin le plus court.
Mon avis tranché après trois jours : GLM-5.2 ne « bat » pas GPT-5.5 d'une tête en intelligence, il le contourne par le prix. Et dans la vraie vie d'un dev qui surveille sa facture API, le prix gagne plus souvent qu'on ne l'admet.
Reste un angle mort : Z.ai a sorti un modèle frontière sans le moindre benchmark officiel et avec des poids livrés en différé. Ça en dit long sur la confiance — ou sur la précipitation. À surveiller dans les semaines qui viennent, quand les scores maison finiront (ou non) par tomber.