GLM-5.2 face à GPT-5.5 : le code agentique à 6× moins cher

Z.ai sort un open-weights qui passe devant OpenAI sur le code — pour une fraction du prix. On a comparé.

Comparatif GLM-5.2 de Z.ai face à GPT-5.5 d'OpenAI pour le code agentique

Le 13 juin, Z.ai (ex-Zhipu) a posé GLM-5.2 sur la table sans tambour ni trompette : un modèle open-weights de 753 milliards de paramètres, 1 million de tokens de contexte, et une grille tarifaire qui descend jusqu'à six fois sous celle de GPT-5.5. Pour qui fait tourner des agents codeurs en volume, l'écart de facture n'a rien d'anecdotique. J'ai branché les deux sur les mêmes tâches pendant trois jours. Voici ce qui tient, et ce qui craque.

Ce que Z.ai a sorti le 13 juin (et ce qu'elle a oublié de sortir)

La fiche technique impressionne sur le papier. GLM-5.2 ouvre une fenêtre de contexte d'un million de tokens — environ cinq fois plus que GLM-5.1 — et peut renvoyer jusqu'à 131 072 tokens en une seule réponse. De quoi avaler un dépôt entier sans découper. Le modèle est dispo immédiatement via l'API Z.ai, sur OpenRouter, sur Hugging Face, et dans plus de vingt environnements de code (Claude Code, Cline, Roo, Kilo…).

La vraie nouveauté, c'est l'effort de raisonnement réglable, exactement comme chez Anthropic : un mode High pour le code et les résumés courants, un mode Max que Z.ai recommande pour le travail multi-fichiers complexe et les longues chaînes agentiques. Dans Claude Code, on bascule via la commande /effort.

Le détail qui devrait alerter tout acheteur sérieux : Z.ai n'a publié aucun benchmark le jour du lancement. Comme le notait MarkTechPost, « il n'y a aucun score SWE-bench, Terminal-Bench ou Code Arena au lancement ». Les poids MIT, eux, étaient annoncés pour « la semaine suivante » — donc pas téléchargeables le jour J. Sortir un modèle frontière sans le moindre chiffre, c'est un pari de communication : on mise sur le bouche-à-oreille des devs plutôt que sur la fiche marketing.

Les chiffres réels sur le code : GLM-5.2 vs GPT-5.5

Faute de chiffres maison, ce sont les tests tiers qui parlent. VentureBeat a relayé une série de benchmarks « long-horizon » qui placent GLM-5.2 juste devant GPT-5.5 :

  • SWE-bench Pro : 62,1 pour GLM-5.2 contre 58,6 pour GPT-5.5
  • FrontierSWE : 74,4 % contre 72,6 %
  • MCP-Atlas (usage d'outils) : 77,0 contre 75,3

Soyons honnêtes sur l'ampleur : on parle de 1 à 3,5 points d'écart. Ce n'est pas un gouffre, c'est une coudée. Sur une tâche réelle, vous ne sentirez pas GLM-5.2 « deux fois plus malin » — au mieux, il bouclera un ticket de plus sur dix. La vraie bascule n'est pas dans la qualité brute. Elle est dans la colonne du prix.

Combien coûte GLM-5.2 vs GPT-5.5 en API en France

C'est ici que la conversation devient sérieuse pour un budget de PME ou de freelance. GPT-5.5, qui propulse aujourd'hui l'API d'OpenAI, Codex et ChatGPT, facture 5 $ le million de tokens d'entrée et 30 $ en sortie (cache à 0,50 $). GLM-5.2 affiche 1,40 $ en entrée et 4,40 $ en sortie, avec un cache à 0,26 $.

Traduction concrète : les tokens de sortie — ceux qui coûtent le plus cher dans un agent qui écrit du code à longueur de journée — sont près de 7 fois moins chers chez Z.ai. En entrée, on est à 3,5×. Sur un agent qui mouline 50 millions de tokens de sortie par mois, on passe de 1 500 $ à 220 $. Ce n'est plus une optimisation, c'est un changement de ligne budgétaire.

Pour ceux qui ne veulent pas raisonner au token, Z.ai propose un GLM Coding Plan (Lite, Pro, Max, Team) avec des paliers d'abonnement qui démarrent autour de 12,60 $/mois — l'équivalent fonctionnel d'un abonnement Codex, mais sans la facture API qui grimpe en arrière-plan. Et si vous téléchargez les poids MIT pour auto-héberger, le seul coût restant, c'est votre GPU et votre électricité.

Mon test dans Claude Code : trois jours, deux surprises

J'ai pointé GLM-5.2 et GPT-5.5 sur le même chantier : un refacto multi-fichiers d'une API Node un peu crade, plus une série de tickets de bug sur un front React. J'ai laissé GLM en mode Max via /effort pour ne pas le brider.

Première surprise, bonne : sur le refacto, GLM-5.2 a tenu le contexte large sans perdre le fil entre les fichiers. Là où je devais parfois re-rappeler à un modèle ce qu'il avait écrit trois étapes plus tôt, lui gardait la cohérence des imports et des signatures. Le 1M de contexte n'est pas du marketing — il s'en sert vraiment.

Deuxième surprise, moins bonne : le mode Max est lent. Sur une chaîne agentique de dix appels, j'ai senti la latence s'empiler ; GPT-5.5 rendait la main plus vite à qualité comparable. Et j'ai eu une vraie frustration le premier jour — les poids MIT n'étaient pas encore en ligne, donc impossible de tester l'auto-hébergement comme prévu. J'ai dû me rabattre sur l'API hébergée en Chine, ce qui ramène pile au point suivant.

GLM-5.2 pour une PME française : le frein qu'on n'affiche pas dans les benchmarks

Le prix fait rêver, mais voilà le vrai obstacle : tant que vous passez par l'API hébergée, vos prompts — donc parfois votre code propriétaire et vos données clients — transitent par un fournisseur chinois. Pour une PME soumise au RGPD et bientôt à l'AI Act, ce n'est pas un détail juridique mineur. Le contexte de juin n'aide pas : plusieurs banques (Goldman Sachs, JPMorgan) ont restreint l'accès à certains modèles d'IA pour leurs équipes, signe que la question de l'hébergement remonte jusqu'aux directions.

La parade existe et c'est tout l'intérêt de l'open-weights : télécharger les poids MIT et les faire tourner chez vous (ou chez un hébergeur européen). Mais soyons clairs, 753 milliards de paramètres ne tournent pas sur le MacBook du stagiaire — il faut une vraie infra GPU. C'est exactement le même dilemme que pour DeepSeek V4, dont nous avions décortiqué le pari open source : le modèle est gratuit, l'hébergement souverain ne l'est pas.

Verdict : qui bascule sur GLM-5.2, qui reste sur GPT-5.5

Si vous brûlez des tokens à coder des agents en volume et que le code n'est pas ultra-sensible — projets perso, side-projects, prototypes, agence qui livre du jetable — GLM-5.2 est une évidence économique. À qualité quasi égale sur le code, diviser sa facture par six change la viabilité d'un produit. C'est le genre d'arbitrage qui transforme un POC trop cher en service rentable.

Si vous gérez des données clients, du code propriétaire ou que la conformité vous regarde de près, restez sur GPT-5.5 hébergé sur Azure Europe, ou auto-hébergez GLM — mais alors comptez l'infra. Et si vous voulez l'écosystème intégré, le support, Codex et l'assistant grand public sans rien gérer, l'abonnement OpenAI reste le chemin le plus court.

Mon avis tranché après trois jours : GLM-5.2 ne « bat » pas GPT-5.5 d'une tête en intelligence, il le contourne par le prix. Et dans la vraie vie d'un dev qui surveille sa facture API, le prix gagne plus souvent qu'on ne l'admet.

Reste un angle mort : Z.ai a sorti un modèle frontière sans le moindre benchmark officiel et avec des poids livrés en différé. Ça en dit long sur la confiance — ou sur la précipitation. À surveiller dans les semaines qui viennent, quand les scores maison finiront (ou non) par tomber.

FAQ

GLM-5.2 est-il gratuit ?
En partie. Les poids sont publiés sous licence MIT : vous pouvez les télécharger sur Hugging Face et les faire tourner gratuitement si vous payez votre propre infra GPU. L'API hébergée par Z.ai est payante (1,40 $/4,40 $ par million de tokens), et le GLM Coding Plan démarre autour de 12,60 $/mois.
GLM-5.2 est-il vraiment meilleur que GPT-5.5 ?
Sur des benchmarks de code indépendants (SWE-bench Pro, FrontierSWE, MCP-Atlas), GLM-5.2 passe légèrement devant — de 1 à 3,5 points. Mais Z.ai n'a publié aucun chiffre officiel au lancement, et l'écart est trop faible pour parler de domination. Sa vraie supériorité est tarifaire, pas qualitative.
Comment essayer GLM-5.2 ?
Via l'API Z.ai, OpenRouter ou Hugging Face pour les poids. Le plus simple pour un dev : le brancher dans Claude Code ou Cline et régler l'effort avec la commande /effort (High ou Max). Il est compatible avec plus de vingt environnements de code.
GLM-5.2 pose-t-il un problème RGPD ou AI Act pour une PME française ?
Via l'API hébergée, vos données transitent par un fournisseur chinois, ce qui complique la conformité RGPD et AI Act. La solution propre est d'auto-héberger les poids MIT chez vous ou chez un hébergeur européen — mais 753 Md de paramètres exigent une vraie infra GPU. Sinon, GPT-5.5 sur Azure Europe reste plus simple à justifier.
GLM-5.2 fonctionne-t-il dans Cursor ou Claude Code ?
Oui. Z.ai annonce une compatibilité avec plus de vingt environnements de code, dont Claude Code, Cline, Roo et Kilo. Le réglage d'effort se fait via /effort, avec un mode Max recommandé pour le multi-fichiers complexe.
Partager
Résumé vidéoen cours…