OpenRouter Fusion : 3 modèles low-cost battent Opus 4.8

Un panel de modèles, un juge qui synthétise, et une facture qui ne suit pas la qualité

Schéma d'un panel de modèles IA fusionnés par un modèle juge dans OpenRouter Fusion

OpenRouter a basculé Fusion en accès complet le 12 juin. L'idée tient en une phrase : au lieu d'interroger un seul modèle, vous envoyez votre prompt à trois ou cinq modèles en parallèle, et un modèle « juge » fusionne leurs réponses en une seule. Le détail qui m'a fait lever un sourcil : sur un benchmark de deep research, un panel de modèles low-cost a coiffé Claude Opus 4.8 et GPT-5.5 joués en solo. J'ai branché Fusion sur un pipeline de veille concurrentielle que je fais tourner pour un client. Voici ce que ça donne, facture comprise — et là où je me suis planté.

Le principe : un panel de modèles, un juge, une seule réponse

Fusion implémente une mécanique connue sous le nom de mixture-of-agents, mais packagée pour qu'on n'ait rien à câbler soi-même. Le déroulé est en trois temps. D'abord le fan-out : votre prompt part simultanément vers plusieurs modèles aux forces différentes (raisonnement, suivi d'instructions, rédaction), chacun avec recherche et lecture web activées. Ensuite la synthèse : un modèle juge lit toutes les réponses et en extrait les points de consensus, les contradictions, les zones partiellement couvertes, les insights uniques et les angles morts. Enfin il rédige la réponse finale, ancrée sur cette analyse plutôt que sur une seule sortie.

Le tout est exposé derrière l'alias openrouter/fusion ou via le plugin fusion. Deux presets sortent du carton. Le preset Quality (par défaut) assemble Fable 5 et GPT-5.5. Le preset Budget tourne avec Gemini 3 Flash, Kimi K2.6 et DeepSeek V4 Pro. Et si vous voulez reprendre la main, les champs analysis_models et le modèle juge se redéfinissent à la volée.

[[terminal:# alias modele = openrouter/fusion\nPOST /v1/chat/completions\n model: openrouter/fusion\n plugins: [{ id: fusion, preset: general-high }]\n # ou panel custom :\n analysis_models: [gemini-3-flash, kimi-k2.6, deepseek-v4-pro]]]

Le fait que chaque modèle du panel fasse sa propre recherche web change la donne sur la veille : on récupère des sources que le modèle unique ratait, et le juge tranche entre versions divergentes au lieu de gober la première.

Ce que dit le benchmark DRACO

OpenRouter s'est mesuré sur DRACO, le banc de Perplexity : 100 tâches de deep research notées sur l'exactitude factuelle, la profondeur de synthèse, la présentation et la qualité des citations. Les chiffres sont parlants.

  • Panel Budget (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) : 64,7 %, pour environ la moitié du coût d'un modèle premium.
  • GPT-5.5 en solo : 60,0 %.
  • Claude Opus 4.8 en solo : 58,8 %.
  • Fusion Quality (Fable 5 + GPT-5.5) : 69,0 %.

Le résultat qui m'a le plus intéressé n'est pas dans le tableau marketing. Opus 4.8 fusionné avec… lui-même grimpe à 65,5 %, soit +6,7 points sur le même modèle joué seul. Autrement dit, ce n'est pas seulement la diversité des modèles qui fait gagner : c'est l'étape de synthèse elle-même. Le juge oblige à confronter plusieurs brouillons et à jeter les hallucinations isolées. Pour quiconque produit des notes de synthèse à enjeu, c'est l'argument le plus solide de tout le produit (les chiffres détaillés sont repris par Data Science Dojo et sur la page officielle).

Combien coûte OpenRouter Fusion en pratique

C'est là qu'il faut lire les petites lignes. Fusion ne facture pas comme un modèle unique : votre requête coûte la somme de toutes les complétions du panel, plus l'appel du juge. Concrètement, un run Quality revient à peu près à 3× le prix d'un appel Fable 5 seul. Ça pique si on raisonne au coût par appel.

Sauf que le bon indicateur, ce n'est pas le coût par appel mais le coût par sortie réellement utilisable. Le preset Budget délivre un niveau proche de Fable 5 pour à peu près la moitié du prix d'une solution premium en mono-modèle. Sur mon pipeline, j'ai mesuré une bascule nette : moins d'allers-retours de correction, donc moins de re-prompts facturés. Le rapprochement est d'autant plus piquant que, depuis le 23 juin, Fable 5 exige des crédits de consommation à 10 $/M tokens en entrée et 50 $/M en sortie. Le modèle que Fusion utilise dans son preose le plus cher est précisément celui qui devient un produit de luxe.

Si votre objectif est de tenir une facture IA sous contrôle, je vous renvoie à notre guide sur le coût des tokens : Fusion peut faire baisser le coût total tout en augmentant le coût brut par requête. Les deux ne sont pas contradictoires, mais il faut le piloter.

Mon test : là où Fusion brille, là où ça coince

Le bon : sur des synthèses de marché un peu touffues, la sortie Fusion est plus complète et mieux sourcée qu'un appel Opus solo. Le juge note explicitement « contradiction entre source A et source B », ce qu'un modèle unique a tendance à lisser. Pour un livrable que je relis avant envoi client, c'est exactement le genre de garde-fou que je veux.

Le moins, maintenant. Premier mur : la latence. Fusion ajoute 5 à 15 secondes par rapport à un appel simple, fan-out plus synthèse obligent. J'ai bêtement tenté de le glisser derrière un endpoint synchrone d'une petite interface interne — mauvaise idée, l'utilisateur regarde un spinner. Fusion, c'est du batch et de l'asynchrone, point.

Deuxième galère, celle qui m'a coûté un après-midi : les sorties structurées. Je passais des réponses en JSON strict vers un parser maison. Avec Fusion, le juge reformule, et mon schéma a sauté sur plusieurs items — un champ renommé ici, une liste imbriquée là. Les sorties sont plus variables qu'avec un modèle unique déterministe, et forcer un schéma JSON est nettement plus délicat. J'ai dû ajouter une couche de validation et un fallback. À refaire, je réserve Fusion à la prose et je garde un mono-modèle pour tout ce qui doit rentrer dans une base.

Dernier point à connaître : le choix du juge fait bouger les scores absolus de 10 à 25 points selon les tests, même si le classement relatif reste stable. Traduction : ne changez pas de juge en cours de projet sans re-tester, sinon vos évals deviennent ininterprétables.

OpenRouter Fusion pour qui, et l'angle anti-dépendance

Si vous produisez de la deep research, des notes de synthèse, de la veille, du contenu long format à enjeu — et que vous travaillez en lots — Fusion mérite un test cette semaine. Le preset Budget est l'angle le plus malin : qualité quasi frontière sans signer un chèque à un seul éditeur.

Ce dernier point compte plus qu'il n'en a l'air. Avec le tour de vis sur Fable 5 et les restrictions à l'export, miser toute sa chaîne sur un modèle unique devient un risque opérationnel concret — un sujet qu'on a creusé dans notre guide sur la dépendance à un fournisseur IA. Fusion répartit mécaniquement la charge sur plusieurs modèles : si l'un saute ou devient hors de prix, vous échangez une ligne de config, pas toute votre intégration.

À l'inverse, passez votre chemin si vos tâches sont simples (extraction, classification, dates), si vous avez besoin de sous-secondes, ou si votre sortie doit rentrer au carré dans un format figé. Là, le panel + juge est un marteau pour une punaise : vous payez trois modèles pour un travail qu'un petit modèle réglait en 200 ms.

Et pour ceux qui ne veulent pas construire de pipeline du tout — dirigeants, marketing, freelances qui veulent juste une recherche solide clé en main — une solution de deep research packagée reste plus simple à adopter. C'est exactement le créneau de Perplexity, dont le benchmark DRACO sert d'ailleurs de mètre-étalon ici. On a comparé les principales offres dans notre comparatif deep research.

Mon verdict après ce premier test

Fusion n'est pas un nouveau modèle, c'est une couche d'orchestration — et c'est précisément ce qui le rend intéressant. La preuve qu'un panel à moitié prix dépasse Opus 4.8 en solo sur de la deep research, ça déplace une question : la course au plus gros modèle n'est plus le seul levier de qualité. Pour ma part, je laisse Fusion sur le pipeline de veille en mode Budget, et je le tiens loin de tout ce qui exige du JSON strict ou du temps réel. Testé avec ces garde-fous, c'est l'un des outils les plus rentables que j'aie branchés ce trimestre. Lancé sans réfléchir derrière une API synchrone, c'est un piège à latence. À vous de choisir le bon côté.

FAQ

OpenRouter Fusion vaut-il le coup pour une PME ?
Oui si vous produisez de la deep research, des notes de synthèse ou du contenu long en lots, et que la latence de 5-15 s ne gêne pas. Le preset Budget atteint un niveau quasi frontière pour environ la moitié du prix d'un modèle premium. Non si vos tâches sont simples ou en temps réel : le surcoût d'un panel de 3 modèles + juge n'est alors pas justifié.
Combien coûte OpenRouter Fusion exactement ?
Il n'y a pas de tarif fixe : vous payez la somme de chaque modèle du panel plus l'appel du modèle juge, aux tarifs standards d'OpenRouter. Un run Quality (Fable 5 + GPT-5.5) revient à environ 3× le coût d'un appel Fable 5 seul. Le preset Budget reste autour de la moitié du prix d'une solution premium mono-modèle pour une qualité comparable.
Fusion est-il vraiment meilleur que GPT-5.5 ou Claude Opus 4.8 ?
Sur le benchmark de deep research DRACO (100 tâches), le panel Budget marque 64,7 %, devant GPT-5.5 (60,0 %) et Opus 4.8 (58,8 %) en solo, et le panel Quality atteint 69,0 %. Mais ce sont des scores agrégés : sur une extraction simple ou un format strict, un bon modèle unique reste plus fiable et bien moins cher.
Comment essayer OpenRouter Fusion ?
Via l'API OpenRouter, en appelant l'alias de modèle openrouter/fusion ou en activant le plugin fusion avec un preset (Quality, Budget) ou un panel custom via le champ analysis_models. Aucune intégration spécifique n'est nécessaire si vous utilisez déjà l'endpoint chat completions compatible OpenAI.
Peut-on utiliser Fusion pour un chatbot ou un agent en temps réel ?
Non, c'est son principal angle mort. La phase de fan-out plus la synthèse ajoutent 5 à 15 secondes par requête. Pour des chatbots, agents vocaux ou complétion de code, gardez un modèle unique. Réservez Fusion aux traitements de fond asynchrones et au batch.
Partager
Résumé vidéoen cours…