ElevenLabs, modèles locaux, Gemini TTS : pourquoi j'ai fini sur Aoede

Un mois d'ElevenLabs, des essais en local, et au final la voix Gemini que je n'attendais pas.

Onde sonore stylisée représentant une voix off générée par intelligence artificielle

Pendant des mois j'ai cherché la bonne voix off pour les Shorts et reels Décodeur IA. J'ai testé des modèles locaux, j'ai payé un mois d'ElevenLabs, j'ai fini sur Gemini TTS. Voici la vraie histoire, sans le storytelling marketing.

Pourquoi je m'en suis occupé sérieusement

Mes vidéos passent toutes par une voix off IA. C'est récurrent, c'est en prod, et c'est ce que l'oreille du spectateur juge en premier. Une voix qui sonne robot sur du français, ça plombe une vidéo en trois secondes. Donc l'enjeu n'était pas "lequel est le moins cher dans l'absolu", mais "lequel je peux assumer à l'oreille, en volume, sans me ruiner".

J'ai donc fait passer trois familles de solutions sur le banc : les modèles TTS en local sur mon Mac, ElevenLabs en abonnement, et Gemini TTS via API. Chaque famille avec ses promesses, chacune avec son piège.

Les modèles locaux : séduisant sur le papier, frustrant en prod

Première vague : tout faire tourner chez moi. Zéro abonnement, zéro donnée qui part dehors, contrôle total. Sur le papier, c'est le rêve du dev qui aime garder la main.

En pratique, j'ai vite déchanté. La qualité de la voix française n'est pas au niveau d'un service géré : prosodie plate, fins de phrases qui s'effondrent, intonation qui décroche sur les phrases longues. Et même quand on arrive à un résultat acceptable, le coût caché — temps de mise en place, gestion des modèles, intégration dans un pipeline auto — n'est pas neutre.

Pour de l'expérimentation ou un usage ponctuel, les modèles locaux ont leur place. Pour publier plusieurs vidéos par semaine avec une voix qu'on assume, j'ai laissé tomber.

ElevenLabs : un mois d'essai, puis stop

Comme tout le monde, j'ai voulu voir ce que faisait le "premium" du secteur. Je suis donc passé par un mois d'ElevenLabs. C'est l'outil qui a la meilleure réputation sur la voix française, et je voulais le constater par moi-même.

Verdict honnête après ce mois : sympa, mais pas le choc que les comparatifs marketing promettent. La voix est correcte, la prosodie tient sur du français, mais sur mes textes — qui ne sont pas des audiobooks contemplatifs, plutôt du contenu rythmé tech et IA — je ne trouvais pas que ça valait clairement le prix. Et surtout, je voyais arriver une facture mensuelle récurrente pour un usage qui devait, lui, monter en volume.

Au bout d'un mois, j'ai arrêté. Pas un drame, pas une déception violente : juste un calcul qui ne tombait pas juste. Le rapport qualité-prix ne me convainquait pas pour mon cas d'usage spécifique. Pour quelqu'un qui fait de la voix off littéraire ou très expressive, je comprends que ce soit l'outil de référence. Pour mes besoins, non.

Gemini TTS : la solution que j'ai gardée

En parallèle, j'avais testé Gemini TTS via l'API Google, avec leur voix Aoede. Et là, surprise : ce qui n'était au départ qu'un test de plus est devenu la solution permanente.

Concrètement, sur mon usage — contenus tech, ton conversationnel, durée 30 à 90 secondes — je trouve Aoede plus naturelle et plus sympa à l'oreille qu'ElevenLabs. C'est subjectif, je l'assume, mais c'est mon verdict après comparaison frontale sur mes propres textes. La prosodie tient, le rythme est bon, et surtout la voix a un côté chaleureux qui colle au format Shorts/reels où on veut une présence, pas une narration solennelle.

Et le prix achève de fermer le débat. Via l'API Gemini TTS, je suis nettement en dessous du tarif ElevenLabs pour mon volume. Quand l'outil que je préfère à l'oreille est aussi celui qui coûte le moins cher, la décision se prend toute seule.

Ce que j'ai appris en chemin

Trois choses que je retiens de cette série de tests.

D'abord, la réputation ne fait pas le bon choix. ElevenLabs est l'outil le plus cité, le plus relayé, le plus "premium" du secteur. Et pourtant, pour mon usage précis, ce n'est pas lui qui a gagné. Le vrai test, c'est de coller l'outil sur ses propres textes, son propre ton, son propre format — et d'écouter avec son oreille de producteur, pas avec celle d'un comparatif YouTube.

Ensuite, le local ne remplace pas le managé pour un pipeline qui doit tourner. Tant que la qualité française des modèles ouverts n'aura pas rattrapé celle des grands API, ça restera une option de bricolage pour ceux qui ont du temps. Ça n'a rien de péjoratif — j'aime bricoler — mais il faut accepter le compromis.

Enfin, le bon outil n'est pas forcément celui qu'on attendait. Je pensais finir sur ElevenLabs. J'ai fini sur Gemini TTS. Pas par snobisme anti-marketing, juste parce qu'à l'usage, c'est ce qui me convient le mieux et ce qui me coûte le moins. Les deux à la fois, c'est rare, donc on prend.

Mon verdict

Aujourd'hui, toute la voix off des contenus Décodeur IA passe par Gemini TTS, voix Aoede. ElevenLabs reste dans mon code comme fallback technique au cas où l'API Gemini tomberait, mais je ne paie plus l'abonnement et je n'y reviens pas.

Si tu es en train d'arbitrer pour ton propre pipeline, je te recommande la même méthode : prends tes vrais textes, fais-les passer dans deux ou trois solutions en aveugle, écoute avec une oreille honnête, et regarde la facture à la fin du mois. Le reste, c'est du bruit.

Partager
Résumé vidéoen cours…