Le pari LLM | Vers la science des données

pour un LLM, et vous avez une question en tête, il y a un sentiment indéniable de possibilité. Vous ne pouvez pas être sûr de la réponse que vous recevrez, mais il y a de fortes chances qu’elle vous impressionne par sa confiance et la spécificité de votre demande, et qu’elle résoudra votre problème en quelques secondes. Quand c’est le cas, la sensation peut être tout à fait délicieuse !

Cependant, cela échoue parfois, que ce soit dans les connaissances générales ou dans des cas spécifiques comme le codage. En tant que compte TikTok Alberta Tech illustreparfois l’IA invente ses propres fonctions et méthodes imaginaires, vous construisant quelque chose qui ne pourrait pas fonctionner. Mais, parfois, cela vous donne quelque chose qui fonctionne ! Beaucoup de choses à ce sujet ressemblent à une machine à sous, n’est-ce pas ?

Vous ne savez pas ce qui va se passer lorsque vous appuyez sur le bouton, mais vous espérez un résultat délicieux et chaque fois vous avez une nouvelle chance de recevoir cette dose de dopamine. Le non-déterminisme rend chaque réponse un peu différente, et ne pas savoir ce que vous obtiendrez peut franchement être excitant ! C’est aussi comme votre flux de médias sociaux : que se passe-t-il ? Il peut s’agir d’une publicité ou de votre créateur préféré.

Je suis évidemment loin d’être la première personne à remarquer cet élément de l’expérience de l’utilisation de l’IA générative. À l’automne 2025, Cory Doctorow a souligné que nous nous souvenons bien plus des moments où la génération AI fonctionnait bien que des moments où elle a échoué et où nous avons dû appuyer à nouveau sur le bouton, tout comme les joueurs. Wesam Mikhaïl publié sur LinkedIn sur la façon dont les « victoires » sont trompeuses, car le code qui fonctionne introduit également des bugs et une dette technologique sous le capot. Mais nous ressentons le sentiment de « oh, wow, regarde, c’est fait ! » quand même. Paul Weimer, Fang Pen Linet bien d’autres ont écrit sur ce même phénomène au cours des derniers mois seulement.

L’une des choses sur lesquelles plusieurs d’entre eux ont également fait allusion, ce sont les implications financières, et c’est une grande partie de ce qui m’intéresse dans la métaphore.

Les jetons

Nous payons l’IA générative en unités appelées jetons. Ce sont des mots ou des parties de mots qui forment généralement des unités de mesure pour les entrées et les sorties des LLM. Au sens littéral, le nombre de jetons est une mesure de la quantité d’énergie utilisée pendant le processus d’inférence. En payant pour les jetons, nous payons pour toutes les ressources et frais généraux impliqués dans une tâche d’inférence. C’est pourquoi nous finissons par payer à la fois pour la quantité de texte que nous transmettons au LLM, sous forme d’invites, et également pour la quantité de texte que le LLM nous renvoie dans ses réponses.

Les coûts d’utilisation des LLM sont donc présentés en dollars par jeton, par exemple 5 $ par million de jetons d’entrée et 25 $ par million de jetons de sortie, qui sont Tarifs API actuels d’Anthropic pour l’opus 4.6. Il existe également des prix détaillés pour les accès au cache et les répétitions, mais il s’agit du tarif de base. Pour OpenAI, les prix sont plus bas mais mesurés de la même manière : pour GPT 5.4c’est 2,50 $ pour 1 million de jetons d’entrée et 15 $ pour 1 million de jetons de sortie. Les modèles plus anciens et moins sophistiqués sont généralement moins chers.

Ainsi, si vous soumettez 1 million de jetons d’entrée à Opus 4.6, cela vous coûtera 5 $, et si les sorties d’Opus s’étendent sur une longueur de 1 million de jetons, cela vous coûtera 25 $, soit un coût total de 30 $. 1 million de jetons semble beaucoup, et c’est le cas (1,5 million de jetons, c’est à peu près la longueur de la série de livres Harry Potter), mais avec le temps, l’accumulation d’utilisation si vous intégrez le LLM à votre travail régulier peut s’accumuler rapidement.

Vous avez peut-être déjà remarqué le premier point que je souhaite souligner : vous pouvez apparemment contrôler le nombre de jetons que vous soumettez, et ainsi contrôler vos coûts, mais ce contrôle est limité. Vous pouvez rendre vos invites brèves, limiter les instructions superflues et ainsi réduire vos coûts de saisie. Cependant, lorsque des outils agentiques sont impliqués et que le LLM crée des invites à transmettre à d’autres LLM, vous n’êtes plus responsable de la longueur des invites. Plus important encore, vous n’avez qu’un contrôle très minimal sur le nombre de jetons avec lesquels un modèle répond (par exemple en lui demandant d’être « concis »). Pour l’essentiel, le nombre de jetons de sortie fait partie de cette inconnue non déterministe que j’ai décrite précédemment. Et, vous le remarquerez, un jeton de sortie coûte 5 fois le prix d’un jeton d’entrée.

Donc, pour revenir à notre métaphore des machines à sous, vous investissez un quart dans la machine, et cela paie pour votre tirage. Mais ensuite, vous recevez une réponse, et vous devez AUSSI payer pour cela, même si vous n’êtes pas averti à l’avance du coût que cela va vous coûter. Si vous ne gagniez pas et que le LLM créait son propre langage de codage et que rien ne fonctionnait ? Vous devez toujours payer pour ce résultat, et le coût dépend uniquement de la durée de la réponse, sans se soucier de son utilité. La longueur peut être de n’importe quelle taille, en particulier dans l’IA agentique, et vous n’avez aucun moyen de la prédire.

Eh bien, pensez-vous peut-être que c’est le prix du produit, et de toute façon, le prochain tirage sera sûrement meilleur, non ? Donc vous payez pour cette production qui n’a pas fonctionné, puis vous mettez une autre pièce de monnaie dans la machine, vous tirez et vous espérez mieux.

Abonnements

Les utilisateurs réguliers de l’IA générative diront peut-être : « oh, mais vous pouvez simplement souscrire un abonnement et payer un tarif forfaitaire ! » C’est vrai, et cela joue un rôle déterminant dans le succès de l’adoption de ces outils à ce jour. Cela supprime le coût au niveau du jeton, vous permettant d’utiliser le LLM pour un tarif forfaitaire jusqu’à la limite d’utilisation. Un abonnement Claude pour un utilisateur individuel commence à 20 $ par mois, et c’est le niveau qui vous offre Claude Code, Cowork, des outils de recherche et des extensions pour accéder à d’autres logiciels tels qu’Excel.

Cependant, ce n’est pas aussi transparent qu’il y paraît. Aucun de ces forfaits, quel que soit le fournisseur, ne permet une utilisation illimitée, et les détails des limites sont profondément obscurcis dans la documentation : « Votre utilisation est affectée par plusieurs facteurs, notamment la durée et la complexité de vos conversations, les fonctionnalités que vous utilisez et le modèle Claude avec lequel vous discutez. » Cela signifie que vous ne pouvez pas réellement planifier à l’avance la part de votre budget d’utilisation que vous consommerez dans une situation particulière. Au mieux, vous avez un plafond sur le coût que vous rencontrerez au cours d’un mois donné, donc aucune facture surprise n’apparaîtra, mais vous n’avez aucune idée réelle du moment où votre utilisation pour le mois sera brusquement interrompue.

En d’autres termes, si votre budget d’utilisation est basé sur les fonctionnalités, le modèle que vous utilisez et les autres éléments qu’ils décrivent, cela signifie que l’utilisation de votre jeton n’est pas un limiteur fixe. Les limites d’utilisation ne sont pas adaptées aux numéros de jetons. Cela signifie que de nombreux utilisateurs abonnés peuvent en fait utiliser les services pour plus de 20 $ chaque mois. Cela est encore plus vrai pour les forfaits Max, qui coûtent entre 100 et 200 dollars par mois et offrent encore plus d’utilisation, mais encore une fois, les limites d’utilisation sont masquées aux yeux des utilisateurs. Décrypter quelles sont réellement les limites et ce qui fait que votre utilisation occupe une plus grande part de votre limite est une question dont les utilisateurs discutent fréquemment, par exemple dans Communautés Reddit ou sur autres médias sociaux.

Conclusion

Qu’est-ce que cela signifie, globalement ? D’une part, le coût matériel de l’exécution de l’inférence générative de l’IA est assez élevé. Pour que des entreprises comme Anthropic et OpenAI génèrent des revenus importants, et encore moins réalisent des bénéfices et répondent aux attentes des investisseurs, les analystes s’accordent généralement sur le fait que les prix que j’ai exposés ci-dessus sont inférieurs aux coûts. C’est pourquoi, par exemple, Anthropic a forcé les utilisateurs d’OpenClaw à utiliser une tarification par utilisation de jeton, et non des abonnements : les gens utilisent davantage leurs limites et transforment les abonnements en produits d’appel.

Cependant, le paiement à l’utilisation est extrêmement difficile à vendre à la plupart des utilisateurs, car cela révèle le fait que j’ai souligné au début, à savoir que vous devez payer pour le tirage de la machine à sous et pour le résultat, même si vous ne gagnez pas. Nous nous attendons à un bon rapport qualité-prix, dans des situations comme celle-ci, donc le modèle économique du jeu n’a pas vraiment de sens dans le contexte des logiciels. Lorsque nous sommes habitués au retour sur investissement et à l’assurance qualité, un modèle économique dans lequel vous devez payer pour le produit même lorsqu’il ne fonctionne pas nécessite un changement de paradigme important.

Cependant, les fournisseurs d’IA générative n’ont pas le choix : lorsque le modèle effectue des inférences et renvoie des jetons, cela leur coûte de l’argent, que la réponse soit bonne ou non. Ceci est au cœur de la question de savoir comment cette technologie passe du statut de nouveauté ou de bulle à celui d’une entreprise durable. Les gens accepteront-ils de payer pour chaque pari, alors qu’ils ne peuvent pas prédire combien cela leur coûtera (car le nombre de jetons de sortie n’est pas déterministe) et ne peuvent pas prédire si cela répondra réellement à leurs besoins ? Je dois en douter, pour la population en général, et cela signifie une bombe à retardement pour l’industrie.

En savoir plus sur mon travail sur www.stephaniekirmer.com. Vous pouvez également me voir parler en personne à l’ODSC East le 30 avril à Boston.