
10 observations de données + IA pour l’automne 2025
Au cours du dernier trimestre 2025, il est temps de prendre du recul et d’examiner les tendances qui façonneront les données et l’IA en 2026.
Même si les gros titres se concentrent sur les dernières versions de modèles et les guerres de référence, ils sont loin d’être les développements les plus transformateurs sur le terrain. Le véritable changement se joue dans les tranchées, où les data scientists, les ingénieurs data + IA et les équipes IA/ML activent ces systèmes et technologies complexes pour la production. Et sans surprise, la poussée vers l’IA de production – et les vents contraires qui en découlent – dirigent le navire.
Voici les dix tendances qui définissent cette évolution et ce qu’elles signifient à l’approche du dernier trimestre 2025.
1. Les « leaders des données et de l’IA » sont en hausse
Si vous avez été sur LinkedIn récemment, vous avez peut-être remarqué une augmentation suspecte du nombre de titres de données + IA dans votre fil d’actualité, même parmi les membres de votre propre équipe.
Non, il n’y a pas de restructuration dont vous n’aviez pas connaissance.
Bien qu’il s’agisse en grande partie d’un changement volontaire parmi ceux traditionnellement classés comme données ou Professionnels de l’IA/ML, ce changement de titre reflète une réalité de terrain dont Monte Carlo discute depuis près d’un an maintenant : les données et l’IA ne sont plus deux disciplines distinctes.
Des ressources et compétences dont elles ont besoin aux problèmes qu’elles résolvent, les données et l’IA sont les deux faces d’une même médaille. Et cette réalité a un impact démontrable sur la façon dont les équipes et les technologies ont évolué en 2025 (comme vous le verrez bientôt).
2. La BI conversationnelle est à la mode, mais elle nécessite un contrôle de température
La démocratisation des données est en vogue sous une forme ou une autre depuis près d’une décennie maintenant, et la BI conversationnelle est le dernier chapitre de cette histoire.
La différence entre la BI conversationnelle et tous les autres outils de BI réside dans la rapidité et l’élégance avec lesquelles elle promet de concrétiser cette vision utopique, même pour les utilisateurs du domaine les moins techniques.
Le principe est simple : si vous pouvez le demander, vous pouvez y accéder. C’est gagnant-gagnant pour les propriétaires et les utilisateurs… en théorie. Le défi (comme pour tous les efforts de démocratisation) n’est pas l’outil lui-même, mais la fiabilité de ce que vous démocratisez.
La seule chose pire que de mauvaises informations est que de mauvaises informations soient fournies rapidement. Connectez une interface de chat à une base de données non gouvernée et vous n’accélérerez pas seulement l’accès, vous accélérerez les conséquences.
3. L’ingénierie du contexte devient une discipline clé
Les coûts d’entrée des modèles d’IA sont environ 300 à 400 fois plus élevés que les coûts de sortie. Si vos données contextuelles sont confrontées à des problèmes tels que des métadonnées incomplètes, du code HTML non supprimé ou des tableaux vectoriels vides, votre équipe sera confrontée à d’énormes dépassements de coûts lors du traitement à grande échelle. De plus, un contexte confus ou incomplet constitue également un problème majeur. Fiabilité de l’IA problème, avec des noms de produits ambigus et un mauvais regroupement des récupérateurs déroutants, tandis que de petites modifications apportées aux invites ou aux modèles peuvent conduire à des résultats radicalement différents.
Il n’est donc pas surprenant que l’ingénierie contextuelle soit devenue le mot à la mode pour les équipes données + IA au milieu de l’année 2025. L’ingénierie contextuelle est le processus systématique de préparation, d’optimisation et de maintenance des données contextuelles pour les modèles d’IA. Les équipes qui maîtrisent la surveillance du contexte en amont (garantissant un corpus et des intégrations fiables avant de se lancer dans des tâches de traitement coûteuses) obtiendront de bien meilleurs résultats grâce à leurs modèles d’IA. Mais cela ne fonctionnera pas en silo.
La réalité est que la visibilité sur les données contextuelles à elle seule ne peut pas garantir la qualité de l’IA. Observabilité de l’IA des solutions comme les évaluations. Les équipes ont besoin d’une approche globale qui offre une visibilité sur le entier système dans production – des données contextuelles au modèle et à ses sorties. Une approche socio-technique qui combine données + IA ensemble est la seule voie vers une IA fiable à grande échelle.
4. L’écart d’enthousiasme pour l’IA se creuse
Le dernier Rapport du MIT a tout dit. L’IA a un problème de valeur. Et la faute en revient – au moins en partie – à l’équipe de direction.
« Nous avons encore beaucoup de gens qui croient que l’IA est magique et qui feront tout ce que vous voulez sans y penser. »
C’est une vraie citation, et elle fait écho à une histoire commune aux équipes données + IA
- Un cadre qui ne comprend pas la technologie fixe la priorité
- Le projet ne parvient pas à fournir de la valeur
- Le pilote est abandonné
- Rincer et répéter
Les entreprises dépensent des milliards en projets pilotes d’IA sans comprendre clairement où ni comment l’IA aura un impact – et cela a un impact démontrable non seulement sur les performances des pilotes, mais aussi sur l’enthousiasme pour l’IA dans son ensemble.
La création de valeur doit être la première, la deuxième et la troisième priorité. Cela signifie donner aux équipes données + IA qui comprennent à la fois la technologie et les données qui vont l’alimenter l’autonomie nécessaire pour résoudre les problèmes commerciaux réels et les ressources nécessaires pour fiabiliser ces cas d’utilisation.
5. Déchiffrer le code des agents par rapport aux workflows agents
Alors que les aspirations agentiques ont alimenté la machine à battage médiatique au cours des 18 derniers mois, le débat sémantique entre « IA agentique » et « agents » s’est finalement tenu cet été sur le terrain sacré de la section commentaires de LinkedIn.
Au cœur du problème se trouve une différence substantielle entre les performances et le coût de ces deux tactiques apparemment identiques mais étonnamment divergentes.
- Agents à usage unique sont des bêtes de somme pour des tâches spécifiques et bien définies dont la portée est claire et les résultats prévisibles. Déployez-les pour un travail ciblé et répétitif.
- Flux de travail agents abordez les processus compliqués et en plusieurs étapes en les divisant en composants gérables. L’astuce consiste à diviser les gros problèmes en tâches discrètes que des modèles plus petits peuvent gérer, puis à utiliser des modèles plus grands pour valider et regrouper les résultats.

Par exemple, l’agent de dépannage de Monte Carlo utilise un flux de travail agent pour orchestrer des centaines de sous-agents afin d’enquêter sur les causes profondes des problèmes de qualité des données et de l’IA.
6. La qualité de l’intégration est au centre des préoccupations, et le suivi est juste derrière.
Contrairement aux anciens produits de données, l’IA sous ses différentes formes n’est pas déterministe par nature. Ce qui entre n’est pas toujours ce qui sort. Ainsi, démystifier ce qu’est le bien dans ce contexte signifie mesurer non seulement les résultats, mais également les systèmes, le code et les intrants qui les alimentent.
Les intégrations sont l’un de ces systèmes.
Lorsque les intégrations ne parviennent pas à représenter la signification sémantique des données sources, l’IA recevra le mauvais contexte, quelles que soient les performances de la base de données vectorielles ou du modèle. C’est précisément pourquoi l’intégration de la qualité devient une priorité essentielle en 2025.
Les ruptures d’intégration les plus fréquentes sont des problèmes de données de base : tableaux vides, mauvaise dimensionnalité, valeurs vectorielles corrompues, etc. Le problème est que la plupart des équipes ne découvriront ces problèmes que lorsqu’une réponse est évidemment inexacte.
Un client de Monte Carlo a parfaitement saisi le problème : « Nous n’avons aucune idée de la façon dont les intégrations sont générées, de ce que sont les nouvelles données et de la manière dont elles affectent le processus de formation. Nous avons peur de changer de modèle d’intégration parce que nous ne savons pas comment le recyclage l’affectera. Devons-nous recycler nos modèles qui utilisent ces éléments ? Devons-nous recommencer complètement ? »
Alors que les dimensions clés de la qualité et de la performance se concentrent, les équipes commencent à définir de nouvelles stratégies de surveillance qui peuvent prendre en charge les intégrations en production ; y compris des facteurs tels que la dimensionnalité, la cohérence et l’exhaustivité du vecteur, entre autres.
7. Les bases de données vectorielles doivent être confrontées à la réalité
Les bases de données vectorielles ne sont pas nouvelles en 2025. Ce qui est nouveau, c’est que les équipes de données + IA commencent à réaliser que les bases de données vectorielles sur lesquelles elles s’appuient ne sont peut-être pas aussi fiables qu’elles le pensaient.
Au cours des 24 derniers mois, les bases de données vectorielles (qui stockent les données sous forme de vecteurs de grande dimension capturant une signification sémantique) sont devenues l’infrastructure de facto des applications RAG. Et ces derniers mois, ils sont également devenus une source de consternation pour les équipes data + IA.
Les intégrations dérivent. Les stratégies de fragmentation changent. Les modèles d’intégration sont mis à jour. Tous ces changements créent une dégradation silencieuse des performances qui est souvent diagnostiquée à tort comme des hallucinations – et envoient les équipes dans des terriers coûteux pour les résoudre.
Le défi est que, contrairement aux bases de données traditionnelles avec surveillance intégrée, la plupart des équipes ne disposent pas de la visibilité requise sur la recherche de vecteurs, les intégrations et le comportement des agents pour détecter les problèmes de vecteurs avant leur impact. Cela entraînera probablement une augmentation de la mise en œuvre de la surveillance des bases de données vectorielles, ainsi que d’autres solutions d’observabilité pour améliorer la précision des réponses.
8. Les principales architectures de modèles privilégient la simplicité plutôt que les performances
Le paysage de l’hébergement de modèles d’IA se consolide autour de deux grands gagnants : Databricks et AWS Bedrock. Les deux plates-formes réussissent en intégrant des capacités d’IA directement dans l’infrastructure de données existante plutôt que d’obliger les équipes à apprendre des systèmes entièrement nouveaux.
Databricks gagne grâce à une intégration étroite entre la formation des modèles, le déploiement et le traitement des données. Les équipes peuvent affiner les modèles sur la même plateforme où résident leurs données, éliminant ainsi la complexité liée au déplacement des données entre les systèmes. Pendant ce temps, AWS Bedrock réussit grâce à une sécurité étendue et de niveau entreprise, offrant un accès à plusieurs modèles de base d’Anthropic, Meta et d’autres tout en maintenant des normes strictes de gouvernance et de conformité des données.
Qu’est-ce qui fait que les autres prennent du retard ? Fragmentation et complexité. Les plates-formes qui nécessitent un travail d’intégration personnalisé approfondi ou obligent les équipes à adopter des chaînes d’outils entièrement nouvelles perdent face aux solutions qui s’intègrent aux flux de travail existants.
Les équipes choisissent les plateformes d’IA en fonction de leur simplicité opérationnelle et de leurs capacités d’intégration de données plutôt que des performances brutes des modèles. Les gagnants comprennent que le meilleur modèle est inutile s’il est trop compliqué à déployer et à maintenir de manière fiable.
9. Model Context Protocol (MCP) est le MVP
Le Model Context Protocol (MCP) est devenu le « USB-C pour l’IA » révolutionnaire : une norme universelle qui permet aux applications d’IA de se connecter à n’importe quelle source de données sans intégrations personnalisées.
Au lieu de créer des connecteurs distincts pour chaque base de données, CRM ou API, les équipes peuvent utiliser un seul protocole pour permettre aux LLM d’accéder à tout en même temps. Et lorsque les modèles peuvent extraire de manière transparente plusieurs sources de données, ils fournissent des réponses plus rapides et plus précises.
Les premiers utilisateurs signalent déjà des réductions importantes de la complexité d’intégration et des travaux de maintenance en se concentrant sur une seule implémentation MCP qui fonctionne sur l’ensemble de leur écosystème de données.
En prime, MCP standardise également la gouvernance et la journalisation, des exigences importantes pour le déploiement en entreprise.
Mais ne vous attendez pas à ce que MCP reste statique. De nombreux responsables des données et de l’IA s’attendent à ce qu’un protocole de contexte d’agent (ACP) émerge au cours de la prochaine année, gérant des scénarios de partage de contexte encore plus complexes. Les équipes qui adoptent MCP dès maintenant seront prêtes à ces avancées à mesure que la norme évolue.
10. Les données non structurées sont le nouvel or (mais est-ce de l’or des fous ?)
La plupart des applications d’IA s’appuient sur des données non structurées (telles que des e-mails, des documents, des images, des fichiers audio et des tickets d’assistance) pour fournir le contexte riche qui rend les réponses de l’IA utiles.
Mais alors que les équipes peuvent surveiller les données structurées avec des outils établis, les données non structurées fonctionnent depuis longtemps dans un angle mort. La surveillance traditionnelle de la qualité des données ne peut pas gérer les fichiers texte, les images ou les documents de la même manière qu’elle suit les tables de bases de données.
Des solutions telles que la surveillance des données non structurées de Monte Carlo comblent cette lacune pour les utilisateurs en apportant des contrôles de qualité automatisés aux champs de texte et d’image dans Snowflake, Databricks et BigQuery.
À l’avenir, la surveillance des données non structurées deviendra aussi standard que les contrôles traditionnels de la qualité des données. Les organisations mettront en œuvre des cadres de qualité complets qui traitent toutes les données – structurées et non structurées – comme des actifs critiques nécessitant une surveillance et une gouvernance actives.

Dans l’attente de 2026
Si 2025 nous a appris quelque chose jusqu’à présent, c’est que les équipes qui gagnent grâce à l’IA ne sont pas celles qui disposent des plus gros budgets ou des démos les plus flashy. Les équipes qui remportent la course à l’IA sont celles qui ont trouvé comment fournir une IA fiable, évolutive et digne de confiance en production.
Les gagnants ne sont pas créés dans un environnement de test. Ils sont réalisés entre les mains de vrais utilisateurs. Proposez des solutions d’IA adoptables et vous apporterez une valeur démontrable à l’IA. C’est aussi simple que cela.



