Pourquoi l’IA s’entraîne sur ses propres déchets (et comment y remédier)

en IA depuis un certain temps, vous êtes probablement un utilisateur de LLM/Agent/Chat, mais vous êtes-vous déjà demandé comment ces outils seront formés dans un avenir proche, et que se passera-t-il si nous avons déjà utilisé les données dont nous avons besoin pour former des modèles ? De nombreuses théories affirment que nous manquons de données générées par l’homme de haute qualité pour entraîner nos modèles.

Le nouveau contenu augmente chaque jour, c’est une réalité, mais une part croissante de ce qui est ajouté quotidiennement est elle-même générée par l’IA. Ainsi, si vous continuez à vous former sur les données Web publiques, vous finirez par vous former sur les résultats de vos propres prédécesseurs. Le serpent mange sa queue. Les chercheurs appellent ce phénomène Model Collapse, où les modèles d’IA commencent à apprendre des erreurs de leurs prédécesseurs jusqu’à ce que l’ensemble du système se dégrade en un non-sens.

Mais et si je vous disais que nous ne sommes pas réellement à court de données ? Nous avons simplement cherché au mauvais endroit.

Dans cet article, je vais détailler les principales conclusions de ce brillant article.

Le Web que nous utilisons déjà et le Web qui compte

La plupart d’entre nous considèrent le Web comme une source d’information unique. En réalité, il y en a au moins deux.

Il y a le Surface Web : le monde public indexé comme ce que l’on trouve sur Reddit, Wikipédia et les sites d’actualités. C’est ce que nous avons déjà récupéré et surutilisé pendant des années pour former les modèles d’IA traditionnels d’aujourd’hui. Ensuite, il y a ce que l’on appelle le Deep Web, et ici je ne parle pas du « Dark Web » ou de quoi que ce soit d’illégal.

Le Deep Web est tout simplement tout ce qui se cache derrière une connexion ou un pare-feu. Il fait référence à tout ce qui est en ligne qui n’est pas indexé publiquement. Il peut s’agir du portail patient de votre hôpital, du tableau de bord interne de votre banque, des archives de documents d’entreprise, de bases de données privées et d’années de courrier électronique restés derrière un écran de connexion. Des données normales, ennuyeuses, mais incroyablement précieuses.

De nombreuses études suggèrent que le Deep Web est bien plus grand que le Web de surface. Plus important encore, il s’agit de données de meilleure qualité. Par rapport au contenu Web de surface, qui peut être bruyant, plein de désinformations et fortement optimisé pour le référencement. En outre, il contient de plus en plus de contenu délibérément conçu pour induire en erreur ou empoisonner les modèles d’IA. Les données du Web profond, comme les dossiers médicaux, les documents financiers vérifiés ou autres bases de données internes, ont tendance à être propres, authentifiées et organisées par des personnes soucieuses de leur qualité.

Le problème ? Je pense que vous pouvez le deviner, c’est privé. Vous ne pouvez pas simplement extraire un million de dossiers médicaux sans considérer toutes les catastrophes juridiques et éthiques que vous allez provoquer.

Le cadre PROPS

C’est là qu’intervient un nouveau framework appelé PROPS (Protected Pipelines). Introduit par Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) et Laurence Moroney (ancienne Google AI Lead), PROPS agit comme un pont entre ces données sensibles et les modèles d’IA qui en ont besoin.

L’avantage de PROPS est qu’il ne vous demande pas de « remettre » vos données. Au lieu de cela, il utilise des Oracles préservant la confidentialité. Considérez un oracle comme un « intermédiaire de confiance » qui peut examiner vos données, vérifier qu’elles sont réelles, puis indiquer au modèle d’IA ce qu’il a besoin de savoir sans jamais lui montrer les informations brutes.

Ces concepts d’accessoires peuvent sembler magiques car ils peuvent résoudre de nombreux problèmes liés à la disponibilité des données auxquels les modèles d’IA sont confrontés aujourd’hui. Mais comment cela fonctionne-t-il exactement ? Prenons l’exemple d’une entreprise médicale qui souhaite former un outil de diagnostic sur de vrais dossiers de santé. Dans le cadre PROPS :

Autorisation: En tant qu’utilisateur, vous vous connectez à votre propre portail de santé et autorisez une utilisation spécifique de vos données.
L’Oracle : Considérez Oracle comme un notaire numérique. Il accède à votre portail privé (comme la base de données de votre hôpital) pour vérifier que vos données sont réelles. Au lieu de copier vos fichiers, il indique simplement au système d’IA : « J’ai vu les documents originaux et je témoigne qu’ils sont authentiques. » Il fournit la preuve de la vérité sans jamais transmettre les données privées elles-mêmes. Des outils existent déjà pour cela, comme DÉCO. C’est un protocole qui permet aux utilisateurs de prouver qu’ils ont extrait une donnée spécifique d’un serveur Web via un canal TLS sécurisé.
L’enclave sécurisée : Il s’agit d’une « boîte noire » à l’intérieur du matériel informatique où se déroule la formation proprement dite. Nous mettons le modèle d’IA et vos données privées à l’intérieur et « verrouillons la porte ». Aucun humain ni développeur ne peut voir ce qui se passe à l’intérieur. L’IA « étudie » les données et repart avec uniquement les poids du modèle. Les données brutes restent verrouillées à l’intérieur jusqu’à la fin de la session.
Le résultat : Le modèle s’entraîne sur les données contenues dans cette boîte. Seuls les « poids » mis à jour (l’apprentissage) sortent. Les données brutes ne sont jamais vues par les yeux humains.

Le contributeur sait exactement ce qu’il accepte et il peut être récompensé pour sa participation d’une manière calibrée en fonction de la valeur réelle de ses données spécifiques. Il s’agit d’une relation véritablement différente entre les propriétaires de données et les systèmes d’IA.

Mais pourquoi s’embêter avec cela plutôt qu’avec des données synthétiques ?

Certains pourraient se demander : « Pourquoi s’embêter avec cette configuration complexe alors que nous pouvons simplement générer des données synthétiques ? »

La réponse est que les données synthétiques tuent la diversité. Par définition, la génération de données synthétiques renforce le milieu de la courbe en cloche. Si vous souffrez d’une maladie rare qui touche seulement 0,01 % de la population, un générateur de données synthétiques vous éliminera probablement comme du « bruit ».

Les modèles formés sur des données synthétiques deviennent de moins en moins capables de servir les valeurs aberrantes. PROPS résout ce problème en créant un moyen sécurisé permettant à de vraies personnes souffrant de maladies rares ou d’expériences uniques de « s’inscrire ». Il transforme le partage de données d’un risque pour la vie privée en un « marché de données ». où les données précieuses reçoivent la compensation qu’elles méritent.

Ce n’est pas seulement une question de formation, l’inférence compte aussi

La plupart des discussions se concentrent sur la formation, mais PROPS a une application tout aussi intéressante du côté de l’inférence.

Par exemple, obtenir un prêt aujourd’hui implique de soumettre de nombreux documents : relevés bancaires, fiches de paie et déclarations de revenus. Dans un système basé sur PROPS, ils suggèrent l’utilisation d’un modèle de décision de prêt (MLD) :

Vous autorisez le LDM à parler directement à votre banque.
La banque confirme votre solde via un oracle préservant la confidentialité.
Le LDM prend une décision.
Le résultat ? Le prêteur obtient un « Oui » ou un « Non » vérifié sans jamais toucher à vos documents privés. Cela élimine le risque de fuite de données et rend presque impossible l’utilisation de documents frauduleux et retouchés.

Qu’est-ce qui empêche réellement que cela se produise en 2026 ?

Cela dépend simplement de l’échelle et de l’infrastructure.

La version la plus robuste de PROPS nécessite que la formation ait lieu dans une enclave sécurisée matérielle (comme Intel SGX ou les H100 TEE de NVIDIA). Ceux-ci fonctionnent bien à petite échelle, mais les faire fonctionner pour les clusters GPU massifs nécessaires aux LLM frontières reste un problème d’ingénierie ouvert. Cela nécessite des clusters massifs pour fonctionner en parfaite synchronisation cryptée.

Les chercheurs sont clairs : PROPS n’est pas encore un produit fini. C’est une preuve de concept convaincante. Cependant, une version plus légère est aujourd’hui déployable. Même sans garanties matérielles complètes, vous pouvez créer des systèmes qui donnent aux utilisateurs une assurance significative, ce qui constitue déjà une amélioration par rapport au fait de demander à quelqu’un de vous envoyer un PDF par courrier électronique.

Mes propres pensées finales

PROPS n’est pas vraiment une « nouvelle » technologie ; c’est une nouvelle application d’outils existants. Des oracles préservant la confidentialité sont utilisés dans la blockchain et dans l’espace Web3 (comme Chainlink) depuis des années. L’idée ici est de reconnaître que les mêmes outils peuvent résoudre la crise des données d’IA.

La « crise des données » n’est pas due à un manque d’informations ; c’est un manque de confiance. Nous disposons de suffisamment de données pour construire la prochaine génération d’IA, mais elles sont enfermées derrière les portes du Deep Web. Le serpent n’est pas obligé de manger sa queue ; il lui suffit de trouver un meilleur jardin.

👉 LinkedIn : Sabrine Bendimerad

👉 Moyen: https://medium.com/@sabrine.bendimerad1

👉 Instagram: https://tinyurl.com/datailearn