Pourquoi les modèles non paramétriques méritent un second regard

n’obtiennent pas toujours le crédit qu’ils méritent. Des méthodes comme k-les voisins les plus proches (k-NN) et les estimateurs de densité à noyau sont parfois considérés comme simples ou démodés, mais leur véritable force réside dans l’estimation de relations conditionnelles directement à partir de données, sans imposer de forme fonctionnelle fixe. Cette flexibilité les rend interprétables et puissants, surtout lorsque les données sont limitées ou lorsque l’on souhaite intégrer des connaissances du domaine.

Dans cet article, je montrerai comment les méthodes non paramétriques fournissent une base unifiée pour l’inférence conditionnelle, couvrant la régression, la classification et même la génération de données synthétiques. En utilisant l’ensemble de données classique Iris comme exemple concret, j’illustrerai comment estimer les distributions conditionnelles dans la pratique et comment elles peuvent prendre en charge un large éventail de tâches de science des données.

Estimation des distributions conditionnelles

L’idée clé est simple : au lieu de prédire un seul nombre ou une seule étiquette de classe, nous estimons l’éventail complet des résultats possibles pour une variable à partir d’autres informations. En d’autres termes, plutôt que de nous concentrer uniquement sur la valeur attendue, nous capturons l’intégralité de la distribution de probabilité des résultats qui pourraient se produire dans des conditions similaires.

Pour ce faire, nous examinons des points de données proches de la situation qui nous intéresse ; c’est-à-dire ceux dont les variables de conditionnement sont proches de notre point de requête dans l’espace des fonctionnalités. Chaque point contribue à l’estimation, avec son influence pondérée par la similarité : les points les plus proches de la requête ont plus d’impact, tandis que les points plus éloignés comptent moins. En agrégeant ces contributions pondérées, nous obtenons une estimation fluide, basée sur les données, du comportement de la variable cible dans différents contextes.

Cette approche nous permet d’aller au-delà des prédictions ponctuelles vers une compréhension plus riche de l’incertitude, de la variabilité et de la structure des données.

Cible continue : estimation conditionnelle de la densité

Pour rendre cela concret, prenons deux variables continues de l’ensemble de données Iris : la longueur des sépales (x₁) comme variable de conditionnement et longueur des pétales (oui) comme cible. Pour chaque valeur de x₁nous examinons les points de données proches et formons une densité sur leur oui-valeurs en centrant dessus les petits grains lestés, avec des poids reflétant la proximité dans la longueur des sépales. Le résultat est une estimation fluide de la densité conditionnelle p(oui ∣ x₁).

La figure 1 montre la distribution conditionnelle résultante. A chaque valeur de x₁une coupe verticale à travers la carte des couleurs représente p(oui ∣ x₁). À partir de cette distribution, nous pouvons calculer des statistiques telles que la moyenne ou le mode ; nous pouvons également échantillonner une valeur aléatoire, une étape clé pour la génération de données synthétiques. La figure montre également la courbe de régression modale, qui passe par les sommets de ces distributions conditionnelles. Contrairement à un ajustement traditionnel par les moindres carrés, cette courbe provient directement des distributions conditionnelles locales, s’adaptant naturellement à la non-linéarité, à l’asymétrie ou même aux modèles multimodaux.

**Graphique 1.** Distribution conditionnelle et courbe de régression modale de la longueur des pétales en fonction de la longueur des sépales pour l’ensemble de données Iris (Image de l’auteur).

Et si nous avons plus d’une variable conditionnante ? Par exemple, supposons que nous voulions estimer p(oui ∣ x₁, x₂).

Plutôt que de traiter (x₁, x₂) en tant qu’entrée conjointe unique et en appliquant un noyau bidimensionnel, nous pouvons construire cette distribution séquentiellement :

p(oui ∣ x₁, x₂) ∝ p(oui ∣ x₂) p(x₂ ∣ x₁),

ce qui suppose effectivement qu’une fois x₂est connu, oui dépend avant tout de x₂ plutôt que directement sur x₁. Cette approche étape par étape capture progressivement la structure conditionnelle : les dépendances entre les prédicteurs sont d’abord modélisées, puis celles-ci sont liées à la cible.

Les poids de similarité sont toujours calculés dans le sous-espace des variables de conditionnement pertinentes. Par exemple, si nous estimions p(x₃ ∣ x₁, x₂), la similarité serait déterminée en utilisant x₁ et x₂. Cela garantit que la distribution conditionnelle s’adapte précisément aux prédicteurs choisis.

Cible catégorielle : probabilités de classe conditionnelles

On peut appliquer le même principe d’estimation conditionnelle lorsque la variable cible est catégorielle. Par exemple, supposons que nous voulions prédire l’espèce oui d’une fleur d’Iris compte tenu de la longueur de ses sépales (x₁) et la longueur des pétales (x₂). Pour chaque classe oui = cnous utilisons l’estimation séquentielle pour estimer la distribution conjointe p(x₁, x₂ | oui = c). Ces distributions conjointes sont ensuite combinées à l’aide du théorème de Bayes pour obtenir les probabilités conditionnelles p(oui = c ∣ x₁, x₂), qui peut être utilisé pour la classification ou l’échantillonnage stochastique.

La figure 2, panneaux 1 à 3, montre les répartitions conjointes estimées pour chaque espèce. À partir de celles-ci, nous pouvons classer en sélectionnant les espèces les plus probables ou générer des échantillons aléatoires selon les probabilités estimées. Le quatrième panneau affiche les limites de classe prévues, qui semblent lisses plutôt qu’abruptes, reflétant l’incertitude quant au chevauchement des espèces.

**Graphique 2.** Paysage de probabilité de classe pour l’ensemble de données Iris. Les panneaux 1 à 3 montrent les répartitions conjointes estimées pour chaque espèce : Setosa, Versicolor et Virginica. Le panneau 4 affiche les limites de classe prévues. (Image de l’auteur)

Génération de données synthétiques

Les distributions conditionnelles non paramétriques font plus que prendre en charge la régression ou la classification. Ils nous permettent également de générer des ensembles de données entièrement nouveaux qui préservent la structure des données d’origine. Dans l’approche séquentielle, nous modélisons chaque variable en fonction de celles qui la précèdent, puis tirons des valeurs de ces distributions conditionnelles estimées pour créer des enregistrements synthétiques. La répétition de ce processus nous donne un ensemble de données synthétiques complet qui maintient les relations entre tous les attributs.

La procédure fonctionne comme suit :

Commencez par une variable et échantillonnez à partir de sa distribution marginale.
Pour chaque variable suivante, estimez sa distribution conditionnelle en fonction des variables déjà échantillonnées.
Tirez une valeur de cette distribution conditionnelle.
Répétez jusqu’à ce que toutes les variables aient été échantillonnées pour former un enregistrement synthétique complet.

La figure 3 montre les ensembles de données Iris d’origine (à gauche) et synthétiques (à droite) dans l’espace de mesure d’origine. Seuls trois des quatre attributs continus sont affichés pour s’adapter à la visualisation 3D. L’ensemble de données synthétiques reproduit fidèlement les modèles et les relations de l’original, montrant que les distributions conditionnelles non paramétriques peuvent capturer efficacement la structure multivariée.

**Graphique 3.** Données Iris originales et synthétiques dans l’espace d’origine (trois attributs continus affichés) (Image de l’auteur).

Bien que nous ayons illustré l’approche avec le petit ensemble de données Iris de faible dimension, ce cadre non paramétrique s’adapte naturellement à des ensembles de données beaucoup plus grands et plus complexes, y compris ceux comportant un mélange de variables numériques et catégorielles. En estimant les distributions conditionnelles étape par étape, il capture des relations riches entre de nombreuses fonctionnalités, ce qui le rend largement utile dans les tâches modernes de science des données.

Gestion des attributs mixtes

Jusqu’à présent, nos exemples ont considéré une estimation conditionnelle avec des variables de conditionnement continues, même si la cible peut être continue ou catégorielle. Dans ces cas, la distance euclidienne fonctionne bien comme mesure de similarité. En pratique, cependant, nous devons souvent conditionner des attributs mixtes, ce qui nécessite une métrique de distance appropriée. Pour de tels ensembles de données, des mesures telles que la distance de Gower peuvent être utilisées. Avec une métrique de similarité appropriée, le cadre non paramétrique s’applique de manière transparente aux données hétérogènes, conservant sa capacité à estimer des distributions conditionnelles et à générer des échantillons synthétiques réalistes.

Avantages de l’approche séquentielle

Une alternative à l’estimation séquentielle consiste à modéliser les distributions conjointement sur toutes les variables conditionnantes. Cela peut être fait en utilisant des noyaux multidimensionnels centrés sur les points de données, ou via un modèle de mélange, représentant par exemple la distribution avec N Gaussiennes, où N est beaucoup plus petit que le nombre de points de données. Bien que cela fonctionne dans de faibles dimensions (cela fonctionnerait pour l’ensemble de données Iris), cela devient rapidement gourmand en données, coûteux en calcul et clairsemé à mesure que le nombre de variables augmente, en particulier lorsque les prédicteurs incluent à la fois des types numériques et catégoriels. L’approche séquentielle évite ces problèmes en modélisant les dépendances étape par étape et en calculant la similarité uniquement dans le sous-espace concerné, améliorant ainsi l’efficacité, l’évolutivité et l’interprétabilité.

Conclusion

Les méthodes non paramétriques sont flexibles, interprétables et efficaces, ce qui les rend idéales pour estimer des distributions conditionnelles et générer des données synthétiques. En se concentrant sur les quartiers locaux dans l’espace de conditionnement, ils capturent les dépendances complexes directement à partir des données sans s’appuyer sur des hypothèses paramétriques strictes. Vous pouvez également intégrer des connaissances dans le domaine de manière subtile, par exemple en ajustant les mesures de similarité ou les systèmes de pondération pour mettre l’accent sur des caractéristiques importantes ou des relations connues. Le modèle reste ainsi principalement axé sur les données tout en étant guidé par des informations antérieures, produisant ainsi des résultats plus réalistes.

💡 Intéressé à voir ces idées en action ? Je partagerai un bref article sur LinkedIn dans les prochains jours avec des exemples et des informations clés. Connectez-vous avec moi ici : https://www.linkedin.com/in/andrew-skabar/

Blog

Pourquoi les modèles non paramétriques méritent un second regard

Estimation des distributions conditionnelles

Cible continue : estimation conditionnelle de la densité

Cible catégorielle : probabilités de classe conditionnelles

Génération de données synthétiques

Gestion des attributs mixtes

Avantages de l’approche séquentielle

Conclusion

Que faire lorsque votre modèle de risque de crédit fonctionne aujourd'hui, mais s'effondre six mois plus tard

Comment évaluer la qualité de la récupération dans les pipelines RAG (partie 2) : rang réciproque moyen (MRR) et précision moyenne (AP)

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Estimation des distributions conditionnelles

Cible continue : estimation conditionnelle de la densité

Cible catégorielle : probabilités de classe conditionnelles

Génération de données synthétiques

Gestion des attributs mixtes

Avantages de l’approche séquentielle

Conclusion

Que faire lorsque votre modèle de risque de crédit fonctionne aujourd'hui, mais s'effondre six mois plus tard

Comment évaluer la qualité de la récupération dans les pipelines RAG (partie 2) : rang réciproque moyen (MRR) et précision moyenne (AP)

You may also like

Pourquoi les ingénieurs en IA vont au-delà de LangChain vers des architectures d’agents natifs

Ensembles d’ensembles d’ensembles : un guide de l’empilement

4 fichiers YAML au lieu de PySpark : comment nous laissons les analystes créer des pipelines de données sans ingénieurs

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links