
Plus de données génèrent-elles toujours de meilleures performances ?
En science des données, nous nous efforçons d’améliorer les performances peu souhaitables de notre modèle à mesure que nous ajustons les données disponibles. Nous essayons des techniques allant de la modification de la complexité du modèle au massage et au prétraitement des données. Cependant, le plus souvent, il nous est conseillé de « juste » obtenir plus de données. Outre que cela est plus facile à dire qu’à faire, nous devrions peut-être faire une pause et remettre en question les idées reçues. Autrement dit,
Est-ce que l’ajout de données supplémentaires toujours donner de meilleures performances ?
Dans cet article, mettons cet adage à l’épreuve en utilisant des données réelles et un outil que j’ai construit pour une telle enquête. Nous mettrons en lumière les subtilités associées à la collecte et à l’expansion des données, remettant en question l’idée selon laquelle de tels efforts améliorent automatiquement les performances et appelant à une pratique plus consciente et stratégique.
Que signifie plus de données ?
Définissons d’abord ce que nous entendons exactement par « plus de données ». Dans le cadre le plus général, nous imaginons généralement les données sous forme de tableau. Et lorsque l’idée d’acquérir davantage de données est suggérée, ajouter plus de lignes à notre base de données (c’est-à-dire plus de points de données ou d’échantillons) est ce qui nous vient en premier à l’esprit.
Cependant, une approche alternative serait ajouter plus de colonnes (c’est-à-dire plus d’attributs ou de fonctionnalités). La première approche étend les données verticalement, tandis que la seconde le fait horizontalement.
Nous examinerons ensuite les points communs et les particularités des deux approches.

Cas 1 : Plus d’échantillons
Considérons le premier cas d’ajout d’échantillons supplémentaires. Est-ce que l’ajout de plus d’échantillons nécessairement améliorer les performances du modèle ?
Pour tenter d’aller au fond des choses, j’ai créé un outil hébergé sous forme d’espace HuggingFace pour cibler cette question. Cet outil permet à l’utilisateur d’expérimenter les effets de la modification de l’ensemble d’attributs, de la taille de l’échantillon et/ou de la complexité du modèle lors de l’analyse du modèle. UCI Irvine – Prédire l’abandon scolaire et la réussite scolaire des étudiants ensemble de données [1] avec un arbre de décision. Même si l’outil et l’ensemble de données sont destinés à des fins éducatives, nous serons toujours en mesure d’en tirer des informations précieuses qui se généraliseront au-delà de ce cadre de base.

…


Supposons que le doyen de l’école vous remette des dossiers d’élèves et vous demande d’identifier les facteurs qui prédisent l’abandon scolaire pour résoudre le problème. Vous disposez de 1 500 points de données pour commencer. Vous créez un ensemble de test masqué de 700 points de données et vous utilisez le reste pour la formation. Les données qui vous sont fournies contiennent la nationalité des étudiants et la profession des parents, ainsi que le PIB et les taux d’inflation et de chômage.
Cependant, les résultats ne semblent pas impressionnants. Le score de la F1 est faible. Alors, naturellement, vous demandez à votre doyen de tirer quelques ficelles pour acquérir plus de dossiers d’étudiants (peut-être des années précédentes ou d’autres écoles), ce qu’ils font sur quelques semaines. Vous réexécutez l’expérience chaque fois que vous recevez un nouveau lot de dossiers d’élèves. La sagesse conventionnelle suggère que l’ajout de données supplémentaires améliore régulièrement le processus de modélisation (le score du test F1 devrait augmenter de façon monotone), mais ce n’est pas ce que vous voyez. Les performances fluctuent de manière erratique à mesure que de plus en plus de données arrivent. Vous êtes confus. Pourquoi davantage de données nuiraient-elles aux performances ? Pourquoi le score F1 est-il passé de 46 % à 39 % lorsqu’un des lots a été ajouté ? La relation ne devrait-elle pas être causale ?

Eh bien, la question est vraiment de savoir si des échantillons supplémentaires fournissent nécessairement plus d’informations. Réfléchissons d’abord à la nature de ces échantillons supplémentaires :
- Ils pourraient être FAUX (c’est-à-dire un bug dans la collecte de données)
- Ils pourraient être biaisé (par exemple, surreprésenter un cas particulier qui ne correspond pas à la vraie distribution telle que représentée par l’ensemble de test)
- L’ensemble de test lui-même peut être biaisé…
- Modèles fallacieux peut être introduit par certains lots et annulé ultérieurement par d’autres lots.
- Les attributs collectés établissent peu ou pas de corrélation ou de causalité avec la cible (c’est-à-dire qu’il y a des variables cachées qui n’ont pas été prises en compte). Ainsi, peu importe le nombre d’échantillons que vous ajoutez, ils ne vous mèneront nulle part !
Alors oui, ajouter plus de données est généralement une bonne idée, mais il faut faire attention à incohérences dans les données (Par exemple, deux étudiants de même nationalité et de même statut social peuvent se retrouver sur des chemins différents en raison d’autres facteurs). Nous devons également évaluer soigneusement l’utilité des attributs disponibles (Par exemple, peut-être que le PIB n’a rien à voir avec le taux d’abandon scolaire).
Certains diront peut-être que cela ne poserait pas de problème lorsque vous disposez de beaucoup de données réelles (après tout, il s’agit d’un ensemble de données relativement petit). Cet argument a du mérite, mais seulement si les données sont bien homogénéisées et tiennent compte des différentes variabilités et « degrés de liberté » de l’ensemble d’attributs (c’est-à-dire la plage de valeurs que chaque attribut peut prendre et les combinaisons possibles de ces valeurs telles qu’elles sont vues dans le monde réel). Recherche a montré des cas dans lesquels de grands ensembles de données considérés comme l’étalon-or présentent des biais de manière intéressante et obscure qui n’étaient pas faciles à repérer au premier coup d’œil, provoquant des rapports trompeurs d’une grande précision [2].
Cas 2 : plus d’attributs
Maintenant, en parlant d’attributs, considérons un scénario alternatif dans lequel votre doyen ne parvient pas à acquérir davantage de dossiers d’étudiants. Cependant, ils viennent et disent : « Hé, vous… Je n’ai pas pu obtenir plus de dossiers d’élèves… mais j’ai pu utiliser du SQL pour obtenir plus d’attributs pour vos données… Je suis sûr que vous pouvez améliorer vos performances maintenant. N’est-ce pas ?… N’est-ce pas ?! »

Eh bien, mettons cela à l’épreuve. Regardons l’exemple suivant dans lequel nous ajoutons progressivement plus d’attributs, élargir le profil des étudiants et inclure leur statut matrimonial, financier et d’immigration. Chaque fois que nous ajoutons un attribut, nous reformons l’arbre et évaluons ses performances. Comme vous pouvez le constater, alors que certains incréments améliorent les performances, d’autres les nuisent. Mais encore une fois, pourquoi ?
En regardant de plus près l’ensemble d’attributs, nous constatons que tous les attributs ne contiennent pas réellement d’informations utiles. Le monde réel est compliqué… Certains attributs (par exemple, le sexe) peuvent fournir du bruit ou de fausses corrélations dans l’ensemble d’apprentissage qui ne se généraliseront pas bien à l’ensemble de test (surapprentissage).
En outre, même si l’opinion commune veut que plus vous ajoutez de données, vous devez augmenter la complexité de votre modèle, mais cette pratique ne donne pas toujours le meilleur résultat. Parfois, lors de l’ajout d’un attribut, réduire la complexité du modèle peut aider au surajustement (par exemple, quand Cours a été introduit dans le mix).

Conclusion
En prenant du recul et en regardant la situation dans son ensemble, nous constatons que même si la collecte de davantage de données est une noble cause, nous devons faire attention à ne pas automatiquement supposer que les performances s’amélioreront. Deux forces sont en jeu ici : la mesure dans laquelle le modèle s’adapte aux données d’entraînement et la fiabilité de cet ajustement se généralise et s’étend aux données invisibles.
Résumons comment chaque type de « données supplémentaires » influence ces forces, selon que les données ajoutées sont bonnes (représentatives, cohérentes, informatives) ou mauvaises (biaisées, bruitées, incohérentes) :
| Si la qualité des données est bonne… | Si la qualité des données est mauvaise… | |
| Plus d’échantillons (lignes) | • Erreur de formation peut augmenter légèrement (plus de variations rendent l’ajustement difficile).
• Erreur de test généralement gouttes. Le modèle devient plus stable et plus confiant. |
• Erreur de formation peut fluctuer en raison d’exemples contradictoires.
• Erreur de test fréquente se lève. |
| Plus d’attributs (colonnes) | • Erreur de formation généralement gouttes (plus de signal conduit à une représentation plus riche.)
• Erreur de test gouttes car les attributs codent des modèles vrais et généralisables. |
• Erreur de formation généralement gouttes (le modèle mémorise les modèles bruyants).
• Erreur de test se lève en raison de fausses corrélations. |
La généralisation n’est pas seulement une question de quantité, c’est aussi une question de qualité et de niveau approprié de complexité du modèle.
Pour conclure, la prochaine fois que quelqu’un vous suggère d’obtenir « simplement » plus de données pour améliorer comme par magie la précision, discutez avec lui des subtilités d’un tel plan. Parlez des caractéristiques des données obtenues en termes de nature, de taille et de qualité. Soulignez l’interaction nuancée entre les complexités des données et des modèles. Cela contribuera à valoriser leurs efforts !
Leçons à internaliser :
- Dans la mesure du possible, ne croyez pas les autres (ou les miens) sur parole. Expérimentez vous-même !
- Lors de l’ajout de points de données supplémentaires pour une formation, demandez-vous : Ces échantillons représentent-ils le phénomène que vous modélisez. Montrent-ils au modèle des cas réalistes plus intéressants ? ou sont-ils biaisés et/ou incohérents ?
- Lors de l’ajout de plus d’attributsdemandez-vous : Ces attributs sont-ils censés véhiculer des informations cela améliore notre capacité à faire de meilleures prévisions, ou s’agit-il principalement de bruit ?
- Finalement, effectuer le réglage des hyper-paramètres et la validation appropriée pour éliminer les doutes lors de l’évaluation du degré d’information des nouvelles données de formation.
Essayez-le vous-même !
Si vous souhaitez explorer vous-même les dynamiques présentées dans cet article, J’héberge l’outil interactif ici. Au fur et à mesure que vous expérimentez en ajustant la taille de l’échantillon, le nombre d’attributs et/ou la profondeur du modèle, vous observerez l’impact de ces ajustements sur les performances du modèle. Une telle expérimentation enrichit votre perspective et votre compréhension des mécanismes qui sous-tendent la science et l’analyse des données.
Références :
[1] MVMartins, D. Tolledo, J. Machado, LMT Baptista, V.Realinho. (2021) « Prédiction précoce des performances des étudiants dans l’enseignement supérieur : une étude de cas » Tendances et applications dans les systèmes et technologies de l’information, vol.1, dans la série Advances in Intelligent Systems and Computing. Springer. DOI : 10.1007/978-3-030-72657-7_16. Cet ensemble de données est sous licence Creative Commons Attribution 4.0 Internationale (CC BY 4.0). Cela permet le partage et l’adaptation des ensembles de données à n’importe quelle fin, à condition que le crédit approprié soit accordé.
[2] Z. Liu et K. He, Une décennie de bataille contre le biais des ensembles de données : y sommes-nous déjà arrivés ? (2024), arXiv : https://arxiv.org/abs/2403.08632



