
Combler le fossé entre la recherche et la lisibilité avec Marco Hening Tallarico
Dans la série Author Spotlight, les rédacteurs de TDS discutent avec les membres de notre communauté de leur parcours professionnel en science des données et en IA, de leurs écrits et de leurs sources d’inspiration. Aujourd’hui, nous sommes ravis de partager notre conversation avec Marco Hening Tallarico.
Marco est un étudiant diplômé à l’Université de Toronto et chercheur pour Risklab, avec un profond intérêt pour les statistiques appliquées et l’apprentissage automatique. Né au Brésil et ayant grandi au Canada, Marco apprécie le langage universel des mathématiques.
Qu’est-ce qui vous motive à prendre des concepts académiques denses (comme les équations différentielles stochastiques) et à les transformer en didacticiels accessibles à la communauté TDS au sens large ?
Il est naturel de vouloir tout apprendre dans son ordre naturel. Algèbre, calcul, statistiques, etc. Mais si l’on veut progresser rapidement, il faut abandonner cette tendance. Quand on essaie de résoudre un labyrinthe, c’est de la triche que de choisir une place au milieu, mais dans l’apprentissage, il n’y a pas de règle. Commencez par la fin et revenez en arrière si vous le souhaitez. Cela rend les choses moins fastidieuses.
Ton Défi de la science des données article axé sur la détection des fuites de données dans le code plutôt que sur une simple théorie. D’après votre expérience, quelle fuite silencieuse est la plus courante qui se produit encore dans les systèmes de production aujourd’hui ?
Il est très facile de laisser des fuites de données s’infiltrer lors de l’analyse des données ou lors de l’utilisation d’agrégats comme entrées dans le modèle. Surtout maintenant que les agrégats peuvent être calculés relativement facilement en temps réel. Avant de tracer un graphique, avant même d’exécuter le .head() fonction, je pense qu’il est important de diviser le train-test. Réfléchissez à la manière dont la répartition doit être effectuée, depuis le niveau d’utilisateur, la taille et la chronologie jusqu’à une répartition stratifiée : vous pouvez faire de nombreux choix et cela vaut la peine d’y prendre le temps.
De plus, lorsque vous utilisez des mesures telles que le nombre moyen d’utilisateurs par mois, vous devez vérifier que l’agrégat n’a pas été calculé au cours du mois que vous utilisez comme ensemble de test. Celles-ci sont plus délicates, car indirectes. Ce n’est pas toujours aussi évident que de ne pas utiliser les données de la boîte noire lorsque l’on essaie de prédire quels avions vont s’écraser. Si vous avez la boîte noire, ce n’est pas une prédiction ; l’avion s’est écrasé.
Vous mentionnez cela apprendre la grammaire à partir des seules données est coûteux en calcul. Pensez-vous que les modèles hybrides (statistiques + formels) sont le seul moyen de parvenir à une mise à l’échelle durable de l’IA à long terme ?
Si nous prenons les LLM par exemple, ils ont du mal à réaliser de nombreuses tâches faciles, comme ajouter une liste de chiffres ou transformer une page de texte en majuscules. Il n’est pas déraisonnable de penser que le simple fait d’agrandir le modèle résoudra ces problèmes, mais ce n’est pas une bonne solution. Il est beaucoup plus fiable de le faire invoquer un .sum() ou .upper() fonctionner en votre nom et utiliser son raisonnement linguistique pour sélectionner les entrées. C’est probablement ce que font déjà les principaux modèles d’IA grâce à une ingénierie intelligente des invites.
Il est beaucoup plus facile d’utiliser la grammaire formelle pour supprimer les artefacts indésirables, comme le problème du tiret em, que de récupérer un autre tiers des données d’Internet et d’effectuer une formation supplémentaire.
Vous contrastez problèmes directs et inverses dans la théorie PDE. Pouvez-vous partager un scénario réel en dehors de la modélisation de la température où une approche du problème inverse pourrait être la solution ?
Le problème avancé est généralement celui avec lequel la plupart des gens sont à l’aise. Si nous examinons le modèle de Black Scholes, le problème à terme serait le suivant : compte tenu de certaines hypothèses de marché, quel est le prix de l’option ? Mais il y a une autre question que nous pouvons poser : étant donné un ensemble de prix d’options observés, quels sont les paramètres du modèle ? C’est le problème inverse : c’est de l’inférence, c’est de la volatilité implicite.
On peut aussi penser en termes d’équation de Navier-Stokes, qui modélise la dynamique des fluides. Le problème avancé : étant donné la forme de l’aile, la vitesse initiale et la viscosité de l’air, calculez la vitesse ou le champ de pression. Mais nous pourrions aussi nous demander, compte tenu d’un champ de vitesse et de pression, quelle est la forme de l’aile de notre avion. Cela a tendance à être beaucoup plus difficile à résoudre. Compte tenu des causes, il est beaucoup plus facile de calculer les effets. Mais si l’on vous présente un ensemble d’effets, il n’est pas forcément facile d’en calculer la cause. En effet, plusieurs causes peuvent expliquer la même observation.
Cela explique également en partie pourquoi les PINN ont décollé récemment ; ils mettent en évidence comment les réseaux de neurones peuvent apprendre efficacement des données. Cela ouvre toute une boîte à outils, comme Adam, SGD et la rétropropagation, mais en termes de résolution des PDE, c’est ingénieux.
En tant qu’étudiant à la maîtrise et rédacteur technique prolifique, quels conseils donneriez-vous aux autres étudiants qui souhaitent commencer à partager leurs recherches sur des plateformes comme Towards Data Science ?
Je pense qu’en rédaction technique, il y a deux choix concurrents que vous devez faire activement ; vous pouvez y penser comme une distillation ou une dilution. Les articles de recherche ressemblent beaucoup à un shot de vodka ; en introduction, de vastes domaines d’études sont résumés en quelques phrases. Si le goût amer de la vodka vient de l’évaporation, à l’écrit, le principal responsable est le jargon. Cet algorithme de compression verbale nous permet de discuter d’idées abstraites, telles que la malédiction de la dimensionnalité ou la fuite de données, en quelques mots seulement. C’est un outil qui peut aussi être votre perte.
Le document original sur l’apprentissage en profondeur compte 7 pages. Il existe également des manuels d’apprentissage profond de 800 pages (une piña colada en comparaison). Les deux sont excellents pour la même raison : ils fournissent le bon niveau de détail pour le public approprié. Pour comprendre le bon niveau de détail, vous devez lire dans le genre que vous souhaitez publier.
Bien sûr, la façon dont vous diluez les spiritueux est importante ; personne ne veut d’une part d’eau chaude et d’une part de la monstruosité de Tito. Certaines recettes qui rendent l’écriture plus palpable incluent l’utilisation d’analogies mémorables (cela fait que le contenu colle, comme une piña colada sur une table), la concentration sur quelques concepts essentiels et l’élaboration d’exemples.
Mais il y a aussi une distillation qui se produit dans la rédaction technique, et cela revient à « omettre »[ing] mots inutiles », un vieux dicton de Strunk & White qui sonnera toujours vrai et vous rappellera de lire sur le métier d’écrivain. Roy Peter Clark est l’un de mes préférés.
Tu écris aussi articles de recherche. Comment adapter votre contenu différemment lorsque vous écrivez pour un public général de science des données par rapport à un public axé sur la recherche ?
J’éviterais certainement toute métaphore liée à l’alcool. N’importe quel langage figuré, en fait. Tenez-vous en au béton. Dans les articles de recherche, la principale chose que vous devez communiquer est les progrès qui ont été réalisés. Où était le terrain avant et où il se trouve maintenant. Il ne s’agit pas d’enseigner; vous supposez que le public le sait. Il s’agit de vendre une idée, de défendre une méthode et de soutenir une hypothèse. Vous devez montrer comment il y avait une lacune et expliquer comment votre article l’a comblée. Si vous pouvez faire ces deux choses, vous avez un bon document de recherche.
Pour en savoir plus sur le travail de Marco et rester au courant de ses derniers articles, vous pouvez visiter son site web et suivez-le sur TDS, ou LinkedIn.



