Utiliser des transformateurs pour prévoir des éruptions solaires incroyablement rares

Introduction (X-45)

la prévision change fondamentalement chaque fois que nous essayons de prédire un événement très rare. Nous devons fondamentalement modifier notre modélisation pour nous concentrer sur les événements extrêmes. Depuis les mesures de performance du modèle et la définition des cibles jusqu’au modèle de queue et aux têtes de sortie du transformateur, la prévision des événements rares est difficile. Difficile mais ça vaut le coup.

Les tempêtes d’Halloween de 2003 ont commencé par une perturbation sur le Soleil, une seule tache sombre qui a créé l’un des événements météorologiques spatiaux les plus violents de l’ère des satellites. De fin octobre à début novembre, une série d’énormes régions actives se sont développées à travers le disque solaire. Cela a libéré de puissantes éruptions cutanées et des nuages de plasma magnétisé vers la Terre. Cet événement a présenté une touche esthétique unique avec des implications radioélectriques.

Les satellites ont mal fonctionné, le GPS et la radio ont été perturbés et les compagnies aériennes ont redirigé leurs vols polaires. Selon la NOAA, les réseaux électriques du monde entier ont été touchés, certains courants dépassant 100 ampères, conduisant à la panne d’électricité de Malmö en Suède. A 20h07 TU, une panne de courant a frappé la région, laissant environ 50 000 clients sans électricité pendant 20 à 50 minutes.

Le Soleil entre en éruption avec une activité magnétique intense, sa couronne brillant dans une lumière ultraviolette extrême sous forme de régions actives brillantes et un puissant arc d’éruption de membres au-dessus de la surface solaire..
Crédit image : NASA / Observatoire de la dynamique solaire (SDO) / AIA. Domaine public

Un choc international, l’événement, a saturé les capteurs à rayons X GOES, de sorte que la véritable taille de l’éruption n’a pu être calculée que par reconstruction. Souvent appelé X-45, d’après sa magnitude, 450 fois plus grande que M-1, une fusée moyenne. Le tableau ci-dessous montre l’échelle Flare Richter.

Les classes d’éruption solaire sont mesurées par la luminosité maximale des rayons X mous sur Terre. Chaque classe de lettres principale est dix fois plus forte que la précédente. Le chiffre après la lettre mesure l’éclat au sein de cette classe : X45 est 45 fois plus puissant que X1, 450 fois plus puissant que M1 et 4 500 fois plus puissant que C1.

Le problème de la prédiction

Un problème paradoxal avec les catastrophes est que plus elles sont catastrophiques, plus elles ont tendance à être rares. Pensez aux inondations, aux tempêtes de neige et aux avalanches. Chaque histoire de 50 ans se produit une fois tous les cinquante ans. C’est généralement une bonne chose, mais en raison de leur rareté, ils deviennent incroyablement difficiles à prédire.

Plusieurs éléments font de la prédiction d’événements rares un défi particulièrement intéressant en apprentissage automatique :

Nos mesures d’évaluation des modèles doivent changer
Les fonctionnalités doivent être conçues à partir de données de magnétisme
Créez un modèle de queue pour capturer spécifiquement les événements rares
Combinez le modèle de queue avec le modèle de distribution complète à l’aide d’un transformateur

Une note sur la précision, qui est généralement une bonne mesure pour la classification binaire. Nous pourrions atteindre une précision de 99 % en manquant chaque éruption solaire dans 10 000 prévisions si nous n’avions que 100 éruptions majeures. Nous pourrions simplement deviner. Cela n’arrivera pas à chaque fois.

Précision = (10 000-100)/10 000 = 9 900/10 000 = 0,99 = 99 %
Vrais positifs = 0

Les données

Si vous souhaitez savoir d’où proviennent ces données, sachez que toutes les données dont nous disposons sur les éruptions solaires proviennent d’une couche du soleil totalement différente de celle où se produit l’éruption. Les données dont nous disposons sur les éruptions solaires proviennent de la photosphère, la première couche visible du soleil.

Les éruptions se produisent dans la couronne et la chromosphère. Les données sont collectées par le Solar Dynamics Observatory (SDO), un vaisseau spatial de la NASA qui observe en permanence le Soleil pour surveiller son activité. Utilisation de l’imageur héliosismique et magnétique (HMI).

La prévision des éruptions solaires mesure le champ magnétique le plus directement au niveau de la photosphère, la surface visible du Soleil, tandis que la libération d’énergie des éruptions se produit plus haut dans la couronne. Les données photosphériques sur les taches solaires et le champ magnétique sont donc utilisées pour déduire l’accumulation de contraintes magnétiques coronales pouvant conduire à des reconnexions et à des éruptions cutanées. Image réalisée avec l’aide de Chat GPT

Entrée du modèle

Heureusement, grâce à la NASA, la construction, le déploiement et le voyage de notre satellite vers le Soleil sont déjà terminés et nous pouvons désormais nous concentrer sur notre modèle. Un magnétogramme vectoriel estime le vecteur champ magnétique B. Les premières observations se présentent sous deux formes :

À partir de ce point de départ, le patch de région active Space Weather HMI fait deux choses :

Localisation
Ingénierie des fonctionnalités

signifie sélectionner des régions actives sur le Soleil (localisation) et calculer des paramètres magnétiques qui décrivent mieux la structure solaire et magnétique (ingénierie des caractéristiques).

La leçon importante à retenir ici est que, pour évaluer la rareté de l’événement que nous essayons de prédire, nous nous concentrons sur la collecte de données dans les endroits où il est le plus susceptible de se produire. Nous prenons nos données de mesure de départ sur les champs magnétiques et calculons différentes caractéristiques telles que :

Quatre grandeurs magnétiques sont utilisées pour comprendre les régions actives productrices d’éruptions cutanées : le flux magnétique montre comment les lignes de champ connectent les polarités opposées des taches solaires, le courant électrique trace les flux porteurs d’énergie le long de ces champs, la torsion magnétique montre l’enroulement hélicoïdal dans un tube de flux et l’hélicité magnétique décrit la liaison, le tressage et le nouage à plus grande échelle des champs magnétiques coronaux. Image réalisée avec l’aide de Chat GPT

Une éruption solaire commence lorsque l’énergie magnétique s’accumule dans les lignes de champ stressées au-dessus d’une région de taches solaires. À mesure que le champ se reconnecte, l’énergie stockée est libérée sous forme de rayonnement intense, d’éruptions de plasma et de boucles magnétiques post-éruption. Image réalisée avec l’aide de Chat GPT

Nos données d’entrée deviennent fonction du temps et des fonctionnalités techniques :

Si notre modèle utilise les dernières 24 heures et 9 fonctionnalités conçues, notre contribution serait

Cible du modèle

Autant préciser notre cible maintenant. Nous la définissons comme la probabilité d’observer un événement de classe M-1 dans les prochaines 24 heures, compte tenu de l’historique magnétique. Ici, l’historique magnétique serait l’intégralité de nos données d’entrée.

Mais nous avons pris de nombreuses décisions de conception implicites que le tableau suivant rend explicites.

Notez qu’il existe de nombreuses options lors de la construction de notre cible. C’est un problème majeur lorsque l’on compare différents modèles. Il convient de noter que le simple fait de prendre plus de données n’est pas une meilleure solution, car les événements survenus plus loin dans le passé ont tendance à être des prédicteurs moins puissants des événements futurs. Cela introduit un problème de bruit par rapport au signal en ce qui concerne votre fenêtre de formation.

Le TSS métrique

Pour résoudre le problème présenté précédemment consistant à disposer d’un modèle avec une précision de 99 % et un rappel nul, nous introduisons une nouvelle statistique appelée True Skill Statistic (TSS), définie comme la différence entre le taux de vrais positifs et le taux de faux positifs. TSS récompense les vrais positifs tout en punissant les faux positifs.

Réaliser un modèle de queue

En raison de la rareté des éruptions solaires, si nous utilisons l’objectif de risque suivant, nous constaterons que les événements courants, sans éruption solaire, dominent le terme de perte. Les événements rares contribuent à peine, car ils se produisent si peu, même s’ils sont les plus pertinents par rapport à ce que nous essayons de prédire. Le modèle peut devenir très efficace pour la majeure partie de la distribution tout en apprenant très peu de choses sur les événements extrêmes qui nous intéressent. C’est pourquoi il est logique d’envisager une adaptation.

Risque objectif/empirique (ce que la plupart du ML minimise)

Nous pouvons décrire le problème plus précisément en disant que notre objectif est pondéré en fonction de la fréquence, ce qui signifie que les événements fréquents dominent la durée de la perte, tandis que les événements moins fréquents (rares) y contribuent le moins, même si c’est ce que notre modèle doit apprendre.

L’observatoire de la dynamique solaire de la NASA a capturé les premiers instants d’une éruption solaire de classe X4.9 le 24 février 2014, vue ici dans plusieurs longueurs d’onde sous la forme d’une éruption brillante sur le membre gauche du Soleil. L’éruption a culminé à 19 h 49 HNE ; des boucles de plasma chaud sont visibles au-dessus de la région active de la couronne. Crédit : NASA/SDO. Licence : Politique d’utilisation des images de la NASA Domaine public.

Notre modèle peut donc tirer des leçons d’événements pour la plupart rares. Nous choisissons un seuil constant pour une variable continue, telle que le flux de rayons X mous, tout ce qui mesure la gravité des éruptions pourrait fonctionner. Nous fixons notre objectif sur la différence entre le seuil et notre variable de gravité des poussées observée, et utilisons uniquement les données de la queue de la distribution..

Les données que nous modélisons sont alors :

Utiliser des transformateurs

Nous pouvons désormais combiner notre modèle d’origine et notre modèle de queue à l’aide d’un transformateur pour obtenir une solution plus robuste, qui apprend idéalement ce qui se passe à la fois en dessous du seuil d’un événement rare et au-dessus de celui-ci. En d’autres termes, nous aimerions que le modèle apprenne l’origine de la fonction discrète ainsi que la forme de l’excès de risque défini par le modèle de queue. Pour cela, on peut utiliser des transformateurs avec des têtes différentes. Un modèle peut commencer avec des données d’historique magnétique et les coder dans une représentation h; des têtes distinctes peuvent estimer différentes quantités telles que la probabilité d’éruption, le dépassement de la queue d’incertitude et le signal précurseur.

Le responsable de la classification, qui estime la probabilité que notre cible en soit une compte tenu de nos données, est souvent formé avec l’entropie croisée binaire, peut-être pondérée pour tenir compte du déséquilibre des classes.

Nous pouvons utiliser la distribution de Pareto généralisée (GPD), qui fournit un modèle compact pour les excès (notre distribution de queue). Ici, σ contrôle l’échelle et ξ contrôle la lourdeur de la queue. Le transformateur produit une représentation des états solaires récents h mappe cette représentation en paramètres GPD, de sorte que différentes histoires magnétiques impliquent différentes distributions de queue pour une région active (tache solaire).

L’objectif complet combine deux tâches de prévision. Le terme de classification apprend au modèle à estimer si une éruption franchit le seuil choisi, tandis que le terme de queue lui apprend à quoi ressemble l’excès de gravité une fois ce seuil franchi. C’est important car le modèle ne doit pas seulement apprendre « flare ou pas de flare ». Il doit également connaître l’ampleur que pourrait avoir l’événement une fois qu’il entre dans la partie dangereuse de la distribution.

Tache solaire AR 1302 sur le Soleil, photographiée le 24 septembre 2011. La NASA a décrit la région active comme produisant de grandes éruptions solaires pendant le cycle solaire 24.
NASA, *Taches solaires 1302 septembre 2011 par NASA.jpg*24 septembre 2011, via Wikimedia Commons. Domaine public

Conclusion

Lorsqu’il s’agit d’obtenir une bonne prévision pour un événement très rare à l’aide d’un transformateur, il ne suffit pas de simplement brancher les données et de minimiser la fonction de perte. Lorsqu’il s’agit de prédire les éruptions solaires, les techniques de localisation et d’ingénierie des caractéristiques doivent d’abord être appliquées à nos données. Ensuite, nous devons spécifier un modèle cible capable de faire la distinction entre les événements positifs et négatifs. Nous devons choisir une mesure appropriée qui récompense à la fois les vrais positifs et pénalise les faux positifs. De plus, en raison de l’énorme déséquilibre des classes, il est logique de créer un modèle de queue qui utilise la distribution de Pareto généralisée pour modéliser les dépassements au-delà d’un seuil. Ces techniques et fonctions de perte peuvent être utilisées comme différentes têtes de transformateur capables à la fois de prédiction et d’estimation, et apprennent également l’ampleur d’un événement une fois qu’il entre dans une partie dangereuse d’une distribution. Nous en obtenons des performances prédictives améliorées et un modèle mieux spécifié.

Site web | LinkedIn | GitHub

Blog

Utiliser des transformateurs pour prévoir des éruptions solaires incroyablement rares

Introduction (X-45)

Le problème de la prédiction

Les données

Entrée du modèle

Cible du modèle

Le TSS métrique

Réaliser un modèle de queue

Utiliser des transformateurs

Conclusion

Comment créer une base de connaissances basée sur le code Claude

Framework Proxy-Pointer pour l'intelligence documentaire d'entreprise sensible à la structure

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Introduction (X-45)

Le problème de la prédiction

Les données

Entrée du modèle

Cible du modèle

Le TSS métrique

Réaliser un modèle de queue

Utiliser des transformateurs

Conclusion

Comment créer une base de connaissances basée sur le code Claude

Framework Proxy-Pointer pour l'intelligence documentaire d'entreprise sensible à la structure

You may also like

Les LLM peuvent-ils remplacer les répondants à l’enquête ?

Des modèles d’IA possibles aux modèles probables

Comment exécuter en toute sécurité des agents de codage

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links