
Utiliser des transformateurs pour prévoir des éruptions solaires incroyablement rares
Introduction (X-45)
la prévision change fondamentalement chaque fois que nous essayons de prédire un événement très rare. Nous devons fondamentalement modifier notre modélisation pour nous concentrer sur les événements extrêmes. Depuis les mesures de performance du modèle et la définition des cibles jusqu’au modèle de queue et aux têtes de sortie du transformateur, la prévision des événements rares est difficile. Difficile mais ça vaut le coup.
Les tempêtes d’Halloween de 2003 ont commencé par une perturbation sur le Soleil, une seule tache sombre qui a créé l’un des événements météorologiques spatiaux les plus violents de l’ère des satellites. De fin octobre à début novembre, une série d’énormes régions actives se sont développées à travers le disque solaire. Cela a libéré de puissantes éruptions cutanées et des nuages de plasma magnétisé vers la Terre. Cet événement a présenté une touche esthétique unique avec des implications radioélectriques.
Les satellites ont mal fonctionné, le GPS et la radio ont été perturbés et les compagnies aériennes ont redirigé leurs vols polaires. Selon la NOAA, les réseaux électriques du monde entier ont été touchés, certains courants dépassant 100 ampères, conduisant à la panne d’électricité de Malmö en Suède. A 20h07 TU, une panne de courant a frappé la région, laissant environ 50 000 clients sans électricité pendant 20 à 50 minutes.

Crédit image : NASA / Observatoire de la dynamique solaire (SDO) / AIA. Domaine public
Un choc international, l’événement, a saturé les capteurs à rayons X GOES, de sorte que la véritable taille de l’éruption n’a pu être calculée que par reconstruction. Souvent appelé X-45, d’après sa magnitude, 450 fois plus grande que M-1, une fusée moyenne. Le tableau ci-dessous montre l’échelle Flare Richter.

Le problème de la prédiction
Un problème paradoxal avec les catastrophes est que plus elles sont catastrophiques, plus elles ont tendance à être rares. Pensez aux inondations, aux tempêtes de neige et aux avalanches. Chaque histoire de 50 ans se produit une fois tous les cinquante ans. C’est généralement une bonne chose, mais en raison de leur rareté, ils deviennent incroyablement difficiles à prédire.
Plusieurs éléments font de la prédiction d’événements rares un défi particulièrement intéressant en apprentissage automatique :
- Nos mesures d’évaluation des modèles doivent changer
- Les fonctionnalités doivent être conçues à partir de données de magnétisme
- Créez un modèle de queue pour capturer spécifiquement les événements rares
- Combinez le modèle de queue avec le modèle de distribution complète à l’aide d’un transformateur
Une note sur la précision, qui est généralement une bonne mesure pour la classification binaire. Nous pourrions atteindre une précision de 99 % en manquant chaque éruption solaire dans 10 000 prévisions si nous n’avions que 100 éruptions majeures. Nous pourrions simplement deviner. Cela n’arrivera pas à chaque fois.
Précision = (10 000-100)/10 000 = 9 900/10 000 = 0,99 = 99 %
Vrais positifs = 0
Les données
Si vous souhaitez savoir d’où proviennent ces données, sachez que toutes les données dont nous disposons sur les éruptions solaires proviennent d’une couche du soleil totalement différente de celle où se produit l’éruption. Les données dont nous disposons sur les éruptions solaires proviennent de la photosphère, la première couche visible du soleil.
Les éruptions se produisent dans la couronne et la chromosphère. Les données sont collectées par le Solar Dynamics Observatory (SDO), un vaisseau spatial de la NASA qui observe en permanence le Soleil pour surveiller son activité. Utilisation de l’imageur héliosismique et magnétique (HMI).

Entrée du modèle
Heureusement, grâce à la NASA, la construction, le déploiement et le voyage de notre satellite vers le Soleil sont déjà terminés et nous pouvons désormais nous concentrer sur notre modèle. Un magnétogramme vectoriel estime le vecteur champ magnétique B. Les premières observations se présentent sous deux formes :

À partir de ce point de départ, le patch de région active Space Weather HMI fait deux choses :
- Localisation
- Ingénierie des fonctionnalités
signifie sélectionner des régions actives sur le Soleil (localisation) et calculer des paramètres magnétiques qui décrivent mieux la structure solaire et magnétique (ingénierie des caractéristiques).
La leçon importante à retenir ici est que, pour évaluer la rareté de l’événement que nous essayons de prédire, nous nous concentrons sur la collecte de données dans les endroits où il est le plus susceptible de se produire. Nous prenons nos données de mesure de départ sur les champs magnétiques et calculons différentes caractéristiques telles que :



Nos données d’entrée deviennent fonction du temps et des fonctionnalités techniques :

Si notre modèle utilise les dernières 24 heures et 9 fonctionnalités conçues, notre contribution serait

Cible du modèle
Autant préciser notre cible maintenant. Nous la définissons comme la probabilité d’observer un événement de classe M-1 dans les prochaines 24 heures, compte tenu de l’historique magnétique. Ici, l’historique magnétique serait l’intégralité de nos données d’entrée.


Mais nous avons pris de nombreuses décisions de conception implicites que le tableau suivant rend explicites.
Notez qu’il existe de nombreuses options lors de la construction de notre cible. C’est un problème majeur lorsque l’on compare différents modèles. Il convient de noter que le simple fait de prendre plus de données n’est pas une meilleure solution, car les événements survenus plus loin dans le passé ont tendance à être des prédicteurs moins puissants des événements futurs. Cela introduit un problème de bruit par rapport au signal en ce qui concerne votre fenêtre de formation.

Le TSS métrique
Pour résoudre le problème présenté précédemment consistant à disposer d’un modèle avec une précision de 99 % et un rappel nul, nous introduisons une nouvelle statistique appelée True Skill Statistic (TSS), définie comme la différence entre le taux de vrais positifs et le taux de faux positifs. TSS récompense les vrais positifs tout en punissant les faux positifs.

Réaliser un modèle de queue
En raison de la rareté des éruptions solaires, si nous utilisons l’objectif de risque suivant, nous constaterons que les événements courants, sans éruption solaire, dominent le terme de perte. Les événements rares contribuent à peine, car ils se produisent si peu, même s’ils sont les plus pertinents par rapport à ce que nous essayons de prédire. Le modèle peut devenir très efficace pour la majeure partie de la distribution tout en apprenant très peu de choses sur les événements extrêmes qui nous intéressent. C’est pourquoi il est logique d’envisager une adaptation.

Nous pouvons décrire le problème plus précisément en disant que notre objectif est pondéré en fonction de la fréquence, ce qui signifie que les événements fréquents dominent la durée de la perte, tandis que les événements moins fréquents (rares) y contribuent le moins, même si c’est ce que notre modèle doit apprendre.

Notre modèle peut donc tirer des leçons d’événements pour la plupart rares. Nous choisissons un seuil constant pour une variable continue, telle que le flux de rayons X mous, tout ce qui mesure la gravité des éruptions pourrait fonctionner. Nous fixons notre objectif sur la différence entre le seuil et notre variable de gravité des poussées observée, et utilisons uniquement les données de la queue de la distribution..

Les données que nous modélisons sont alors :

Utiliser des transformateurs
Nous pouvons désormais combiner notre modèle d’origine et notre modèle de queue à l’aide d’un transformateur pour obtenir une solution plus robuste, qui apprend idéalement ce qui se passe à la fois en dessous du seuil d’un événement rare et au-dessus de celui-ci. En d’autres termes, nous aimerions que le modèle apprenne l’origine de la fonction discrète ainsi que la forme de l’excès de risque défini par le modèle de queue. Pour cela, on peut utiliser des transformateurs avec des têtes différentes. Un modèle peut commencer avec des données d’historique magnétique et les coder dans une représentation h; des têtes distinctes peuvent estimer différentes quantités telles que la probabilité d’éruption, le dépassement de la queue d’incertitude et le signal précurseur.

Le responsable de la classification, qui estime la probabilité que notre cible en soit une compte tenu de nos données, est souvent formé avec l’entropie croisée binaire, peut-être pondérée pour tenir compte du déséquilibre des classes.
Nous pouvons utiliser la distribution de Pareto généralisée (GPD), qui fournit un modèle compact pour les excès (notre distribution de queue). Ici, σ contrôle l’échelle et ξ contrôle la lourdeur de la queue. Le transformateur produit une représentation des états solaires récents h mappe cette représentation en paramètres GPD, de sorte que différentes histoires magnétiques impliquent différentes distributions de queue pour une région active (tache solaire).

L’objectif complet combine deux tâches de prévision. Le terme de classification apprend au modèle à estimer si une éruption franchit le seuil choisi, tandis que le terme de queue lui apprend à quoi ressemble l’excès de gravité une fois ce seuil franchi. C’est important car le modèle ne doit pas seulement apprendre « flare ou pas de flare ». Il doit également connaître l’ampleur que pourrait avoir l’événement une fois qu’il entre dans la partie dangereuse de la distribution.




NASA, Taches solaires 1302 septembre 2011 par NASA.jpg24 septembre 2011, via Wikimedia Commons. Domaine public
Conclusion
Lorsqu’il s’agit d’obtenir une bonne prévision pour un événement très rare à l’aide d’un transformateur, il ne suffit pas de simplement brancher les données et de minimiser la fonction de perte. Lorsqu’il s’agit de prédire les éruptions solaires, les techniques de localisation et d’ingénierie des caractéristiques doivent d’abord être appliquées à nos données. Ensuite, nous devons spécifier un modèle cible capable de faire la distinction entre les événements positifs et négatifs. Nous devons choisir une mesure appropriée qui récompense à la fois les vrais positifs et pénalise les faux positifs. De plus, en raison de l’énorme déséquilibre des classes, il est logique de créer un modèle de queue qui utilise la distribution de Pareto généralisée pour modéliser les dépassements au-delà d’un seuil. Ces techniques et fonctions de perte peuvent être utilisées comme différentes têtes de transformateur capables à la fois de prédiction et d’estimation, et apprennent également l’ampleur d’un événement une fois qu’il entre dans une partie dangereuse d’une distribution. Nous en obtenons des performances prédictives améliorées et un modèle mieux spécifié.




