
De NetCDF à Insights : un pipeline pratique pour l’analyse des risques climatiques au niveau de la ville
la recherche s’est essentiellement orientée vers la gestion de grands ensembles de données. Les modèles du système terrestre à grande échelle (ESM) et les produits de réanalyse tels que CMIP6 et ERA5 ne sont plus de simples référentiels de données scientifiques, mais sont d’énormes ensembles de données spatio-temporelles de grande dimension, de la taille d’un pétaoctet, qui nécessitent une ingénierie de données approfondie avant de pouvoir être utilisés à des fins d’analyse.
Du point de vue de l’apprentissage automatique et de l’architecture des données, le processus de transformation de la science climatique en politique ressemble à un pipeline classique : collecte de données brutes, ingénierie des fonctionnalités, modélisation déterministe et génération du produit final. Néanmoins, contrairement à l’apprentissage automatique conventionnel sur des données tabulaires, la climatologie computationnelle soulève des problèmes bien plus complexes, tels que des échelles spatio-temporelles irrégulières, des seuils non linéaires spécifiques au climat et l’impératif de conserver une interprétabilité physique.
Cet article présente un pipeline léger et pratique qui comble le fossé entre le traitement des données climatiques brutes et la modélisation d’impact appliquée, transformant les ensembles de données NetCDF en informations interprétables sur les risques au niveau de la ville.
Le problème : des tenseurs bruts aux informations prêtes à la décision
Bien qu’il y ait eu une publication sans précédent de données climatiques à haute résolution à l’échelle mondiale, les transformer en informations spécifiques à un emplacement et exploitables n’est pas une tâche triviale. La plupart du temps, le problème n’est pas qu’il n’y a pas de données ; c’est la complication du format des données.
Les données climatiques sont classiquement enregistrées dans le Network Common Data Form (NetCDF). Ces fichiers :
- Contient d’énormes tableaux multidimensionnels (les tenseurs ont généralement la forme temps × latitude × longitude × variables).
- Un masque spatial assez important, une agrégation temporelle et un système de référence de coordonnées (CRS) sont nécessaires avant même l’analyse statistique.
- Ne sont pas par nature compréhensibles pour les structures tabulaires (par exemple, bases de données SQL ou Pandas DataFrames) qui sont généralement utilisées par les urbanistes et les économistes.
Ce type de perturbation dans la structure provoque un écart de traduction : les données physiques brutes sont là, mais les informations socio-économiques, qui devraient être dérivées de manière déterministe, ne le sont pas.
Sources de données fondamentales
L’un des aspects d’un pipeline solide est qu’il peut intégrer des références traditionnelles avec des projections prospectives :
- Réanalyse ERA5 : fournit des données climatiques passées (1991-2020) telles que la température et l’humidité.
- Projections CMIP6 : propose des scénarios climatiques futurs potentiels basés sur diverses voies d’émission
Avec ces sources de données, il est possible d’effectuer une détection d’anomalies localisées au lieu de dépendre uniquement des moyennes mondiales.
Lignes de référence spécifiques à un emplacement : définir la chaleur extrême
Une question cruciale dans l’analyse climatique consiste à décider comment définir les conditions « extrêmes ». Un seuil global fixe (par exemple 35°C) n’est pas suffisant car l’adaptation locale varie fortement d’une région à l’autre.
Par conséquent, nous caractérisons la chaleur extrême par un seuil basé sur un percentile obtenu à partir des données historiques :
import numpy as np
import xarray as xr
def compute_local_threshold(tmax_series: xr.DataArray, percentile: int = 95) -> float:
return np.percentile(tmax_series, percentile)
T_threshold = compute_local_threshold(Tmax_historical_baseline)
Cette approche garantit que les événements extrêmes sont définis par rapport aux conditions climatiques locales, ce qui rend l’analyse plus contextuelle et plus significative.
Ingénierie des caractéristiques thermodynamiques : température du bulbe humide
La température à elle seule ne suffit pas à déterminer avec précision le stress thermique humain. L’humidité, qui influence le mécanisme de refroidissement du corps par évaporation, est également un facteur majeur. La température du bulbe humide (WBT), qui est une combinaison de température et d’humidité, est un bon indicateur du stress physiologique. Voici la formule que nous utilisons basée sur l’approximation de Stull (2011), simple et rapide à calculer :
import numpy as np
def compute_wet_bulb_temperature(T: float, RH: float) -> float:
wbt = (
T * np.arctan(0.151977 * np.sqrt(RH + 8.313659))
+ np.arctan(T + RH)
- np.arctan(RH - 1.676331)
+ 0.00391838 * RH**1.5 * np.arctan(0.023101 * RH)
- 4.686035
)
return wbt
Des températures humides soutenues au-dessus de 31 à 35 °C approchent les limites de la capacité de survie humaine, ce qui en fait un élément essentiel dans la modélisation des risques.
Traduire les données climatiques en impact humain
Pour aller au-delà des variables physiques, nous traduisons l’exposition climatique en impact humain à l’aide d’un cadre épidémiologique simplifié.
def estimate_heat_mortality(population, base_death_rate, exposure_days, AF):
return population * base_death_rate * exposure_days * AF
Dans ce cas, la mortalité est modélisée en fonction de la population, du taux de mortalité de base, de la durée d’exposition et d’une fraction attribuable représentant le risque.
Bien que simplifiée, cette formulation permet de traduire les anomalies de température en mesures d’impact interprétables telles que la surmortalité estimée.
Modélisation de l’impact économique
Le changement climatique affecte également la productivité économique. Des études empiriques suggèrent une relation non linéaire entre la température et la production économique, la productivité diminuant à des températures plus élevées.
Nous approchons cela en utilisant une simple fonction polynomiale :
def compute_economic_loss(temp_anomaly):
return 0.0127 * (temp_anomaly - 13)**2
Bien que simplifié, ce modèle reflète l’idée clé selon laquelle les pertes économiques s’accélèrent à mesure que les températures s’écartent des conditions optimales.
Étude de cas : Contextes climatiques contrastés
Pour illustrer le pipeline, nous considérons deux villes contrastées :
- Jacobabad (Pakistan): Une ville avec une chaleur de base extrême
- Iakoutsk (Russie): Une ville avec un climat de base froid

| Ville | Population | Décès de référence/an | Risque de chaleur (%) | Estimation des décès dus à la chaleur/an |
|---|---|---|---|---|
| Jacobabad | 1,17 M | ~8 200 | 0,5% | ~41 |
| Iakoutsk | 0,36 M | ~4 700 | 0,1% | ~5 |
Malgré l’utilisation du même pipeline, les résultats diffèrent considérablement en raison des conditions climatiques locales. Cela souligne l’importance de la modélisation contextuelle.
Architecture de pipeline : des données à l’information
Le pipeline complet suit un flux de travail structuré :
import xarray as xr
import numpy as np
ds = xr.open_dataset("cmip6_climate_data.nc")
tmax = ds["tasmax"].sel(lat=28.27, lon=68.43, method="nearest")
threshold = np.percentile(tmax.sel(time=slice("1991", "2020")), 95)
future_tmax = tmax.sel(time=slice("2030", "2050"))
heat_days_mask = future_tmax > threshold

Cette méthode peut être divisée en une série d’étapes qui reflètent un flux de travail traditionnel en science des données. Cela commence par l’ingestion de données, qui implique le chargement de fichiers NetCDF bruts dans une configuration informatique. Ensuite, une extraction des caractéristiques spatiales est effectuée, grâce à laquelle des variables pertinentes telles que la température maximale sont identifiées pour une certaine coordonnée géographique. L’étape suivante est le calcul de base, utilisant des données historiques pour déterminer un seuil basé sur un percentile qui désigne des situations extrêmes.
Au moment où la ligne de base est fixée, la détection des anomalies repère les intervalles de temps futurs lorsque les températures dépassent le seuil, identifiant littéralement les événements de chaleur. Enfin, ces événements reconnus sont transmis à des modèles d’impact qui les convertissent en résultats compréhensibles tels que des décès et des dommages économiques.
Lorsqu’elle est correctement optimisée, cette séquence d’opérations permet de traiter efficacement des ensembles de données climatiques à grande échelle, transformant des données multidimensionnelles complexes en résultats structurés et interprétables.
Limites et hypothèses
Comme tout pipeline analytique, celui-ci dépend également d’un ensemble d’hypothèses simplificatrices, qui doivent être prises en compte lors de l’interprétation des résultats. Les estimations de la mortalité reposent sur l’hypothèse d’une vulnérabilité uniforme de la population, qui rend difficilement compte des variations en matière de division d’âge, de conditions sociales ou de disponibilité d’infrastructures comme les systèmes de refroidissement, etc. L’évaluation de l’impact économique décrit en même temps une esquisse très approximative de la situation et néglige complètement les sensibilités des différents secteurs et les stratégies d’adaptation dans certaines localités. En outre, il existe une incertitude intrinsèque aux projections climatiques elles-mêmes, qui découle de la diversité des modèles climatiques et des scénarios d’émissions du futur. Enfin, la résolution spatiale des ensembles de données mondiaux peut atténuer l’effet de points locaux tels que les îlots de chaleur urbains, entraînant ainsi une sous-estimation potentielle des risques dans un environnement urbain densément peuplé.
Dans l’ensemble, ces limites indiquent que les résultats de ce pipeline ne doivent pas être pris au pied de la lettre comme des prévisions précises, mais plutôt comme des estimations exploratoires pouvant fournir des informations directionnelles.
Informations clés
Ce pipeline illustre certaines compréhensions clés au carrefour de la science du climat et de la science des données. D’une part, la principale difficulté des études climatiques n’est pas la complexité de la modélisation, mais plutôt l’énorme effort d’ingénierie des données nécessaire pour traiter des ensembles de données brutes de grande dimension dans des formats utilisables. Deuxièmement, l’intégration de modèles à domaines multiples, la combinaison de données climatiques avec des cadres épidémiologiques et économiques, offre souvent la valeur la plus pratique, plutôt que d’améliorer simplement un seul composant. De plus, la transparence et l’interprétabilité s’avèrent être des principes de conception essentiels, car des flux de travail bien organisés et facilement traçables permettent une validation, une confiance et une plus grande adoption parmi les universitaires et les décideurs.
Conclusion
Les ensembles de données climatiques sont riches mais complexes. À moins que des pipelines structurés ne soient créés, leur valeur restera cachée aux décideurs.
En utilisant des principes d’ingénierie des données et en incorporant des modèles spécifiques à un domaine, il est possible de convertir les données brutes NetCDF en projections climatiques fonctionnelles au niveau de la ville. La même approche illustre la manière dont la science des données peut contribuer à réduire le fossé entre les climatologues et les décideurs.
Une implémentation simple de ce pipeline peut être explorée ici à titre de référence :
https://openplanet-ai.vercel.app/
Références
- [1] Gasparrini A., Mortalité liée à la température (2017), Lancet Planetary Health
- [2] Burke M., Température et production économique (2018), Nature
- [3] Stull R., Température du bulbe humide (2011), Journal of Applied Meteorology
- [4] Hersbach H., Réanalyse ERA5 (2020), CEPMMT



