Fondations AlphaEarth
Une implémentation PyTorch du modèle fondamental géospatial AlphaEarth de Google DeepMind, qui génère des embeddings terrestres pour la surveillance et l’analyse environnementale globale. Accompagnant l’article, un ensemble de données global d’embeddings de 2017 à 2024, disponible via Earth Engine. L’objectif de ces embeddings est de servir de représentation géospatiale très générale pour un grand nombre d’applications en aval, sans besoin de réentraînement.
[!NOTE]
Ce modèle est un travail en cours et n’a pas été réellement entraîné sur l’ensemble complet de données, c’est juste un cadre fournissant une base générale pour l’architecture de l’article. Le code est simplifié par rapport à l’implémentation réelle de DeepMind (en JAX).
Parties clés de la méthodologie
- Support du Temps Continu : Première approche de featurisation EO supportant le temps continu, permettant l’interpolation et l’extrapolation temporelle.
- Architecture Space Time Precision (STP) : Encodeur multi-résolution avec opérateurs spatiaux (1/16L), temporels (1/8L) et de précision (1/2L) - conçu pour maintenir des représentations localisées tout en modélisant des relations longue distance dans le temps et l’espace.
- Embeddings von Mises-Fisher : Embeddings de 64 octets distribués sur la sphère unité S^63, représentation très compacte.
Architecture
Encodeur Space Time Precision (STP)
L’encodeur STP traite des données multi-temporelles et multi-sources via trois opérateurs simultanés :
- Opérateur Spatial : Auto-attention spatiale de type ViT (résolution 1/16L)
- Opérateur Temporel : Auto-attention axiale temporelle (résolution 1/8L)
- Opérateur de Précision : Convolutions 3x3 (résolution 1/2L)
Cadre Enseignant-Étudiant-Texte
- Modèle d’Embedding Vidéo Enseignant : Modèle principal avec décodeurs implicites
- Modèle d’Embedding Vidéo Étudiant : Partage les paramètres avec l’enseignant pour apprentissage contrastif
- Modèle d’Alignement Texte : Permet l’apprentissage contrastif texte-image
Sources de Données
Le modèle est entraîné sur de nombreuses sources de données, notamment :
- Optique : Sentinel-2, Landsat 8/9. Note : pour simplifier, mon implémentation ne supporte que Sentinel-2, mais il devrait être relativement simple d’ajouter de nouveaux jeux de données à l’entraînement
- Radar : Sentinel-1, PALSAR2
- LiDAR : GEDI
- Environnemental : GLO-30, ERA5-Land, GRACE
- Annoté/Texte : NLCD, Wikipedia
Installation
# Clone the repository
git clone https://github.com/brayden-zhang/alphaearth-foundations.git
cd alphaearth-foundationsInstall dependencies
uv pip install -r requirements.txtInstall the package
uv pip install -e .
Comment exécuter une étape d'entraînement :python -m alphaearth.run_trainCitation de l'article
@misc{brown2025alphaearthfoundationsembeddingfield,
title={AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data},
author={Christopher F. Brown and Michal R. Kazmierski and Valerie J. Pasquarella and William J. Rucklidge and Masha Samsikova and Chenhui Zhang and Evan Shelhamer and Estefania Lahera and Olivia Wiles and Simon Ilyushchenko and Noel Gorelick and Lihui Lydia Zhang and Sophia Alj and Emily Schechter and Sean Askay and Oliver Guinan and Rebecca Moore and Alexis Boukouvalas and Pushmeet Kohli},
year={2025},
eprint={2507.22291},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2507.22291},
}--- Tranlated By Open Ai Tx | Last indexed: 2025-12-01 ---