AWS Glue est un service ETL (extraction, transformation et chargement) entièrement géré qui peut catégoriser vos données, les nettoyer, les enrichir et les déplacer entre différents magasins de données. AWS Glue se compose d'un référentiel de données central appelé AWS Glue Data Catalog, d'un moteur ETL qui génère automatiquement du code Python et d'un planificateur qui gère la résolution des dépendances, la surveillance des tâches et les nouvelles tentatives. AWS Glue est sans serveur, il n'y a donc pas d'infrastructure à gérer.
J'ai un tableau JSON de structures dans S3, qui est correctement analysé et catalogué par Glue. $[*]
J'utilise le classificateur personnalisé: [{"key" ...
Je voudrais éviter le point de terminaison du développement AWS. Existe-t-il un moyen de tester et de déboguer mon code PySpark sans utiliser le point de terminaison de d&eacu ...
J'ai un script pyspark que je peux exécuter dans AWS GLUE. Mais chaque fois que je crée un travail à partir de l'interface utilisateur et que je copie mon code dans le travail ...