Apache Airflow est une plate-forme de gestion de flux de travail permettant de créer, de planifier et de surveiller par programme des flux de travail sous forme de graphiques acycliques dirigés (DAG) de tâches.
Nous utilisons un script d'amorçage pour installer des bibliothèques python sur les nœuds du cluster EMR pour nos travaux Spark. Le script ressemble à ceci: return ...