Je veux charger des données stockées dans S3 Seau dans Redshift. Je sais que cela peut être fait manuellement. Mais, est-il possible d'utiliser le travail d'opération de lots S3 et de planifier cette tâche de chargement de données S3 dans Redshift, sur un intervalle régulier? P>
3 Réponses :
Le pipeline de données AWS est un service géré qui fait exactement cela. Vous pouvez configurer et planifier des travaux par lots qui importent des données de S3 à Redshift. p>
Voici un tutoriel: https: // docs .aws.aMazon.com / DataPipeline / Dernière / Developerguide / DP-CopyData-Redshift.HTML P>
La colle AWS pourrait également être un candidat idéal capable de gérer les données d'approvisionnement dans S3. Il est construit pour l'ETL récurrent. Mais si vous avez déjà des données correctement formatées dans S3, la colle AWS pourrait être une overcilleuse.
Vous pouvez invoquer une fonction Lambda à partir d'opérations de lots S3 pour charger des données dans Redshift. P>
vérifier https://aws.amazon.com/ Blogs / AWS / New-Amazon-S3-Batch-Operations / P> invoquant AWS Lambda Fonctions Code> dans le message ci-dessous de Jeff Barr p>
Vous pouvez écrire un script python pour le faire en exécutant la commande copier code> pour charger les données de S3 à redshift. Utilisez la bibliothèque
psycopg2 code> dans Python pour exécuter des commandes SQL sur RedShift via Python Code. P>