0
votes

Crawler de colle pour lire les fichiers S3 correspondés à des motifs

Tout en spécifiant S3 chemin dans AWS Glue Crawler , pouvez-nous mentionner des modèles pour rendre le chenille à lire les fichiers uniquement avec des noms spécifiques dans le dossier S3 dans au lieu de lire chaque fichier sur le chemin?

quelque chose comme S3: //sample_folder/sample_file%Pattern%.csv.


0 commentaires

3 Réponses :


2
votes

Malheureusement, la colle ne prend pas en charge Regex pour les filtres d'inclusion. Vous pouvez spécifier un chemin de dossier et définir des règles d'exclusion à la place. Par exemple, le chemin est S3: // exemple_folder et modèle d'exclusion *. {Txt, avro} Pour filtrer tous les fichiers TXT et Avro.

Voir 0 commentaires


0
votes

Vous devez écrire du travail de colle et utiliser Spark.read méthode pour utiliser regex. Crawler n'a pas de soutien pour inclure-regex.


0 commentaires

0
votes

1 commentaires

Bien que cela puisse répondre à la question, si possible, vous devriez Modifier Votre réponse à inclure les informations les plus importantes du lien fourni dans le répondre lui-même. Cela peut aider à empêcher votre réponse de devenir invalide si le lien cesse de fonctionner ou que le contenu change de manière significative.