Tout en spécifiant quelque chose comme
S3 chemin code> dans
AWS Glue Crawler code>, pouvez-nous mentionner des modèles pour rendre le chenille à lire les fichiers uniquement avec des noms spécifiques dans le dossier
S3 dans code> au lieu de lire chaque fichier sur le chemin? p>
S3: //sample_folder/sample_file%Pattern%.csv. code> p>
3 Réponses :
Malheureusement, la colle ne prend pas en charge Regex pour les filtres d'inclusion. Vous pouvez spécifier un chemin de dossier et définir des règles d'exclusion à la place. Par exemple, le chemin est Voir
0 commentaires
S3: // exemple_folder code> et modèle d'exclusion
*. {Txt, avro} code> Pour filtrer tous les fichiers TXT et Avro. P>
Vous devez écrire du travail de colle et utiliser Spark.read code> méthode pour utiliser regex. Crawler n'a pas de soutien pour inclure-regex. p>
hey Vous pouvez utiliser l'exclusion de modèle de modèle d'une manière pour choisir uniquement les fichiers que vous souhaitez, comme garder tous les modèles que vous ne voulez pas dans l'exclusion des motifs, puis seuls ceux que vous voulez seront considérés.
Bien que cela puisse répondre à la question, si possible, vous devriez Modifier Votre réponse à inclure les informations les plus importantes du lien fourni dans le répondre lui-même. Cela peut aider à empêcher votre réponse de devenir invalide si le lien cesse de fonctionner ou que le contenu change de manière significative.