J'ai une liste de fichiers JSON que je voudrais charger en parallèle. p>
Je ne peux pas utiliser J'ai essayé Des idées? P> lis.json ("*") code> Cause Les fichiers ne sont pas dans le même dossier et il n'y a pas de modèle spécifique que je ne puisse mettre en œuvre. P>
sc.parallealize (fichier de filiste) (hivecontext.read.json) code> mais le contexte de la ruche, comme prévu, n'existe pas dans l'exécuteur exécutante. P>
4 Réponses :
On dirait que j'ai trouvé la solution:
Il accepte plusieurs fichiers aussi - sqlcontext.read.json (fichier1, fichier2)
Erreur: TypeError: l'objet 'Property' n'est pas appelable
Aussi, vous pouvez spécifier le répertoire sous forme de paramètre:
Oui, mais cela ne fonctionne que si tous les fichiers sont sous le même répertoire. Si nous avons plusieurs fichiers dans différents répertoires, le seul moyen de les lire en parallèle - est uniquement en tant que fichier texte
Une solution pour pyspark:
fonction Vous pouvez donc modifier votre code comme celui-ci: P> json (chemins: chaîne *) code> prend des arguments variables. ( Documentation )
sc.read.json(file1, file2, ...)