7
votes

Lire plusieurs fichiers JSON de Spark

J'ai une liste de fichiers JSON que je voudrais charger en parallèle.

Je ne peux pas utiliser lis.json ("*") Cause Les fichiers ne sont pas dans le même dossier et il n'y a pas de modèle spécifique que je ne puisse mettre en œuvre.

J'ai essayé sc.parallealize (fichier de filiste) (hivecontext.read.json) mais le contexte de la ruche, comme prévu, n'existe pas dans l'exécuteur exécutante.

Des idées?


0 commentaires

4 Réponses :


5
votes

On dirait que j'ai trouvé la solution: xxx


2 commentaires

Il accepte plusieurs fichiers aussi - sqlcontext.read.json (fichier1, fichier2)


Erreur: TypeError: l'objet 'Property' n'est pas appelable



2
votes

Aussi, vous pouvez spécifier le répertoire sous forme de paramètre: xxx


1 commentaires

Oui, mais cela ne fonctionne que si tous les fichiers sont sous le même répertoire. Si nous avons plusieurs fichiers dans différents répertoires, le seul moyen de les lire en parallèle - est uniquement en tant que fichier texte



1
votes

Une solution pour pyspark: xxx


0 commentaires

2
votes

fonction json (chemins: chaîne *) code> prend des arguments variables. ( Documentation )

Vous pouvez donc modifier votre code comme celui-ci: P>

sc.read.json(file1, file2, ...)


0 commentaires