7
votes

Lire plusieurs fichiers JSON de Spark

J'ai une liste de fichiers JSON que je voudrais charger en parallèle.

Je ne peux pas utiliser lis.json ("*") Cause Les fichiers ne sont pas dans le même dossier et il n'y a pas de modèle spécifique que je ne puisse mettre en œuvre.

J'ai essayé sc.parallealize (fichier de filiste) (hivecontext.read.json) mais le contexte de la ruche, comme prévu, n'existe pas dans l'exécuteur exécutante.

Des idées?


                        
                        
                            
                                                                    apache-spark
                                                            
                        
                                                    
                            
                            
                                0 commentaires



                                    
                    4 Réponses :
                    
                                            
                            
                                
                                    5
 votes
                                
                            
                            
                                
                                     On dirait que j'ai trouvé la solution:  xxx                                  

                                                                    
                                    
                                    
                                        2 commentaires
                                        
                                                                                            
                                                    Il accepte plusieurs fichiers aussi - sqlcontext.read.json (fichier1, fichier2)                                                
                                                
                                                                                            
                                                    Erreur: TypeError: l'objet 'Property' n'est pas appelable                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Aussi, vous pouvez spécifier le répertoire sous forme de paramètre:  xxx                                  

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Oui, mais cela ne fonctionne que si tous les fichiers sont sous le même répertoire. Si nous avons plusieurs fichiers dans différents répertoires, le seul moyen de les lire en parallèle - est uniquement en tant que fichier texte                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Une solution pour pyspark:  xxx                                  

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     fonction  json (chemins: chaîne *)  code> prend des arguments variables. ( Documentation ) 
 Vous pouvez donc modifier votre code comme celui-ci:  P> 
sc.read.json(file1, file2, ...)

                                

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Comment obtenir des lots de lignes de Spark à l'aide de pyspark                        
                        
                                            
                            PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe                        
                        
                                            
                            Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac                        
                        
                                            
                            Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle