-1
votes

Est-il prudent de définir des transformations d'étincelles dans une fonction et de retourner un nouveau Dataframe à Bigdata?

J'ai un dataframe df1 . Je prévois de la diviser en deux dataframes - df2 et df3 . Le flux de code existant a presque la même séquence de transformations. Je tiens donc à définir tous ces groupes de transformations dans une fonction qui accepte un fichier de données et que ces transformations et renvoie le Dataframe transformé.

Il est donc prudent d'aller avec une telle approche (en particulier, avec BigData) ou de répéter simplement les mêmes transformations de séquence deux fois pour les deux dataframes DF2 et df3 ( Cela augmenterait le code)?


                        
                        
                            
                                                                    apache-spark
                                                                    scala
                                                            
                        
                                                    
                            
                            
                                2 commentaires
                                
                                                                            Postez le code que vous essayez de voir s'il y a quelque chose de weir ..
                                        
                                                                            @ Émicareofcell44 non, rien de bizarre dans mon code, donc aucun code dans cette question. Je voulais juste demander un doute conceptuel que je n'étais pas au courant. C'est ça.



                                    
                    3 Réponses :
                    
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Si je comprends bien, cela convient à définir une méthode qui regrouper plusieurs méthodes, vous voudrez peut-être être intéressée par la méthode  andthen  pour effacer le code si vous devez appliquer beaucoup de méthodes < / p>

  https://www.scala-lang.org/api /Current/scala/function1.html                                  


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Vous pouvez utiliser la méthode  .transform ()  code>. 
 Il existe dans API de Dataframe avec la signature suivante:  P> 
val mytransformation:DataFrame => DataFrame = inputDF => {  
  // val ouputDF = inputDF.map(...).filter(...)
  outputDF 
}

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Il n'y a pas de problème et cela n'affecterait pas votre performance de toute façon. Spark n'exécute pas votre code directement. Il génère un plan basé sur les transformations que vous définissez. Celles-ci seraient les mêmes si vous les faites dans une fonction ou dupliquer votre code                                 

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Comment obtenir des lots de lignes de Spark à l'aide de pyspark                        
                        
                                            
                            PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe                        
                        
                                            
                            Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac                        
                        
                                            
                            Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle