0
votes

Comment déposer la première rangée du fichier de parquet?

J'ai un fichier de parquet contenant deux colonnes (ID, fonctionnalité) .file est composé de 14348 rangées. Fichier Comment je dépose la première carte d'identification de la première rangée, la fonction de fichier

code xxx

résultat semble être sortie

apache-spark scala parquet

0 commentaires

3 Réponses :

0
votes

Si vous essayez de "ignorer" le schéma défini dans le fichier, il est implicitement effectué une fois que vous avez lu votre fichier, à l'aide de Spark comme: xxx

si vous n'essayez que de sauter La première ligne de votre df et si vous connaissez déjà l'identifiant , vous pouvez faire: val filtereddddddddddddddddddddddd = originaldf.filter (s "! = '$ {excluded } '") . Si vous ne connaissez pas l'identifiant, vous pouvez utiliser monotoniquement_incract_id_id pour étiqueter, puis filtrer, similaire à celui de: Filtre Spark Dataframe basé sur une valeur maximale d'une colonne



                                                                    
                                    
                                    
                                        2 commentaires
                                        
                                                                                            
                                                    Je dois abandonner la ligne de ne pas charger mes données uniquement.                                                
                                                
                                                                                            
                                                    Drop Row? Signification Supprimer du fichier DataSource?


                        
                                            
                            
                                
                                    -1
 votes
                                
                            
                            
                                
                                     J'utilise Spark  2.4.0 , et vous pouvez utiliser l'option d'en-tête   vers la  dataframereader  appel comme SO - 

  spark.read.format ("CSV"). Option ("" en-tête ", true) .charger ()   

 Référence pour les autres options pour  DataFramereader  sont  ici                                  


                                                                    
                                    
                                    
                                        5 commentaires
                                        
                                                                                            
                                                    Mais l'option de valeur d'erreur apparaît n'est pas un membre de l'org.apache.spark.sql.dataframe.                                                
                                                
                                                                                            
                                                    @SalmaElzeheiry - La variable  Spark  est de type  Sparksession . L'appel  spark.read  renvoie type  dataframereader .                                                

                                                
                                                                                            
                                                    Je fais cela, mais supprimer la deuxième ligne. RoW qui contiennent une pièce d'identité, la fonctionnalité d'apparition toujours.val df = sqlcontext.read.format ("Parquet") .charger ("Fichier: /// usr / local / SP Ark / Dataset / Modèle / da ta / user / part-r-00000 -7d55ba81-5761-4E36-b488-7E6214df2a68.sn appy.parquet ") Val Skitable_first_row = df.First () Val utile_rows = df.filter (rangée = > rangée! = Skitable_first_row) utile_Rows .Show () @Kevin Lawrence                                                
                                                
                                                                                            
                                                     ID  et  fonction  sont les en-têtes. Par exemple., Si vous faites  VAL DF = Spark.Read.Format ("CSV"). Option ("en-tête", vrai) .charger ()  et ensuite faire  df .Show (1)  Vous ne verrez pas 'id` et  fonction  - vous verrez la première ligne de vos données !!!! Et ce n'est pas  sqlcontext.read  - l'objet doit être une instance de  Sparksession !                                                

                                                
                                                                                            
                                                    Veuillez utiliser le  .OPTION ("Header", true)  - de votre commentaire précédent que vous ne l'avez pas utilisé. Merci.                                                

                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Vous devez déposer la première ligne basée sur ID si vous savez que, d'autres, optez pour l'approche d'indexation I.e., attribuant le numéro de ligne et supprimer la première ligne.                                 

                                                                    
                                    
                                    
                                        2 commentaires
                                        
                                                                                            
                                                    Plus de détails, s'il vous plaît. @ Ruthika Jawar                                                
                                                
                                                                                            
                                                    Si vous savez que l'identifiant dont la ligne doit être abandonnée, veuillez opter pour df = df.filter ("id" === environ) D'autre que vous devez affecter une colonne d'index avec numéro de ligne et supprimer la première ligne, puis supprimer la colonne Index. . Faites-moi savoir si vous connaissez la valeur d'identification ou que vous vouliez affecter une colonne d'index afin que je puisse vous aider davantage.

Articles qui pourrait vous intéresser : Comment obtenir des lots de lignes de Spark à l'aide de pyspark PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle