0
votes

Comment déposer la première rangée du fichier de parquet?

J'ai un fichier de parquet contenant deux colonnes (ID, fonctionnalité) .file est composé de 14348 rangées. Fichier Comment je dépose la première carte d'identification de la première rangée, la fonction de fichier

code xxx

résultat semble être sortie


0 commentaires

3 Réponses :


0
votes

Si vous essayez de "ignorer" le schéma défini dans le fichier, il est implicitement effectué une fois que vous avez lu votre fichier, à l'aide de Spark comme: xxx

si vous n'essayez que de sauter La première ligne de votre df et si vous connaissez déjà l'identifiant , vous pouvez faire: val filtereddddddddddddddddddddddd = originaldf.filter (s "! = '$ {excluded } '") . Si vous ne connaissez pas l'identifiant, vous pouvez utiliser monotoniquement_incract_id_id pour étiqueter, puis filtrer, similaire à celui de: Filtre Spark Dataframe basé sur une valeur maximale d'une colonne


2 commentaires

Je dois abandonner la ligne de ne pas charger mes données uniquement.


Drop Row? Signification Supprimer du fichier DataSource?



-1
votes

J'utilise Spark 2.4.0 , et vous pouvez utiliser l'option d'en-tête vers la dataframereader appel comme SO -

spark.read.format ("CSV"). Option ("" en-tête ", true) .charger ()

Référence pour les autres options pour DataFramereader sont ici


5 commentaires

Mais l'option de valeur d'erreur apparaît n'est pas un membre de l'org.apache.spark.sql.dataframe.


@SalmaElzeheiry - La variable Spark est de type Sparksession . L'appel spark.read renvoie type dataframereader .


Je fais cela, mais supprimer la deuxième ligne. RoW qui contiennent une pièce d'identité, la fonctionnalité d'apparition toujours.val df = sqlcontext.read.format ("Parquet") .charger ("Fichier: /// usr / local / SP Ark / Dataset / Modèle / da ta / user / part-r-00000 -7d55ba81-5761-4E36-b488-7E6214df2a68.sn appy.parquet ") Val Skitable_first_row = df.First () Val utile_rows = df.filter (rangée = > rangée! = Skitable_first_row) utile_Rows .Show () @Kevin Lawrence


ID et fonction sont les en-têtes. Par exemple., Si vous faites VAL DF = Spark.Read.Format ("CSV"). Option ("en-tête", vrai) .charger () et ensuite faire df .Show (1) Vous ne verrez pas 'id` et fonction - vous verrez la première ligne de vos données !!!! Et ce n'est pas sqlcontext.read - l'objet doit être une instance de Sparksession !


Veuillez utiliser le .OPTION ("Header", true) - de votre commentaire précédent que vous ne l'avez pas utilisé. Merci.



0
votes

Vous devez déposer la première ligne basée sur ID si vous savez que, d'autres, optez pour l'approche d'indexation I.e., attribuant le numéro de ligne et supprimer la première ligne.


2 commentaires

Plus de détails, s'il vous plaît. @ Ruthika Jawar


Si vous savez que l'identifiant dont la ligne doit être abandonnée, veuillez opter pour df = df.filter ("id" === environ) D'autre que vous devez affecter une colonne d'index avec numéro de ligne et supprimer la première ligne, puis supprimer la colonne Index. . Faites-moi savoir si vous connaissez la valeur d'identification ou que vous vouliez affecter une colonne d'index afin que je puisse vous aider davantage.