J'ai un fichier de parquet contenant deux colonnes (ID, fonctionnalité) .file est composé de 14348 rangées. Fichier Comment je dépose la première carte d'identification de la première rangée, la fonction de fichier
code p> résultat semble être sortie p> p>
3 Réponses :
Si vous essayez de "ignorer" le schéma défini dans le fichier, il est implicitement effectué une fois que vous avez lu votre fichier, à l'aide de Spark comme: si vous n'essayez que de sauter La première ligne de votre df code> et si vous connaissez déjà l'identifiant code> code>, vous pouvez faire:
val filtereddddddddddddddddddddddd = originaldf.filter (s "! = '$ {excluded } '") code>. Si vous ne connaissez pas l'identifiant, vous pouvez utiliser
monotoniquement_incract_id_id code> pour étiqueter, puis filtrer, similaire à celui de: Filtre Spark Dataframe basé sur une valeur maximale d'une colonne p> p>
Je dois abandonner la ligne de ne pas charger mes données uniquement.
Drop Row? Signification Supprimer du fichier DataSource?
J'utilise Spark Référence pour les autres options pour 2.4.0 CODE>, et vous pouvez utiliser l'option d'en-tête forte> vers la
dataframereader code> appel comme SO - P >
spark.read.format ("CSV"). Option ("" en-tête ", true) .charger (
DataFramereader CODE> sont ici p>
Mais l'option de valeur d'erreur apparaît n'est pas un membre de l'org.apache.spark.sql.dataframe.
@SalmaElzeheiry - La variable code> Spark Code> est de type Sparksession code>. L'appel
spark.read code> renvoie type
dataframereader code>.
Je fais cela, mais supprimer la deuxième ligne. RoW qui contiennent une pièce d'identité, la fonctionnalité d'apparition toujours.val df = sqlcontext.read.format ("Parquet") .charger ("Fichier: /// usr / local / SP Ark / Dataset / Modèle / da ta / user / part-r-00000 -7d55ba81-5761-4E36-b488-7E6214df2a68.sn appy.parquet ") Val Skitable_first_row = df.First () Val utile_rows = df.filter (rangée = > rangée! = Skitable_first_row) utile_Rows .Show () @Kevin Lawrence
ID code> et
fonction code> sont les en-têtes. Par exemple., Si vous faites
VAL DF = Spark.Read.Format ("CSV"). Option ("en-tête", vrai) .charger (
df .Show (1) code> Vous ne verrez pas 'id` et
fonction code> - vous verrez la première ligne de vos données !!!! Et ce n'est pas
sqlcontext.read code> - l'objet doit être une instance de
Sparksession code>!
Veuillez utiliser le .OPTION ("Header", true) CODE> - de votre commentaire précédent que vous ne l'avez pas utilisé. Merci.
Vous devez déposer la première ligne basée sur ID si vous savez que, d'autres, optez pour l'approche d'indexation I.e., attribuant le numéro de ligne et supprimer la première ligne. P>
Plus de détails, s'il vous plaît. @ Ruthika Jawar
Si vous savez que l'identifiant dont la ligne doit être abandonnée, veuillez opter pour df = df.filter ("id" === environ) D'autre que vous devez affecter une colonne d'index avec numéro de ligne et supprimer la première ligne, puis supprimer la colonne Index. . Faites-moi savoir si vous connaissez la valeur d'identification ou que vous vouliez affecter une colonne d'index afin que je puisse vous aider davantage.