-1
votes

Pyspark: Comment saisir un fichier texte tel qu'il soit divisé par FullStop

Lorsque je charge un fichier texte dans une RDD, il est par défaut par défaut par chaque ligne. Par exemple, envisagez le texte suivant:

>>> RDD.count()
    3
>>> RDD.collect()
    ['Lorem Ipsum is simply dummy text of the printing and typesetting industry.', 'Lorem Ipsum 
    has been the industry's standard dummy text ever since the 1500s.', 'When an unknown
    printer took a galley of type and scrambled it to make a type specimen book and publish it.']

apache-spark pyspark

2 commentaires

Essayez avec option ("multiligne", "vrai")

@dassum, cela fonctionne pour les données de données. Vous ne pouvez pas vraiment spécifier des options à la méthode de la TextFile de RDD

3 Réponses :

0
votes

J'ai eu ma réponse dans l'une des réponses ici écrit par chanteur . La réponse se passe comme suit:

rdd = sc.newAPIHadoopFile(YOUR_FILE, "org.apache.hadoop.mapreduce.lib.input.TextInputFormat",
            "org.apache.hadoop.io.LongWritable", "org.apache.hadoop.io.Text",
            conf={"textinputformat.record.delimiter": YOUR_DELIMITER}).map(lambda l:l[1])

0 commentaires

0
votes

Méthode TextFile de RDD utilise en interne Hadoop's TextIntPormat pour lire les fichiers texte. La touche par défaut, la paire de valeurs se traduit par le décalage d'enregistrement et l'enregistrement complet avec le délimiteur par défaut comme "\ n" Le moyen facile de passer à travers cela est de lire dans le fichier en tant que méthode CSV de Dataframe spécifiant le délimiteur comme "". Comme ci-dessous:

 val conf = new org.apache.hadoop.conf.Configuration
 conf.set("textinputformat.record.delimiter", "\u002E")
 sc.textFile.newAPIHadoopFile(file-path, 
     classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
     classOf[org.apache.hadoop.io.LongWritable],
     classOf[org.apache.hadoop.io.Text],
     conf).count()

0 commentaires

0
votes

in Scala Nous pouvons faire collect () + .mkstring pour créer une chaîne puis diviser sur .

Exemple: xxx

1 commentaires Une belle tour. Mais quelle est la réalisabilité de cela pour un fichier énorme. Collecter () est un gros fardeau.

Articles qui pourrait vous intéresser : Comment obtenir des lots de lignes de Spark à l'aide de pyspark PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle