0
votes

Erreur de Pyspark: "Une erreur s'est produite lors de l'appelant O31.ParsedAtype"

J'essaie de charger le fichier .gz avec pyspark, mais obtenir cette erreur. Mon code Python est le suivant: xxx

Le fichier est stocké comme suit: xxx

On dirait que cela se plaint de la défaillance de la chaîne JSON à une donnée Tapez, pas sûr qu'il soit lié au type de fichier ou non?

L'erreur complète: xxx

pyspark pyspark-sql

0 commentaires

3 Réponses :

0
votes

En cas d'intéressé, j'avais la même erreur et le problème était que l'un des fichiers que je lisais n'a pas respecté le schéma. L'inadéquation était causée par une colonne dans un ordre différent. L'erreur de pyspark n'est pas très utile, mais vous pouvez enregistrer dans le journal d'étincelles. Le mien était Ike ceci: xxx

0 commentaires

-1
votes

Le problème est résolu par

raw_daily = spark.read.format("csv").option("header", "true").load("hdfs:///data/ghcnd/daily/1800.csv.gz")

0 commentaires

0
votes

Anne, je vois que vous avez utilisé la façon Scala de lire le schéma. Je suis sûr qu'il y a d'autres développeurs qui font face à la même erreur, c'est pourquoi j'ai décidé de répondre à cette question même si c'est une ancienne question. Un autre problème est que vous avez un DateType () dans votre schéma, mais vous n'avez pas donné de format lorsque vous chargez les données.

spark.read.option('dateFormat', ' <the format of your date> ').csv(
    header=True,
    schema=schema_daily
)

0 commentaires