J'essaie de charger le fichier .gz avec pyspark, mais obtenir cette erreur.
Mon code Python est le suivant: Le fichier est stocké comme suit: p> On dirait que cela se plaint de la défaillance de la chaîne JSON à une donnée Tapez, pas sûr qu'il soit lié au type de fichier ou non? p> L'erreur complète: p>
3 Réponses :
En cas d'intéressé, j'avais la même erreur et le problème était que l'un des fichiers que je lisais n'a pas respecté le schéma. L'inadéquation était causée par une colonne dans un ordre différent. L'erreur de pyspark n'est pas très utile, mais vous pouvez enregistrer dans le journal d'étincelles. Le mien était Ike ceci:
Le problème est résolu par
raw_daily = spark.read.format("csv").option("header", "true").load("hdfs:///data/ghcnd/daily/1800.csv.gz")
Anne, je vois que vous avez utilisé la façon Scala de lire le schéma. Je suis sûr qu'il y a d'autres développeurs qui font face à la même erreur, c'est pourquoi j'ai décidé de répondre à cette question même si c'est une ancienne question. Un autre problème est que vous avez un DateType () dans votre schéma, mais vous n'avez pas donné de format lorsque vous chargez les données.
spark.read.option('dateFormat', ' <the format of your date> ').csv( header=True, schema=schema_daily )