Questions et réponses pour le pyspark :

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

0
votes

Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle

Je veux filtrer toutes les colonnes avec des valeurs manquantes supérieures à 90 PCT dans Spark afin que je puisse les supprimer de l'analyse. J'ai essayé le code suivant, m ...

python apache-spark pyspark

0 commentaire(s)

9
votes

Pyspark: la tâche sérialisée dépasse le maximum autorisé. Envisagez d'augmenter spark.rpc.message.maxSize ou d'utiliser des variables de diffusion pour les grandes valeurs

Je fais des calculs sur un cluster et à la fin quand je demande des statistiques récapitulatives sur mon dataframe Spark avec df.describe (). show () j'obtiens une erreur: La t&a ...

dataframe message pyspark rpc max-size

1 commentaire(s)

6
votes

Les pandas ne peuvent pas lire les fichiers de parquet créés dans PySpark

J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd df = pd.read_parquet("path/myfile.parquet", engine="pyarrow") ...

python apache-spark pandas pyspark parquet

0 commentaire(s)

6
votes

PySpark timeout essayant de repartitionner / écrire sur le parquet (Futures expiré après [300 secondes])?

J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...

apache-spark aws-glue pyspark apache-spark-sql

0 commentaire(s)

<< < 1 2 3 4 5 > >>