Questions et réponses pour le pyspark :

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

0
votes
Je veux filtrer toutes les colonnes avec des valeurs manquantes supérieures à 90 PCT dans Spark afin que je puisse les supprimer de l'analyse. J'ai essayé le code suivant, m ...

9
votes
Je fais des calculs sur un cluster et à la fin quand je demande des statistiques récapitulatives sur mon dataframe Spark avec df.describe (). show () j'obtiens une erreur: La t&a ...

6
votes
J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd df = pd.read_parquet("path/myfile.parquet", engine="pyarrow") ...

6
votes
J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...