Je veux filtrer toutes les colonnes avec des valeurs manquantes supérieures à 90 PCT dans Spark afin que je puisse les supprimer de l'analyse. J'ai essayé le code suivant, m ...
Je fais des calculs sur un cluster et à la fin quand je demande des statistiques récapitulatives sur mon dataframe Spark avec df.describe (). show () j'obtiens une erreur: La t&a ...
J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd
df = pd.read_parquet("path/myfile.parquet", engine="pyarrow")
...
J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...