Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

8
votes
J'utilise le fichier de configuration conformément aux guides Configurer Spark ...

6
votes
J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd df = pd.read_parquet("path/myfile.parquet", engine="pyarrow") ...

6
votes
J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...

6
votes
Dans l'API Apache Spark, je peux utiliser la fonction startsWith afin de tester la valeur de la colonne: myDataFrame.filter(col("columnName").startsWith("PREFIX")) Es ...