Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

8
votes

Paramètres par défaut de l'étincelle de conf EMR

J'utilise le fichier de configuration conformément aux guides Configurer Spark ...

apache-spark amazon-web-services configuration amazon-emr

3 commentaire(s)

6
votes

Les pandas ne peuvent pas lire les fichiers de parquet créés dans PySpark

J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd df = pd.read_parquet("path/myfile.parquet", engine="pyarrow") ...

python apache-spark pandas pyspark parquet

0 commentaire(s)

6
votes

PySpark timeout essayant de repartitionner / écrire sur le parquet (Futures expiré après [300 secondes])?

J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...

apache-spark aws-glue pyspark apache-spark-sql

0 commentaire(s)

6
votes

Apache Spark démarre avec une expression SQL

Dans l'API Apache Spark, je peux utiliser la fonction startsWith afin de tester la valeur de la colonne: myDataFrame.filter(col("columnName").startsWith("PREFIX")) Es ...

apache-spark scala apache-spark-sql

0 commentaire(s)

<< < 1 2 3 4 5 > >>