Questions et réponses pour le pyspark :

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

2
votes

Comment obtenir des lots de lignes de Spark à l'aide de pyspark

J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

python apache-spark pyspark rdd

4 commentaire(s)

1
votes

Comment collecter une carte après groupe par dans Pyspark Dataframe?

J'ai un dataframe pyspark comme celui-ci:| id | cat | --------------------------- | 1 | a -> 1, b -> 1 | | 2 | b -> 2, c -> 1 | | 3 | a -> 3 ...

pyspark group-by

0 commentaire(s)

3
votes

PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe

Comme la question le suggère, j'ai une liste de chemins s3 dans une listedf = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths) J'utilise P ...

apache-spark pyspark databricks

2 commentaire(s)

1
votes

Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac

J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...

macos java apache-spark pyspark apache-spark-sql

0 commentaire(s)

1 2 3 4 5 > >>