Questions et réponses pour le pyspark :

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

2
votes
J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

1
votes
J'ai un dataframe pyspark comme celui-ci:| id | cat | --------------------------- | 1 | a -> 1, b -> 1 | | 2 | b -> 2, c -> 1 | | 3 | a -> 3 ...

3
votes
Comme la question le suggère, j'ai une liste de chemins s3 dans une listedf = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths) J'utilise P ...

1
votes
J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...