Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes
J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

3
votes
Comme la question le suggère, j'ai une liste de chemins s3 dans une listedf = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths) J'utilise P ...

1
votes
J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...

0
votes
Je veux filtrer toutes les colonnes avec des valeurs manquantes supérieures à 90 PCT dans Spark afin que je puisse les supprimer de l'analyse. J'ai essayé le code suivant, m ...