Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes

Comment obtenir des lots de lignes de Spark à l'aide de pyspark

J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

python apache-spark pyspark rdd

4 commentaire(s)

3
votes

PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe

Comme la question le suggère, j'ai une liste de chemins s3 dans une listedf = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths) J'utilise P ...

apache-spark pyspark databricks

2 commentaire(s)

1
votes

Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac

J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...

macos java apache-spark pyspark apache-spark-sql

0 commentaire(s)

0
votes

Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle

Je veux filtrer toutes les colonnes avec des valeurs manquantes supérieures à 90 PCT dans Spark afin que je puisse les supprimer de l'analyse. J'ai essayé le code suivant, m ...

python apache-spark pyspark

0 commentaire(s)

1 2 3 4 5 > >>