Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

11
votes

Parallèle / éviter la boucle de la boucle

J'ai écrit une classe qui obtient un Dataframe, certains calculs sur elle et peuvent exporter les résultats. Les dataframes sont générés par une liste de cl&eacu ...

apache-spark foreach dataframe scala

1 commentaire(s)

11
votes

L'accumulateur échoue sur le cluster, fonctionne localement

Dans la documentation officielle Spark, il existe un exemple pour un accumulateur utilisé dans un appel pour Acheach qui est directement sur un RDD: xxx ...

apache-spark mapreduce scala

8 commentaire(s)

11
votes

Comment décider du nombre de partitions requises pour la taille des données de saisie et des ressources de grappes?

mon cas d'utilisation comme mentionné ci-dessous. Lire les données d'entrée du système de fichiers local à l'aide de SparkContext.TextFile (chem ...

apache-spark hadoop

0 commentaire(s)

10
votes

Classe de Kafkautils non trouvée dans Spark Streaming

Je viens de commencer avec Spark Streaming et j'essaie de construire une application d'exemple qui compte les mots d'un flux de Kafka. Bien qu'il compile avec le package SBT code>, lors ...

apache-spark apache-kafka sbt

0 commentaire(s)

<< < 31 32 33 34 35 > >>