Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

6
votes
En supposant que nous avons un cluster sain et pour le cas d'utilisation, nous avons Deux jeux de données avec 1 billlion + enregistrements ...

6
votes
Je suis exécutant un travail d'étincelle sur EMR et en utilisant DataStax Connector pour vous connecter au cluster Cassandra. Je suis confronté à des problèmes a ...

6
votes
J'utilise une étincelle pour créer un prototype de système de recommandation. Après avoir traversé certains tutoriels, j'ai pu former un MatrixFactorizati ...

6
votes
J'ai cherché une solution pendant une longue période mais n'a pas eu d'algorithme correct. Utiliser Spark RDDs dans Scala, comment puis-je transformer un RDD [(clé, ...