Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

10
votes

Comment définir les noms de colonnes sur la fonction Todf () dans Spark Dataframe à l'aide d'un tableau de chaîne?

Par exemple, val columns=Array("column1", "column2", "column3") val df=sc.parallelize(Seq( (1,"example1", Seq(0,2,5)), (2,"example2", Seq(1,20,5)))).toDF(columns) ...

apache-spark scala

0 commentaire(s)

9
votes

Spark Worker Memory

J'ai configuré une étincelle (1.6) cluster autonome. Avoir 1 maître et ajouté 3 machines sous le fichier Conf / Slaves en tant que travailleurs. Même si j'ai allou ...

apache-spark

0 commentaire(s)

8
votes

Sélectionnez l'élément Array de Spark DataFrames Méthode Split dans le même appel?

Je divise une demande HTTP à regarder les éléments et je me demandais s'il y avait un moyen de spécifier l'élément que j'aimerais examiner dans le mê ...

python apache-spark pyspark apache-spark-sql

0 commentaire(s)

7
votes

Meilleure approche de Cassandra (+ Spark?) Pour des requêtes continues?

Nous utilisons actuellement Hazelcast ( http://hazelcast.org/ ) en tant que réseau de données en mémoire distribué. Cela a bien fonc ...

apache-spark cassandra events cassandra-2.0

2 commentaire(s)

<< < 32 33 34 35 36 > >>