Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes
>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] >>> rdd.repartition(3).glom().collect() [[], [0, 1, 2, 3, 4], [5, 6, ...

2
votes
J'essaie de me connecter depuis Spark (fonctionnant sur mon PC) à mon compartiment S3: sc.hadoopConfiguration.set("fs.s3a.endpoint", "s3.eu-central-1.amazonaws.com") Mais j'o ...

2
votes
J'ai trois colonnes dans mon bloc de données. Dans ce deuxième et troisième sont des champs booléens. Je veux filtrer les valeurs qui sont vraies. J'ai essayé ce ...

2
votes
J'ai 2 grands ensembles de données. Le premier ensemble de données contient environ 130 millions d'entrées. Le deuxième ensemble de données contient environ ...