Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes

Pourquoi la répartition du Spark n'a pas équilibré les données en partitions?

>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] >>> rdd.repartition(3).glom().collect() [[], [0, 1, 2, 3, 4], [5, 6, ...

apache-spark pyspark rdd

1 commentaire(s)

2
votes

Impossible de se connecter de Spark à S3 - Code d'état AmazonS3Exception: 400

J'essaie de me connecter depuis Spark (fonctionnant sur mon PC) à mon compartiment S3: sc.hadoopConfiguration.set("fs.s3a.endpoint", "s3.eu-central-1.amazonaws.com") Mais j'o ...

apache-spark amazon-web-services hadoop scala amazon-s3

1 commentaire(s)

2
votes

comment filtrer les champs booléens dans spark dataframe?

J'ai trois colonnes dans mon bloc de données. Dans ce deuxième et troisième sont des champs booléens. Je veux filtrer les valeurs qui sont vraies. J'ai essayé ce ...

apache-spark hadoop scala

0 commentaire(s)

2
votes

Jointure croisée entre deux grands ensembles de données dans Spark

J'ai 2 grands ensembles de données. Le premier ensemble de données contient environ 130 millions d'entrées. Le deuxième ensemble de données contient environ ...

apache-spark scala apache-spark-sql

5 commentaire(s)

<< < 10 11 12 13 14 > >>