Questions et réponses pour le rdd :

Les RDD (Resilient Distributed Datasets) sont une abstraction de mémoire distribuée qui permet aux programmeurs d'effectuer des calculs en mémoire sur de grands clusters tout en conservant la tolérance aux pannes des modèles de flux de données comme MapReduce.

2
votes

Comment obtenir des lots de lignes de Spark à l'aide de pyspark

J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

python apache-spark pyspark rdd

4 commentaire(s)

2
votes

Pourquoi la répartition du Spark n'a pas équilibré les données en partitions?

>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] >>> rdd.repartition(3).glom().collect() [[], [0, 1, 2, 3, 4], [5, 6, ...

apache-spark pyspark rdd

1 commentaire(s)

0
votes

Manipulation de la table d'allumage - Valeurs de colonne aux lignes et valeurs de ligne transposées

J'ai le jeu de données suivant ...

apache-spark rdd apache-spark-sql dataset

0 commentaire(s)

0
votes

Transformation et action scala

J'ai une liste RDD [(chaîne, liste [int])] comme liste (("a", liste (1,2,3,4)), ("B", liste (5,6,7 ))))) Comment les transformer en liste (("A", 1), ("A", 2), ("A", 3), ("A", 4), ...

apache-spark scala rdd

1 commentaire(s)

1 2 > >>