Questions et réponses pour le rdd :

Les RDD (Resilient Distributed Datasets) sont une abstraction de mémoire distribuée qui permet aux programmeurs d'effectuer des calculs en mémoire sur de grands clusters tout en conservant la tolérance aux pannes des modèles de flux de données comme MapReduce.

2
votes
J'ai un RDD Spark de plus de 6 milliards de lignes de données que je souhaite utiliser pour entraîner un modèle d'apprentissage en profondeur, à l'aide de train_on_batch. ...

2
votes
>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] >>> rdd.repartition(3).glom().collect() [[], [0, 1, 2, 3, 4], [5, 6, ...


0
votes
J'ai une liste RDD [(chaîne, liste [int])] comme liste (("a", liste (1,2,3,4)), ("B", liste (5,6,7 ))))) Comment les transformer en liste (("A", 1), ("A", 2), ("A", 3), ("A", 4), ...