Questions et réponses pour le rdd :

Les RDD (Resilient Distributed Datasets) sont une abstraction de mémoire distribuée qui permet aux programmeurs d'effectuer des calculs en mémoire sur de grands clusters tout en conservant la tolérance aux pannes des modèles de flux de données comme MapReduce.

-1
votes
Je suis nouveau à Pyspark et jusqu'à présent, il est un peu difficile de comprendre la façon dont cela fonctionne spécialement lorsque vous utilisez des biblioth ...

6
votes
J'ai cherché une solution pendant une longue période mais n'a pas eu d'algorithme correct. Utiliser Spark RDDs dans Scala, comment puis-je transformer un RDD [(clé, ...