Questions et réponses pour le pyspark :

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

2
votes
>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] >>> rdd.repartition(3).glom().collect() [[], [0, 1, 2, 3, 4], [5, 6, ...

1
votes
J'ai un dataframe et j'ai besoin de voir s'il contient des valeurs nulles. Il existe de nombreux articles sur le même sujet, mais presque tous utilisent l'action count ou la m ...

1
votes
Chaque ligne de mon dataframe a un contenu CSV. Je m'efforce d'enregistrer chaque ligne dans une table différente et spécifique. Je pense que je dois utiliser un foreach ...

1
votes
J'essaie de résoudre un problème avec pyspark, J'ai un ensemble de données tel que: Condition | Date | Lag 0 | 2019/01/10 | NaN 1 | 2019/01/11 | NaN 0 | 2019/01/ ...