Questions et réponses pour le pyspark :
L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.
2
votes
Comment calculer la médiane par ligne dans un Spark DataFrame
J'ai un bloc de données Spark au format suivant. df = spark.createDataFrame([(1, 2, 3), (1, 4, 100), (20, 30, 50)],['a', 'b', 'c']) df.show() Entrée: ...
apache-spark
pyspark
apache-spark-sql
0 commentaire(s)
2
votes
Je dois ajouter uniquement ceux qui ont des valeurs non nulles dans pyspark dataframe
J'ai le dataframe pyspark (df) ayant ci-dessous un exemple de tableau (table1): id, col1, col2, col3 1, abc, null, def 2, nul, def, abc 3, def, abc, null J'essaie d'obtenir une ...
python
arrays
pyspark
apache-spark-sql
pyspark-sql
1 commentaire(s)
2
votes
Comment supprimer une sous-chaîne de caractères d'une colonne PySpark Dataframe StringType (), conditionnellement en fonction de la longueur des chaînes dans les colonnes?
J'ai un Dataframe PySpark avec une colonne StringType () qui contient principalement 15 caractères. Cependant, certaines lignes comportent 11 caractères. Exemple: df.withColumn( ...
python
regex
pyspark
apache-spark-sql
0 commentaire(s)
2
votes
requête SQL pyspark: compter les valeurs distinctes avec des conditions
J'ai un dataframe comme ci-dessous: dataframe.groupBy(col("id_doctor")) .agg( countDistinct(col("id_patient")).where(col("type_drug") == "bhd" & col("consumption") < ...
sql
pyspark
3 commentaire(s)
<<
<
5
6
7
8
9
>
>>