Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

2
votes

Comment afficher mon nom de colonne existant à la place '_c0', '_c1', '_c2', '_c3', '_c4' dans la première ligne?

Cadre de données affichant _c0, _c1 à la place de mes noms de colonne d'origine dans la première ligne. je veux afficher le nom de ma colonne qui se trouve sur la pre ...

pyspark apache-spark-sql azure-databricks spark-notebook

2 commentaire(s)

2
votes

Convertir la chaîne de date en horodatage pour le tri avec une précision inférieure à la seconde

J'ai une colonne date dans un dataframe pySpark avec des dates au format suivant: df_new = df.withColumn( 'date1', F.to_timestamp("date", "yyyy-dd-MM'T'hh:mm:ss.s") ) ...

pyspark apache-spark-sql timestamp

0 commentaire(s)

2
votes

Comment calculer la médiane par ligne dans un Spark DataFrame

J'ai un bloc de données Spark au format suivant. df = spark.createDataFrame([(1, 2, 3), (1, 4, 100), (20, 30, 50)],['a', 'b', 'c']) df.show() Entrée: ...

apache-spark pyspark apache-spark-sql

0 commentaire(s)

2
votes

Je dois ajouter uniquement ceux qui ont des valeurs non nulles dans pyspark dataframe

J'ai le dataframe pyspark (df) ayant ci-dessous un exemple de tableau (table1): id, col1, col2, col3 1, abc, null, def 2, nul, def, abc 3, def, abc, null J'essaie d'obtenir une ...

python arrays pyspark apache-spark-sql pyspark-sql

1 commentaire(s)

<< < 1 2 3 4 5 > >>