Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

4
votes

Comment compresser deux colonnes de tableau dans Spark SQL

J'ai un dataframe Pandas. J'ai essayé de joindre d'abord deux colonnes contenant des valeurs de chaîne dans une liste, puis en utilisant zip, j'ai joint chaque élément d ...

python apache-spark pandas pyspark apache-spark-sql

5 commentaire(s)

4
votes

Comment obtenir la valeur de l'emplacement d'une table Hive à l'aide d'un objet Spark?

Je souhaite pouvoir récupérer la valeur location d'une table Hive à partir d'un objet Spark (SparkSession). Une façon d'obtenir cette valeur consiste ...

apache-spark apache-spark-sql hive

0 commentaire(s)

3
votes

Pyspark UDF pour renvoyer un résultat similaire à groupby (). Sum () entre deux colonnes

J'ai l'exemple de dataframe suivant +---+----+--------------------+-------------+-------------------------+ | ID|name| fruit| qty| Result| +---+----+- ...

apache-spark pyspark apache-spark-sql

5 commentaire(s)

3
votes

Spark Dataframe: sélectionnez des lignes distinctes

J'ai essayé deux méthodes pour trouver des rangées distinctes dans le parquet, mais cela ne semble pas fonctionner. Attemp 1: Dataset df = ...

java apache-spark sql dataframe apache-spark-sql

0 commentaire(s)

<< < 1 2 3 4 5 > >>