Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

8
votes

Sélectionnez l'élément Array de Spark DataFrames Méthode Split dans le même appel?

Je divise une demande HTTP à regarder les éléments et je me demandais s'il y avait un moyen de spécifier l'élément que j'aimerais examiner dans le mê ...

python apache-spark pyspark apache-spark-sql

0 commentaire(s)

6
votes

Performance des jointures dans Spark-SQL

En supposant que nous avons un cluster sain et pour le cas d'utilisation, nous avons Deux jeux de données avec 1 billlion + enregistrements ...

apache-spark apache-spark-sql

6 commentaire(s)

<< < 9 10 11 12 13