Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

8
votes
Je divise une demande HTTP à regarder les éléments et je me demandais s'il y avait un moyen de spécifier l'élément que j'aimerais examiner dans le mê ...

6
votes
En supposant que nous avons un cluster sain et pour le cas d'utilisation, nous avons Deux jeux de données avec 1 billlion + enregistrements ...