Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

1
votes
J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...

6
votes
J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...

6
votes
Dans l'API Apache Spark, je peux utiliser la fonction startsWith afin de tester la valeur de la colonne: myDataFrame.filter(col("columnName").startsWith("PREFIX")) Es ...

4
votes
Quelle est la bonne façon de spécifier l'intervalle de fenêtre dans Spark SQL, en utilisant deux limites prédéfinies? J'essaie de résumer les valeurs d ...