Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

1
votes

Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac

J'essaie d'exécuter l'application Spark en mode autonome, après avoir installé l'étincelle lorsque j'ai essayé d'exécuter la commande spark-submit, j'ai tr ...

macos java apache-spark pyspark apache-spark-sql

0 commentaire(s)

6
votes

PySpark timeout essayant de repartitionner / écrire sur le parquet (Futures expiré après [300 secondes])?

J'utilise PySpark (sur AWS Glue, si cela compte). J'obtiens des erreurs de temporisation: (il semble que l'écriture sur le parquet échoue) Les journaux complets sur ...

apache-spark aws-glue pyspark apache-spark-sql

0 commentaire(s)

6
votes

Apache Spark démarre avec une expression SQL

Dans l'API Apache Spark, je peux utiliser la fonction startsWith afin de tester la valeur de la colonne: myDataFrame.filter(col("columnName").startsWith("PREFIX")) Es ...

apache-spark scala apache-spark-sql

0 commentaire(s)

4
votes

Spark SQL Window sur un intervalle entre deux limites de temps spécifiées - il y a entre 3 heures et 2 heures

Quelle est la bonne façon de spécifier l'intervalle de fenêtre dans Spark SQL, en utilisant deux limites prédéfinies? J'essaie de résumer les valeurs d ...

apache-spark window-functions apache-spark-sql

2 commentaire(s)

1 2 3 4 5 > >>