Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

0
votes

Pourquoi «avec Column» prend-il si longtemps dans Pyspark?

J'ai un Dataframe de Pyspark contenant 1000 colonnes et 10 000 enregistrements (rangées). Je dois créer 2000 plus de colonnes, en effectuant un certain calcul sur les colonnes exista ...

python apache-spark pyspark apache-spark-sql azure-databricks

0 commentaire(s)

0
votes

Compte tenu d'une liste de chaînes, comment puis-je vérifier si ces chaînes sont dans une liste de Scala?

J'ai une liste de mots-clés xxx j'ai dataframe xxx je veux généreraframe < Strong> Drapeau ...

apache-spark dataframe scala apache-spark-sql

2 commentaire(s)

0
votes

Comment copier la "première" ligne d'un cadre de données d'étincelles à un autre cadre de données? Pourquoi mon exemple minimal échoue-t-il?

Problème de base: Je veux copier la "première ligne" d'un Spark Dataframe sdf à une autre Spark Dataframe sdfempty . ...

apache-spark scala pyspark apache-spark-sql

2 commentaire(s)

0
votes

Filtrer une étincelle Dataframe avec un plus grand que et moins que la liste des dates

J'ai un dataframe code> avec les champs de_date code> et to_date code>: xxx pré> et une liste de DATES P> spark.sql("select * fro ...

apache-spark dataframe scala apache-spark-sql

2 commentaire(s)

<< < 8 9 10 11 12 > >>