Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

1
votes

Joindre 2 DataFrame basé sur la recherche dans une colonne de collections - Spark, Scala

J'ai 2 dataframes comme ci-dessous, val x = Seq((Seq(4,5),"XXX"),(Seq(7),"XYX")).toDF("X","NAME") val y = Seq((5)).toDF("Y") Je veux joindre les deux dataframes en recherchant la v ...

apache-spark scala apache-spark-sql left-join

0 commentaire(s)

1
votes

Créer un nouvel ensemble de données à l'aide de l'ensemble de données existant en ajoutant une colonne nulle entre deux colonnes

J'ai créé un ensemble de données dans Spark en utilisant Java en lisant un fichier csv. Voici mon ensemble de données initial: +---+-----+ |_c0| _c2| +---+-----+ ...

java apache-spark apache-spark-sql

0 commentaire(s)

1
votes

INSÉRER les données de la trame de données Spark dans une table dans SQL Server

J'utilise Scala Notebook sur Databricks. J'ai besoin d'effectuer un INSERT de données à partir d'un dataframe vers une table dans le serveur SQL. Si les données existent d&eac ...

sql-server scala databricks apache-spark-sql

0 commentaire(s)

1
votes

Transformer les colonnes dans Spark DataFrame en fonction de la carte sans utiliser les UDF

Je voudrais transformer certaines colonnes de mon dataframe en fonction de la configuration représentée par les cartes Scala. J'ai 2 cas: Réception d'une car ...

apache-spark apache-spark-sql

6 commentaire(s)

<< < 5 6 7 8 9 > >>