Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes

Comment créer une table de ruche gérée avec un emplacement spécifié via Spark SQL?

Je souhaite créer une table gérée avec un emplacement sur AWS S3 via spark sql, mais si je spécifie l'emplacement, cela crée une table EXTERNAL même si je ...

apache-spark amazon-s3 apache-spark-sql hive

1 commentaire(s)

1
votes

Joindre 2 DataFrame basé sur la recherche dans une colonne de collections - Spark, Scala

J'ai 2 dataframes comme ci-dessous, val x = Seq((Seq(4,5),"XXX"),(Seq(7),"XYX")).toDF("X","NAME") val y = Seq((5)).toDF("Y") Je veux joindre les deux dataframes en recherchant la v ...

apache-spark scala apache-spark-sql left-join

0 commentaire(s)

1
votes

Créer un nouvel ensemble de données à l'aide de l'ensemble de données existant en ajoutant une colonne nulle entre deux colonnes

J'ai créé un ensemble de données dans Spark en utilisant Java en lisant un fichier csv. Voici mon ensemble de données initial: +---+-----+ |_c0| _c2| +---+-----+ ...

java apache-spark apache-spark-sql

0 commentaire(s)

1
votes

Spark [Scala]: vérifier si toutes les lignes d'un DataFrame plus petit existent dans le DataFrame plus grand

J'ai deux DataFrames, avec le même schéma (mais +100 colonnes): Petite taille: 1 000 lignes Taille plus grande: 90000 lignes Comment v&eacu ...

apache-spark scala

3 commentaire(s)

<< < 14 15 16 17 18 > >>