Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes
Je souhaite créer une table gérée avec un emplacement sur AWS S3 via spark sql, mais si je spécifie l'emplacement, cela crée une table EXTERNAL même si je ...

1
votes
J'ai 2 dataframes comme ci-dessous, val x = Seq((Seq(4,5),"XXX"),(Seq(7),"XYX")).toDF("X","NAME") val y = Seq((5)).toDF("Y") Je veux joindre les deux dataframes en recherchant la v ...

1
votes
J'ai créé un ensemble de données dans Spark en utilisant Java en lisant un fichier csv. Voici mon ensemble de données initial: +---+-----+ |_c0| _c2| +---+-----+ ...

1
votes
J'ai deux DataFrames, avec le même schéma (mais +100 colonnes): Petite taille: 1 000 lignes Taille plus grande: 90000 lignes Comment v&eacu ...