Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes
Il existe de nombreuses questions similaires à celle-ci qui posent une question différente en ce qui concerne éviter les colonnes en double dans une jointure ...

1
votes
J'ai le cadre de données d'entrée au format désagréable suivant: (input_df .withColumn('splits', F.split(F.col('data'), ';')) .drop('data') ).show() # +-- ...

1
votes
Bonjour, j'essaie de lire la configuration de mon fichier de configuration dans spark / scala . J'ai écrit le code ci-dessous. Exception in thread "main" com.type ...

1
votes
J'ai un RDD avec un grand nombre d'entrées KeyVal. La même clé sera présente plusieurs fois et je suis intéressé par l'extraction des N premières en ...