Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes

Comment supprimer une colonne ambiguë dans pyspark?

Il existe de nombreuses questions similaires à celle-ci qui posent une question différente en ce qui concerne éviter les colonnes en double dans une jointure ...

apache-spark pyspark apache-spark-sql

0 commentaire(s)

1
votes

Recherche d'un inverse de arrays_zip de pyspark

J'ai le cadre de données d'entrée au format désagréable suivant: (input_df .withColumn('splits', F.split(F.col('data'), ';')) .drop('data') ).show() # +-- ...

python apache-spark pyspark pyspark-dataframes

0 commentaire(s)

1
votes

Aucune configuration trouvée pour la clé lors de la lecture du fichier de configuration dans spark / Scala

Bonjour, j'essaie de lire la configuration de mon fichier de configuration dans spark / scala . J'ai écrit le code ci-dessous. Exception in thread "main" com.type ...

apache-spark scala

1 commentaire(s)

1
votes

Collecte des N premières entrées pour chaque clé dans KeyVal RDD dans PySpark

J'ai un RDD avec un grand nombre d'entrées KeyVal. La même clé sera présente plusieurs fois et je suis intéressé par l'extraction des N premières en ...

python apache-spark pyspark

1 commentaire(s)

<< < 17 18 19 20 21 > >>