Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes
J'ai le dataframe ci-dessous et j'essaie d'obtenir la valeur 3097 en tant qu'int, par exemple le stocker dans une variable python pour le manipuler, le multiplier par un autre i ...

1
votes
code: [info] Here are other dependency conflicts that were resolved: [info] * javax.activation:activation:1.1.1 is selected over 1.1 [info] +- org.apache.commons:commons-email:1.4 ...

1
votes
Je veux accéder à s3 depuis spark, je ne veux pas configurer de clé secrète et d'accès, je veux y accéder en configurant le rôle IAM, j'ai donc suiv ...

1
votes
J'ai un RDD et je veux trouver des valeurs distinctes pour plusieurs colonnes. Exemple: Row (col1 = a, col2 = b, col3 = 1), Row ( col1 = b, col2 = 2, col3 = 10)), Row (col1 = a1 ...