Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

3
votes
J'essaie d'exécuter Spark sur Kubernetes, dans le but de traiter les données d'un cluster Hadoop Kerberisé. Mon application consiste en de simples transformations SparkSQL. Bi ...

3
votes
> J'essaye de calculer la formule X = false / (false + true) pour chaque card_scheme et j'obtiens toujours un dataframe à la fin. Je suis attend quelque chose ...

3
votes
J'ai un dataframe avec deux colonnes, une adresse et un nom de rue. df.withColumn("new col", col("street")\ .rlike(concat(lit('.*'),col('street_name'),col('.*))))\ .show(20,False) ...

3
votes
Je devais obtenir une valeur d'une carte à partir d'une valeur de colonne comme clé et créer une nouvelle colonne J'ai essayé ce qui suit val testMap = Map ...