Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

3
votes

Lors de l'exécution de Spark sur Kubernetes pour accéder au cluster Hadoop kerberisé, comment résoudre une erreur «L'authentification SIMPLE n'est pas activée» sur les exécuteurs?

J'essaie d'exécuter Spark sur Kubernetes, dans le but de traiter les données d'un cluster Hadoop Kerberisé. Mon application consiste en de simples transformations SparkSQL. Bi ...

docker apache-spark kubernetes openshift kerberos

0 commentaire(s)

3
votes

Calculer les valeurs de deux dataframes dans PySpark

> J'essaye de calculer la formule X = false / (false + true) pour chaque card_scheme et j'obtiens toujours un dataframe à la fin. Je suis attend quelque chose ...

python apache-spark pyspark

0 commentaire(s)

3
votes

Modèle de recherche Pyspark dans une colonne de l'autre colonne

J'ai un dataframe avec deux colonnes, une adresse et un nom de rue. df.withColumn("new col", col("street")\ .rlike(concat(lit('.*'),col('street_name'),col('.*))))\ .show(20,False) ...

python apache-spark dataframe regex pyspark

0 commentaire(s)

3
votes

Obtenir la valeur d'une carte pour une valeur de colonne en tant que clé dans les dataframes Spark

Je devais obtenir une valeur d'une carte à partir d'une valeur de colonne comme clé et créer une nouvelle colonne J'ai essayé ce qui suit val testMap = Map ...

apache-spark dataframe scala

0 commentaire(s)

<< < 4 5 6 7 8 > >>