Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

1
votes

Dans Spark, parcourez chaque colonne et trouvez la longueur maximale

Je suis nouveau pour déclencher scala et j'ai la situation suivante comme ci-dessous J'ai une table "TEST_TABLE" sur le cluster (peut être une table de ruche) Je convertis cela en dat ...

apache-spark scala maxlength aggregation

0 commentaire(s)

1
votes

Comment sélectionner des clés à partir d'un objet Json {} (type de données complexe) DataFrame dans Spark

J'ai une chaîne json comme: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to org.apache.spark.sql.Row Je souhaite en créer u ...

apache-spark json dataframe scala

4 commentaire(s)

1
votes

Transformer les colonnes dans Spark DataFrame en fonction de la carte sans utiliser les UDF

Je voudrais transformer certaines colonnes de mon dataframe en fonction de la configuration représentée par les cartes Scala. J'ai 2 cas: Réception d'une car ...

apache-spark apache-spark-sql

6 commentaire(s)

1
votes

Expression régulière pour rechercher un caractère spécifique dans une chaîne

J'ai ces exemples de valeurs select distinct promo_name ,regexp_extract(promo_name, '(?<=p\d+\s+)P\d+') as regexp_id from stock where promo_name is not null select distinct pr ...

apache-spark sql regex pyspark

1 commentaire(s)

<< < 16 17 18 19 20 > >>