Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

3
votes

Pyspark UDF pour renvoyer un résultat similaire à groupby (). Sum () entre deux colonnes

J'ai l'exemple de dataframe suivant +---+----+--------------------+-------------+-------------------------+ | ID|name| fruit| qty| Result| +---+----+- ...

apache-spark pyspark apache-spark-sql

5 commentaire(s)

3
votes

Spark Dataframe: sélectionnez des lignes distinctes

J'ai essayé deux méthodes pour trouver des rangées distinctes dans le parquet, mais cela ne semble pas fonctionner. Attemp 1: Dataset df = ...

java apache-spark sql dataframe apache-spark-sql

0 commentaire(s)

3
votes

Problème de jointure Spark Dataframe

L'extrait de code ci-dessous fonctionne très bien. (Lisez CSV, Lisez Parquet et rejoignez-vous) //Reading from Hbase -- getting three columns: Number of records: 1 ...

apache-spark scala hbase

0 commentaire(s)

3
votes

Comment gérer correctement les fichiers de parquet partitionnés générés à partir de Spark Streaming

Mon travail de streaming structuré Spark génère en continu des fichiers parquet que je souhaite supprimer après l'expiration (disons après 30 jours). Je stoc ...

apache-spark spark-structured-streaming spark-streaming

0 commentaire(s)

<< < 3 4 5 6 7 > >>