Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

3
votes
J'ai l'exemple de dataframe suivant +---+----+--------------------+-------------+-------------------------+ | ID|name| fruit| qty| Result| +---+----+- ...

3
votes
J'ai essayé deux méthodes pour trouver des rangées distinctes dans le parquet, mais cela ne semble pas fonctionner. Attemp 1: Dataset df = ...

3
votes
L'extrait de code ci-dessous fonctionne très bien. (Lisez CSV, Lisez Parquet et rejoignez-vous) //Reading from Hbase -- getting three columns: Number of records: 1 ...

3
votes
Mon travail de streaming structuré Spark génère en continu des fichiers parquet que je souhaite supprimer après l'expiration (disons après 30 jours). Je stoc ...