Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.
J'utilise sbt 1.2.8 et sbt-assembly 0.14.9. J'essaie de créer un gros JAR pour mon projet qui utilise Spark + Akka + gRPC. J'ai eu de nombreuses erreurs de déduplication au dé ...
J'ai des instances de notebook MinIO et Jupyter Pyspark exécutées localement sur des conteneurs Docker distincts. Je peux utiliser le package minio Python pour afficher les seaux et ...
Je suis nouveau dans scala / spark et en chargeant un fichier (csv) de taille 2 Go et cela fonctionne bien sur ma machine virtuelle avec une taille inférieure à HEAP_SIZE. val l ...
On m'a posé cette question récemment où je décrivais un cas d'utilisation qui impliquait plusieurs jointures en plus de certains traitements que j'avais implémen ...