Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes

Erreur de déduplication sbt-assembly avec org.apache.arrow

J'utilise sbt 1.2.8 et sbt-assembly 0.14.9. J'essaie de créer un gros JAR pour mon projet qui utilise Spark + Akka + gRPC. J'ai eu de nombreuses erreurs de déduplication au dé ...

apache-spark scala sbt sbt-assembly

0 commentaire(s)

2
votes

Comment accéder à un compartiment de stockage MinIO à partir d'un notebook Jupyter Pyspark?

J'ai des instances de notebook MinIO et Jupyter Pyspark exécutées localement sur des conteneurs Docker distincts. Je peux utiliser le package minio Python pour afficher les seaux et ...

docker python apache-spark jupyter-notebook pyspark

0 commentaire(s)

2
votes

java.lang.StackOverflowError sur IntelliJ

Je suis nouveau dans scala / spark et en chargeant un fichier (csv) de taille 2 Go et cela fonctionne bien sur ma machine virtuelle avec une taille inférieure à HEAP_SIZE. val l ...

apache-spark intellij-idea scala

4 commentaire(s)

2
votes

Sqoop peut-il être utilisé pour effectuer des jointures sur l'IMPORT?

On m'a posé cette question récemment où je décrivais un cas d'utilisation qui impliquait plusieurs jointures en plus de certains traitements que j'avais implémen ...

import apache-spark hadoop bigdata sqoop

0 commentaire(s)

<< < 6 7 8 9 10 > >>