Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

3
votes

Groupe de consommateurs Kafka et partitions avec streaming structuré Spark

J'ai un sujet Kafka avec 3 partitions et je consomme ces données en utilisant le streaming structuré Spark. J'ai 3 consommateurs (disons le groupe de consommateurs A) lisant c ...

apache-spark apache-kafka spark-structured-streaming

1 commentaire(s)

0
votes

Java Spark - Différence de deux valeurs de colonne dans l'ensemble de données / dataframe

J'ai le jeu de données / dataframe ci-dessous. Je dois créer une nouvelle colonne diff_col en trouvant la différence entre les valeurs absolues de col_2 et col_3col_1 col_ ...

java apache-spark

0 commentaire(s)

1
votes

Quel filtre est le plus rapide - SingleColumnValueFilter for Scan ou filtre à étincelles pour RDD?

J'utilise Hbase et Spark. J'ai besoin d'obtenir des données filtrées de la table par statut (peut-être 0,1,2,3). Je n'ai besoin que de ces données avec le statut = 0 - c' ...

apache-spark hbase

3 commentaire(s)

0
votes

Ingérer des données IMS mainframe dans Hadoop

J'essaie d'ingérer des données mainframe IMS dans Hadoop. Souhaitez savoir s'il existe une possibilité grâce à l'une des tâches suivantes a) ...

apache-spark hadoop mainframe data-ingestion

0 commentaire(s)

<< < 1 2 3 4 5 > >>