Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes

Je dois ignorer trois lignes du dataframe lors du chargement à partir d'un fichier CSV dans scala

Je charge mon fichier CSV dans un bloc de données et je peux le faire, mais je dois ignorer les trois lignes de départ du fichier. J'ai essayé la commande .option ( ...

apache-spark scala bigdata

2 commentaire(s)

2
votes

spark streaming de kafka comment spécifier l'heure limite pour les événements interrogés

J'ai une application de streaming Spark qui fonctionne en fin de journée et consomme les événements kafka envoyés par l'application en amont. Actuellement, l'applicatio ...

apache-spark apache-kafka scala kafka-consumer-api spark-streaming

0 commentaire(s)

2
votes

Comment changer le type de données d'une colonne dans StructField d'un StructType?

J'essaye de changer le type de données d'une colonne présente dans un dataframe I que je lis à partir d'une base de données RDBMS. Pour ce faire, j'ai obtenu le sch&eac ...

apache-spark scala apache-spark-sql

1 commentaire(s)

2
votes

Classement par ligne sur plusieurs colonnes dans Spark Dataframe

J'utilise spark avec Scala pour transformer un Dataframe, où je voudrais calculer une nouvelle variable qui calcule le rang d'une variable par ligne dans de nombreuses variables. Exempl ...

apache-spark scala apache-spark-sql

3 commentaire(s)

<< < 9 10 11 12 13 > >>