Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.
Je charge mon fichier CSV dans un bloc de données et je peux le faire, mais je dois ignorer les trois lignes de départ du fichier. J'ai essayé la commande .option ( ...
J'ai une application de streaming Spark qui fonctionne en fin de journée et consomme les événements kafka envoyés par l'application en amont. Actuellement, l'applicatio ...
J'essaye de changer le type de données d'une colonne présente dans un dataframe I que je lis à partir d'une base de données RDBMS.
Pour ce faire, j'ai obtenu le sch&eac ...
J'utilise spark avec Scala pour transformer un Dataframe, où je voudrais calculer une nouvelle variable qui calcule le rang d'une variable par ligne dans de nombreuses variables. Exempl ...