Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.
Je me suis battu avec cela pendant un moment dans Scala et je ne peux pas sembler trouver une solution claire pour cela. J'ai 2 dataframes: p> xxx pré> xxx pré ...
J'ai un Dataframe de Pyspark contenant 1000 colonnes et 10 000 enregistrements (rangées).
Je dois créer 2000 plus de colonnes, en effectuant un certain calcul sur les colonnes exista ...
J'ai un areframe plat avec 5-6 colonnes. Je veux les nichier et le convertir en un fichier de données imbriqué afin que je puisse alors l'écrire au format de parquet. Cepe ...