Questions et réponses pour le apache-spark :

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

2
votes
J'ai un bloc de données Spark au format suivant. df = spark.createDataFrame([(1, 2, 3), (1, 4, 100), (20, 30, 50)],['a', 'b', 'c']) df.show() Entrée: ...

2
votes
Le code ci-dessous est créé avec succès dans le contexte Spark lorsque je soumets en utilisant spark submit et fonctionne correctement. Quand je tue l'appli ...

2
votes
J'ai une quantité insensée de colonnes de chemin à diviser en 2 colonnes, basename et dirname. Je sais comment obtenir facilement le nom de base de mes chemins en utilisant: ...

2
votes
J'espère que quelqu'un pourra m'aider à résoudre ce problème. Je travaille actuellement sur un projet de pipeline de données, mon dilemme actuel est de savoir s' ...