11
votes

Comment décider du nombre de partitions requises pour la taille des données de saisie et des ressources de grappes?

mon cas d'utilisation comme mentionné ci-dessous.

Lire les données d'entrée du système de fichiers local à l'aide de SparkContext.TextFile (chemin d'entrée).
Partition des données d'entrée (80 millions d'enregistrements) dans des partitions à l'aide de RDD.COALCE (NumberOfPartitions) avant de la soumettre à la fonction MAPPER / REDUCTER. Sans utiliser de regroupement () ou de repartition () sur l'étincelle des données d'entrée exécute vraiment lentement et échoue sans exception de mémoire.
Le problème que je suis confronté ici est de décider du nombre de partitions à appliquer sur les données d'entrée. La taille des données d'entrée varie à chaque fois que le code de codage est une valeur particulière n'est pas une option. et Spark effectue très bien que lorsque certaines partitions optimales sont appliquées sur les données d'entrée pour lesquelles je dois effectuer beaucoup d'itération (essais et erreurs). Qui n'est pas une option dans un environnement de production.
Ma question: Existe-t-il une règle de pouce pour décider du nombre de partitions requises en fonction de la taille des données d'entrée et des ressources de cluster disponibles (exécuteurs, cœurs, etc.)? Si oui, veuillez me pointer dans cette direction. Toute aide est très appréciée.
J'utilise Spark 1.0 sur le fil.
merci, AG

apache-spark hadoop

0 commentaires

3 Réponses :

1
votes

Détermination du nombre de partitions est un peu délicat. Spark par défaut tentera de déduire un nombre sensible de partitions. Remarque: Si vous utilisez la méthode TextFile avec du texte comprimé, l'étincelle désactivera la division, puis vous devrez re-partition (on dirait que cela pourrait être ce qui se passe peut-être?). Avec des données non compressées Lorsque vous chargez avec SC.TextFile, vous pouvez également spécifier un nombre de cloisons de minium (par exemple, MinPartitions)).
La fonction de regroupement n'est utilisée que pour réduire le nombre de partitions. Vous devez donc envisager d'utiliser la fonction Repartition ().
En ce qui concerne le choix d'un "bon" numéro, vous voulez généralement au moins au moins au moins que le nombre d'exécutants pour le parallélisme. Il existe déjà une logique pour essayer de déterminer une "bonne" quantité de parallélisme, et vous pouvez obtenir cette valeur en appelant SC.DefaultParallelism

0 commentaires

1
votes

Je suppose que vous connaissez la taille du groupe entrant, Ensuite, vous pouvez essentiellement essayer de partitionner les données dans certains multiples de Qu'il s'agisse de plonger de gamme pour partitionner les données à peu près également. Dynamique Les partitions sont créées en fonction du nombre de blocs sur le système de fichiers et d'où la Tâche surcharge de planification de tant de tâches tue principalement la performance.
import org.apache.spark.RangePartitioner; var file=sc.textFile("<my local path>") var partitionedFile=file.map(x=>(x,1)) var data= partitionedFile.partitionBy(new RangePartitioner(3, partitionedFile))

0 commentaires

5
votes

Deux notes de Tuning Spark dans la documentation officielle Spark:

1- En général, nous recommandons 2-3 tâches par noyau CPU dans votre cluster.
2- Spark peut supporter efficacement les tâches comme étant courtes que 200 ms, car elle réutilise un exécutoire JVM dans de nombreuses tâches et qu'il a un coût de lancement de tâches à faible tâche, de sorte que vous puissiez augmenter le niveau de parallélisme à plus du nombre de cœurs. dans vos grappes.
Ce sont deux règles de Tumb qui vous aident à estimer le nombre et la taille des partitions. Donc, il vaut mieux avoir de petites tâches (cela pourrait être complété dans cent MS).

0 commentaires

Articles qui pourrait vous intéresser :
Comment obtenir des lots de lignes de Spark à l'aide de pyspark
PySpark: lire plusieurs fichiers XML (liste des chemins s3) dans Spark dataframe
Spark-submit error line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java: aucun fichier ou répertoire de ce type sur Mac
Filtrer les colonnes manquantes au-dessus du seuil dans l'étincelle