0
votes

Les nœuds de données sont-ils dans un HDFS identique à celui des nœuds exécutants dans une grappe d'étincelle?

J'apprends à propos de Apache Spark and HDFS. Je comprends les deux pour la plupart bien que je sois confus à propos d'une chose. Ma question est la suivante: Les nœuds de données sont-ils de la même manière que les nœuds exécutants dans un cluster d'étincelles? En d'autres termes, les nœuds des HDFS fonctionnent-ils sur les données qu'ils contiennent ou sont les données des données de base dans les HDFS envoyées aux nœuds exécutants dans un cluster d'étincelles où les données sont utilisées? S'il vous plaît laissez-moi savoir si vous voudriez que je préfère tout! Toute aide serait très appréciée!

Merci,

taylor


0 commentaires

3 Réponses :


2
votes

Je pense toujours que ces concepts d'une perspective autonome d'abord, puis à une perspective de grappes.

Considérant une seule machine (et vous exécuterez également une étincelle en mode local), Datanode et namenode ne sont que morceaux de logiciel pour soutenir Conception abstraite HDFS (qui est namenode stocke les arbres de fichiers, les métadonnées de fichier, etc., tandis que Datanode stocke des morceaux de données réels.). pilote et Les exécuteurs sont des concepts d'étincelle, en mode local, une application d'étincelle consiste en un conducteur processus et a Ensemble de exécuteur processus , qui fonctionne comme threads sur votre ordinateur individuel.


0 commentaires

0
votes

Si votre cluster d'étincelles est en cours d'exécution avec une maîtrise de , alors oui, vos exécutants d'étincelles s'exécuteront sur les mêmes nœuds du cluster Hadoop que stocker des données.

En fait, en déplaçant le calcul sur les données, au lieu des données au calcul, est une méthode clé d'amélioration des performances dans un calcul distribué, car la déplacement d'une tâche sérialisée à un nœud est beaucoup moins chère que de déplacer les GBS de données. à la tâche.


1 commentaires

Les datanodes ne traitent pas de calcul. Nodanagers font.



2
votes

Uniquement si le Datanode exécute également un NODEMANOGER. HDFS ne traite que des données. Les poignées du fil calculent. La Resourmanager de YarnManager attribue des ressources de calcul à Nodemanagers, qui sont co-localisées avec des datanodes.

Le fil et étincelle tentent de déplacer les exécuteurs vers les données Datanodes / nodemanagers qui ont le traitement de la stratégie de données (localité de données), mais c'est plus une optimisation et non une condition difficile. D'autant que la plupart des centres de données modernes disposent de backplanes Ethernet de 10 Go de 10 Go, le coût de déplacement des données sur un nœud de rechange est moins coûteux qu'auparavant où le déplacement des données sur le réseau était coûteux.


0 commentaires