0
votes

Greenplum PXF prend-il en charge HDFS Short Circuit?

Je me demande si Greenplum PXF peut profiter du court-circuit HDFS en lecture lorsque nous placons PXF et Datanode sur le même hôte. Nous avons fait un test de préliminaire, cependant, il semble que PXF n'utilise pas la lecture du court-circuit. Il n'y a presque rien après que Google, donc nous ne savons pas si nous manquons quelque chose. Nous utilisons Greenplum 6.4 (version communautaire), PXF 5.11.2 et CDH 6.3.

Toute références, suggestions ou commentaires sont très appréciés.


0 commentaires

3 Réponses :


0
votes

L'ancienne version de PXF avec Hawq réside en réalité avec des nœuds de données et utilise une lecture de court-circuit. Le PXF actuel a changé pour résider avec les hôtes du segment Greenplum et agit comme un client HDFS. Je pense que vous pouvez modifier les codes source PXF et la configuration PXF sur les données de données avec des courts-circuits. Cependant, vous accélérez la communication HDFS <-> PXF, mais ralentissez PXF <-> Communication du segment Greenplum.


0 commentaires

1
votes

Comme l'a dit Sung Yu Wei, pour utiliser le court-circuit HDFS se lit, le client (dans ce cas PXF JVM) doit être colocé avec les datanodes que les blocs de la maison. C'était le cas de Hawq en tant que segments qui ont été colocalisés avec des datanodes Whaease avec GPDB, ses segments les plus probables ne sont pas déployés avec le cluster Hadoop.

En outre, l'algorithme de répartition des travaux que Hawq / PXF utilise, prend en compte la localité de données pour attribuer des travaux (dans ce cas, lecture des blocs HDFS) sur des segments de Hawq colocatés / Agents PXF, maximisant ainsi la probabilité de raccourci HDFS. L'allocation de travail que GPDB / PXF utilise ne le fait plus et fait une distribution de travail aléatoire de blocs de données HDFS aux segments / pxf.

Si votre architecture de déploiement contient des segments GPDB et des blocs HDFS Colocatés, il pourrait être utile de modifier l'allocation de travail à prendre en compte la localité de données pour maximiser les lectures de court-circuit HDFS.


0 commentaires

1
votes

Merci Stanley et Shivram. Nous envisageons de ramener cette fonctionnalité pour Greenplum PXF à l'avenir. Mais pour le moment n'est pas supporté.


0 commentaires