8
votes

Problème de copie des données locales dans HDFS sur un cluster Hadoop à l'aide d'Amazon EC2 / S3

J'ai configuré un cluster Hadoop contenant 5 nœuds sur Amazon EC2. Maintenant, lorsque je me connecte au nœud maître et soumettez la commande suivante

1116 NameNode
1699 Jps
1180 JobTracker

amazon-ec2 hadoop amazon-s3 cloud hdfs

0 commentaires

4 Réponses :

21
votes

Vous voulez probablement utiliser S3N: // URL, pas S3: // URLS. S3N: // signifie "un fichier ordinaire, lisible du monde extérieur, à cette URL S3". S3: // fait référence à un système de fichiers HDFS mappé dans un godet S3.

Pour éviter le problème d'échappement de l'URL pour la clé d'accès (et pour rendre la vie beaucoup plus facile), mettez-les dans le / etc / hadoop / Conf / Core-Site.xml Code> Fichier: P>

<property>
  <name>fs.s3.awsAccessKeyId</name>
  <value>0123458712355</value>
</property>
<property>
  <name>fs.s3.awsSecretAccessKey</name>
  <value>hi/momasgasfglskfghaslkfjg</value>
</property>
<property>
  <name>fs.s3n.awsAccessKeyId</name>
  <value>0123458712355</value>
</property>
<property>
  <name>fs.s3n.awsSecretAccessKey</name>
  <value>hi/momasgasfglskfghaslkfjg</value>
</property>


 Vous pouvez le plus rapidement déboguer votre problème à l'aide des commandes de Systèmes de fichiers Hadoop, qui fonctionnent simplement sur les URL S3N: // (et S3: //). Essayez  hadoop fs -cp s3n: // myhappyBucket /  code> ou  hadoop fs -cp s3n: //myhappyBucket/happyfile.txt / tmp / DEST1  code> et même  hadoop fs -CP / TMP / ONE_HDFS_FILE S3N: // myHappyBucket / will_be_put_into_s3  code>  li>
 La commande  distsCP  code> exécute une commande uniquement uniquement pour copier un arbre à partir de là ici. Utilisez-le si vous souhaitez copier un très grand nombre de fichiers sur les HDFS. (Pour une utilisation quotidienne,  Hadoop FS -CP SRC DEST  code> fonctionne tout à fait).  LI>
 Vous n'avez pas besoin de déplacer les données sur les HDFS si vous ne voulez pas. Vous pouvez extraire toutes les données source directement à partir de S3, toutes les manipulations supplémentaires ciblant ainsi les HDFS ou S3 comme vous le voyez.  li>
 Hadoop peut devenir confus s'il y a un fichier S3N: // myHappyBucket / foo / bar et un "répertoire" (de nombreux fichiers avec des touches S3N: // myHappyBucket / foo / bar / quelque chose). Certaines anciennes versions de la commande S3Sync laisseraient de tels turds de 38 octets dans l'arbre S3.  Li>
 Si vous commencez à voir  SocketTimeException  code> 's,  Appliquer le patch Pour Hadoop-6254 . Nous étions, et nous l'avons fait, et ils sont partis.  Li>
 ul>  p>

1 commentaires

À partir du 21/01/2014, cette réponse est toujours assez pertinente et très utile. Mods, je vais ajouter quelques drapeaux dans cette phrase suivante pour aider les recherches futures: si vous rencontrez des problèmes avec CDH5 ou CDH4 et DISCCP, je vous recommande vivement de modifier votre site core-site.xml comme indiqué ci-dessus.

3
votes

Essayez d'utiliser Amazon Elastic Mapreduce. Il supprime la nécessité de configurer les nœuds Hadoop et vous pouvez simplement accéder aux objets dans votre compte S3 de la manière dont vous vous attendez.

1 commentaires

@Deepak Essayez ceci, il y a beaucoup d'informations ici. aws.amazon.com/documentation/elasticMapreduce

4
votes

Vous pouvez également vous Apache Whirir pour ce flux de travail. Vérifiez le Guide de démarrage rapide et le guide 5 minutes Pour plus d'informations.

Disclaimer: Je suis l'un des prisonniers.

0 commentaires

0
votes

Utilisez

hadoop fs -Dfs.s3n.awsAccessKeyId=<your-key> -Dfs.s3n.awsSecretAccessKey=<your-secret-key> -<subsubcommand> <args>

0 commentaires