Je cherche des outils d'alignement de mots et des algorithmes.
Je traite avec un texte hindi anglais bilingue et travaille actuellement sur p>
Pourriez-vous suggérer un autre algorithme / outil de langue indépendante et qui pourrait atteindre un alignement de mot statistique «fort» pour les corpora d'hindi anglais parallèle et son évaluation forte>.
Certains outils sont les meilleurs pour certaines langues; Pourriez-vous s'il vous plaît dites-moi à quel point cela est vrai et, dans l'affirmative, pourriez-vous donner un exemple de ce qui serait mieux adapté aux langues asiatiques comme hindi. Les contre-exemples de ce que l'on ne devrai-je pas utiliser pour de telles langues est également le bienvenu. P>
J'ai entendu un peu de Aligneur de mots UPLUG strong> A> ... Quelqu'un pourrait-il me dire si cet outil est utile à mon objectif. P>
merci .. :) p>
4 Réponses :
Vous avez une question vague et large. p>
essayer:
Pour une liste de papiers dans cette zone. P>
Merci de votre réponse, je ne suis pas convaincu pourquoi vous avez trouvé cette question vague .. cela pourrait être différent et distinct ... de toute façon .. :) Merci de votre réponse Charles Monsieur ....
Moïse est une suite de traduction automatique de machine statistique que vous voudrez peut-être jeter un coup d'œil. Son composant d'alignement de mot est construit sur GIZA ++ mais peut être modifié pour mieux fonctionner avec certaines paires de langues que pure GIZA ++. Leur liste de diffusion et leurs ressources que vous pouvez trouver sur http://www.statmt.org/ peut aussi être Un meilleur endroit pour poser des questions sur ce sujet que cela. Une chose que vous n'avez rien dit, mais que je considérerais encore plus problématique est l'endroit où obtenir un corpus parallèle hindi <-> anglais. p>
J'ai un corpus d'émille parallèle existant pour utiliser monsieur .. donc ce n'était vraiment pas un problème .. Merci pour votre réponse .. :). Je vais vérifier le lien que vous avez suggéré.
Le Berkeley Aligner est très bon. En faisant une formation conjointe des modèles d'alignement des mots IBM, il est capable d'obtenir un taux d'erreur d'alignement beaucoup plus bas (AER) que des packages plus âgés tels que GIZA ++. p>
Il prend également en charge certaines fonctionnalités plus avancées telles que la distorsion syntaxique (c'est-à-dire à l'aide d'informations d'analyse d'analyse pour obtenir de meilleurs alignements). Pour cela, vous n'aurez besoin que d'analyses pour l'une des paires de langues. Donc, vous devriez être d'accord faire de l'hindi <-> anglais, car il y a beaucoup de bons anglophones librement disponibles et d'excellents analyseurs anglais. P>
Si vous décidez de ne pas aller avec l'aligneur Berkeley, vous devriez probablement simplement utiliser GIZA ++. Pendant des années, il a été essentiellement le standard fort> Aligneur de mots dans la communauté de la traduction automatique. P>
Merci pour votre réponse .. :) J'aimerais savoir si tout autre outil d'alignement de mot pourrait être utilisé, si vous connaissez un autre outil s'il vous plaît laissez-moi savoir ..
Uplug est un excellent outil, je l'utilise pour aligner les textes de Macédoniens anglais <->. Il s'appuie essentiellement sur le GIZA ++ en ajoutant les alignements dits indiqués. Son paramètre avancé combine réellement les alignements d'indice et Giza ++ et effectue 3 de telles itérations. Plus les indices (POS-Tags, Lemmas ...) Vous fournissez mieux les résultats seront. Mais je dois mentionner que vous ne devriez pas vous attendre à obtenir des résultats fondamentalement différents, puis en utilisant simplement GIZA ++. P>
Quoi qu'il en soit, si vous envisagez d'étudier sérieusement le sujet de SMT, je vous suggère de lire le papier (thèse de doctorat) sur Uplug, ce sera très bénéfique pour vous. P>
;-) Pour un linguiste, et même si l'anglais n'est pas votre langue maternelle, vous devriez travailler sur la structure de la phrase ... La question initiale était "une longue phrase" ...
POINT SIR ... :) Je garderai à l'esprit la prochaine fois ...