J'ai besoin de calculer le score de Bleu pour identifier si deux phrases sont similaires ou non.Je ont lu certains articles qui sont surtout sur le score de Bleu pour mesurer la précision de la traduction automatique. Mais j'ai besoin d'un score de Bleu pour trouver une similitude entre phrases dans une même langue [anglais]. (c'est-à-dire) (les deux phrases sont en anglais). Merci d'anticipation. P>
6 Réponses :
Eh bien, si vous voulez juste calculer le score Bleu, c'est simple. Traitez une phrase comme traduction de référence et l'autre en tant que traduction candidate. p>
Peut-être que la distance d'édition (levenstein) est également une option, ou la distance de hamming. De toute façon, le score Bleu est également approprié pour le travail; Il mesure la similitude d'une phrase contre une référence, de sorte que cela n'a aucun sens quand ils sont dans la même langue comme avec votre problème. P>
Le score Standard Bleu utilisé pour l'évaluation de la traduction automatique (BLEU: 4) n'est que très significatif au niveau du corpus, car toute phrase qui n'a pas au moins une correspondance de 4 grammes aura une note de 0 strong>. p>
Cela se produit parce que, à son noyau, Bleu est vraiment juste le Si vous souhaitez appliquer Bleu à des phrases individuelles, vous ferez mieux d'utiliser SMOGED BLEU ( lin et OCH 2004 - voir sec. 4), dans lequel vous ajoutez 1 à chacun des numéros de N-GRAM avant de calculer les précisions N-GRAM. Cela empêchera que l'une des précisions N-GRAM ne soit nulle et entraînera ainsi des valeurs non nulles même lorsqu'il n'y a pas de matchs de 4 grammes. P>
Vous trouverez une implémentation Java de BLEU et SMOGY BLEU dans le package de traduction automatique de Stanford phrasal strong>. p>
Alternatives strong> p>
Comme andreas déjà mentionné, vous voudrez peut-être utiliser une autre métrique de scoring, telle que String de LevenStein's String Modifier Distance forte> . Cependant, un problème d'utilisation de la distance traditionnelle de la chaîne de LevenStein String pour comparer des phrases est qu'il n'est pas explicitement conscient des limites de mots. P>
D'autres alternatives incluent: p>
Vous pouvez utiliser un script Moïse multi-bleuu, où vous pouvez également utiliser plusieurs références: https://github.com/moses-smt/mosesdecoder/blob/release-2.1.1/scripts/generic/Multi-bleu.perl p>
Vous n'êtes pas encouragé à implémenter le BLEU vous-même et le Sacrebleu est une implémentation standard. < Pré> xxx pré> p>