6
votes

BLEU Score Mise en œuvre pour la détection de la similarité de la phrase

J'ai besoin de calculer le score de Bleu pour identifier si deux phrases sont similaires ou non.Je ont lu certains articles qui sont surtout sur le score de Bleu pour mesurer la précision de la traduction automatique. Mais j'ai besoin d'un score de Bleu pour trouver une similitude entre phrases dans une même langue [anglais]. (c'est-à-dire) (les deux phrases sont en anglais). Merci d'anticipation.


0 commentaires

6 Réponses :


3
votes

Eh bien, si vous voulez juste calculer le score Bleu, c'est simple. Traitez une phrase comme traduction de référence et l'autre en tant que traduction candidate.


0 commentaires

1
votes

Peut-être que la distance d'édition (levenstein) est également une option, ou la distance de hamming. De toute façon, le score Bleu est également approprié pour le travail; Il mesure la similitude d'une phrase contre une référence, de sorte que cela n'a aucun sens quand ils sont dans la même langue comme avec votre problème.


0 commentaires

27
votes

pour les comparaisons de niveau de phrase, utilisez le bleu lissé

Le score Standard Bleu utilisé pour l'évaluation de la traduction automatique (BLEU: 4) n'est que très significatif au niveau du corpus, car toute phrase qui n'a pas au moins une correspondance de 4 grammes aura une note de 0 .

Cela se produit parce que, à son noyau, Bleu est vraiment juste le moyenne géométrique des précisions de N-GRAM mis à l'échelle par une pénalité de brièveté pour empêcher les phrases très courtes avec certains matériaux correspondants d'avoir des scores de manière inappropriée. Étant donné que la moyenne géométrique est calculée en multipliant ensemble tous les termes à inclure dans la moyenne, avoir un zéro pour l'un des numéros N-GRAM entraîne la totalité de zéro.

Si vous souhaitez appliquer Bleu à des phrases individuelles, vous ferez mieux d'utiliser SMOGED BLEU ( lin et OCH 2004 - voir sec. 4), dans lequel vous ajoutez 1 à chacun des numéros de N-GRAM avant de calculer les précisions N-GRAM. Cela empêchera que l'une des précisions N-GRAM ne soit nulle et entraînera ainsi des valeurs non nulles même lorsqu'il n'y a pas de matchs de 4 grammes.

Mise en œuvre Java

Vous trouverez une implémentation Java de BLEU et SMOGY BLEU dans le package de traduction automatique de Stanford phrasal .

Alternatives

Comme andreas déjà mentionné, vous voudrez peut-être utiliser une autre métrique de scoring, telle que String de LevenStein's String Modifier Distance . Cependant, un problème d'utilisation de la distance traditionnelle de la chaîne de LevenStein String pour comparer des phrases est qu'il n'est pas explicitement conscient des limites de mots.

D'autres alternatives incluent:

  • Taux d'erreur Word - c'est essentiellement la distance de levenstein appliquée à une séquence de mots plutôt qu'une séquence de caractères. Il est largement utilisé pour marquer des systèmes de reconnaissance vocale.
  • Traduction Éditer le tarif (ter) - Ceci est similaire au taux d'erreur Word, mais il permet une opération d'édition supplémentaire pour des mots et des phrases adjacents. Cette métrique est devenue populaire dans la communauté de traduction automatique car elle est mieux corrélée aux jugements humains que d'autres mesures de similarité telles que BLEU. La variante la plus récente de cette métrique, connue sous le nom de Traduction Éditer le taux Plus (Terp) , permet la correspondance des synonymes à l'aide de Wordnet ainsi que des paraphrases de séquences multi-mots ("morte" ~ = "frappé le godet").
  • météore - cette métrique d'abord calcule un alignement qui permet une réorganisation arbitraire des mots dans les deux phrases comparées. S'il existe de multiples façons possibles pour aligner les phrases, Meteor sélectionne celui qui minimise les bords d'alignement de la criminalisation. Comme Terp, Meteor permet une correspondance des synonymes de WordNet et des paraphrases de séquences multiwwords. Après alignement, la métrique calcule la similitude entre les deux phrases utilisant le nombre de mots correspondants pour calculer un F-α score , une mesure équilibrée de précision et de rappel, qui est ensuite évoluée par une pénalité pour la quantité d'ordonnance de mot brouillage présent dans l'alignement.

0 commentaires

4
votes

0 commentaires

0
votes

Vous pouvez utiliser un script Moïse multi-bleuu, où vous pouvez également utiliser plusieurs références: https://github.com/moses-smt/mosesdecoder/blob/release-2.1.1/scripts/generic/Multi-bleu.perl


0 commentaires

0
votes

Vous n'êtes pas encouragé à implémenter le BLEU vous-même et le Sacrebleu est une implémentation standard. < Pré> xxx


0 commentaires