BLEU (bilingual evaluation understudy) - метрика для оценивания качества машинного перевода, основанная на сравнении перевода, предложенного алгоритмом, и референсного перевода (ground truth). Сравнение производится на основе подсчета n-грамм (n меняется от 1 до некоторого порога, например, 4), которые встретились и в предложенном переводе, и в референсном (ground truth). После подсчета совстречаемости n-грамм полученная метрика умножается на так называемый brevity penalty - штраф за слишком короткие варианты перевода. Brevity penalty считается как <количество слов в переводе, предложенном алгоритмом> / <количество слов в референсном переводе>.
Формула:
BLEU=brevity penalty⋅(∏ni=1precisioni)1/n⋅100%BLEU=brevity penalty⋅(∏i=1nprecisioni)1/n⋅100%BLEU = \text{brevity penalty} \cdot \left (\prod_{i=1}^n \text{precision}_i \right)^{1/n} \cdot 100\%, где brevity penalty=min(1,output lengthreference length)brevity penalty=min(1,output lengthreference length)\text{brevity penalty} = min \left(1, \dfrac{\text{output length}}{\text{reference length}} \right)
Пример:
Задача
Посчитайте BLEU-score для следующего предложения. При подсчете метрики учитывайте n-граммы с n∈[1,2,3]n∈[1,2,3]n \in [1,2,3].
Перевод, предложенный алгоритмом: "Кошка вышла из дома и села на крыльцо"
Референсный перевод (ground truth): "Кошка вышла из комнаты и села на ступеньки"
Формат ответа: ответ запишите в виде процентов, округлив до целых.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.