BLEU

Bilingual Evaluation Understudy（双语评估替补）——机器翻译、文本生成领域最常用的自动评价指标，核心思路是衡量模型生成文本与人工参考译文/标准答案的词语重合程度（精确度视角）

简介

BLEU 由 IBM 在 2002 年提出，是自然语言处理领域使用最广泛的自动评估指标之一。它的核心思路很朴素：把模型生成的文本和人工写好的参考答案进行对比，看两者有多少词语片段（n-gram）重合——重合度高就认为模型表现更好。

BLEU 本质上衡量的是”生成内容精确度”：模型输出中，有多少内容能和参考答案对得上。这个定位使它特别适合答案相对标准、表达变化有限的任务场景。

全称：Bilingual Evaluation Understudy（双语评估替补）
提出者：IBM（2002）
类型：自动评估指标
衡量维度：精确度（Precision）——模型输出中有多少内容与参考答案重合
计算方式：基于 n-gram（词语片段，通常取 1-gram 到 4-gram）的修正精确度，加上长度惩罚（brevity penalty）防止过短输出获得高分

BLEU 最适合以下场景：

低估合理的表达差异：“提升客户满意度”和”改善用户体验”在很多业务语境里同义，但词面重合不高，BLEU 给出的分数可能很低。大模型经常换一种说法表达同样含义，这时候 BLEU 会显得比较机械
无法识别语义等价：BLEU 只看词语表面是否匹配，无法理解同义词、近义词、释义改写等语义层面的等价关系
对创造性内容不友好：写作、开放式问答、创意内容生成等任务中，好的输出可能与参考答案完全不同，BLEU 会错误地给出低分
参考答案依赖性：BLEU 分数高度依赖参考答案的质量和覆盖面。如果参考答案不完整或有偏差，BLEU 分数就失去参考价值

BLEU 适合作为”早期筛选指标”——在 Prompt 调优、模型版本对比、翻译模板优化时快速发现明显退化。例如新版本模型的 BLEU 明显下降，说明翻译质量可能出了问题，需要进一步人工抽查。

BLEU 不适合作为最终效果指标——在大模型产品中，用户体验是多维的（事实正确、覆盖重点、表达清晰、符合业务边界），BLEU 只能覆盖其中”与参考答案重合”这一个维度。

2026-05-28-woshipm-bleu-rouge-evaluation：为了罐罐从 AI PM 视角定义 BLEU 为”生成内容精确度指标”，指出其核心问题是”容易低估合理的表达差异”。作者用”提升客户满意度”vs”改善用户体验”的例子说明 BLEU 对大模型的天然不友好——大模型擅长多种合理表达，但 BLEU 只认可词面重合。建议 PM 不要把 BLEU 当成”好不好用”的唯一答案，而要当成早期筛选指标，配合人工评审使用。

快速上手：使用 Python 的 nltk.translate.bleu_score 库或 sacrebleu 标准化工具计算
典型值参考：机器翻译任务中 BLEU-4 分数 30-40 通常被认为是”可用”，>50 为”优秀”；但这些阈值因语言对和领域不同差异很大
注意事项：
- 不要用单个 BLEU 分数做决策，需要与人工评估配合
- BLEU 对短文本的评估可靠性较低（n-gram 命中概率随文本长度减小）
- 不同 BLEU 实现（nltk vs sacrebleu vs 自定义）的结果可能不可直接比较，推荐使用 sacrebleu 保证可复现性