WMT(Webmining Task)系列数据集是自然语言处理领域中广泛使用的语料库,主要用于机器翻译任务的评估。截至2022年,已发布的WMT数据集主要包括以下名称和特点:
WMT2017
包含2017年发布的翻译语料,数据来源于Europarl corpus和UN corpus,并补充了News Commentary corpus任务的相关文章,主要用于评估神经机器翻译模型的性能。
WMT2018
在WMT2017基础上扩展了数据规模,新增了更多领域和语言对,进一步推动了翻译模型的研究。
WMT2019
继续增加数据多样性和语言覆盖,包含更多专业领域文本,被广泛应用于学术论文的翻译效果评估。
补充说明
该系列数据集由EMNLP(Conference on Empirical Methods in Natural Language Processing)会议提供,是机器翻译领域的重要基准;
具体年份的数据集需通过官方渠道获取,例如[https://www.mt.org/](https://www.mt.org/)。
若需其他年份或特定领域的数据集,建议查阅WMT官方网站或相关学术文献。