Facebook开源最大规模并行语料，45亿规模

雷锋网AI科技评论按：当前自然语言处理中的大多数方法都是数据驱动的，大多数多语言模型（特别是神经机器翻译系统）都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言（例如英语、汉语），且限制于特定的领域。

为了解决这一问题，在去年七月份，Facebook曾发布了第一个系统处理Wikipedia上所有语言（包括资源贫乏的语言和方言）的数据集WikiMatrix，大约包含了亿级的并行语料，覆盖1620种语言对。

据雷锋网AI科技评论了解，最近Facebook基于新的方法和数据源，开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含45亿并行语料（是WikiMatrix的近50倍），覆盖576种语言对。

论文：https://arxiv.org/abs/1911.04944

数据集开源地址：https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

1、语料库构建

首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题。此外也有几个依靠志愿者翻译而形成的语料库，例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的语料进行挖掘，从而开发了WikiMatrix数据集。

以上这些，从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。

十次快照语料中，不同语言的单句数量（其中一次快照只包含英语）

然后通过预处理去除高达70%的重复数据（例如模板文件、导航菜单、cookie等），并使用fastText（语言识别器，可以识别176种语言）来识别文档中的语言，最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容，只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。

在这项工作中，使用的挖掘方法的底层思想是，首先学习一种多语言的语义嵌入，即在一个嵌入空间中语义上相似的句子会有较近的距离，而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。

用于大规模训练多语言句嵌入的框架

不过由于余弦距离的绝对阈值在全局上并不一致，所以Schwenk在这里所采用的是Margin criterion：

2、语料库分析

在超过320亿个句子中挖掘平行语料，计算上是非常昂贵的。在当前版本的CCMatrix语料库中，作者限制为38种语言。

CCMatrix：这里给出了单语文本的数量和提取的平行句子的数量(单位：百万)，margin阈值为1.06，以及在TED测试中的BLEU分数。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同）

CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。举例来说，希腊语/汉语对的语料数量为470万。

3、定性评估

为了评估这个数据集的质量，Schwenk等人还利用这个数据集进行了神经机器翻译系统的测试，并与几个公共测试集进行了对比。

1、在TED数据集上进行测试

Schwenk等人首先用CCMatrix对神经翻译系统（NMT）进行训练，然后在TED数据集上进行测试，结果如下：

这里只选择了其中的27种语言。以上所有BLEU值的平均值为14.3，英语对的平均BLEU值为26.7，最高的BLEU值为42.9。

当然，在TED上的SOTA远比这些高；但需要注意，这里测试所用的NMT系统没有使用Transformer框架等最新技术。

2、在WMT’19上评估

上图是在Newstest’18（NT’18）和Newtest’19（NT‘19）测试集上的BLEU分数。可以看到，使用CCMatrix，可以提供非常有竞争力的BLEU分数。

3、在 WAT’19上评估

利用CCMatrix在亚洲翻译研讨会的俄语/日语翻译任务上进行的测试如上图所示。这里所使用的模型与前面一样，没有Transformer，没有layer dropout。尽管相比SOTA略差，但仍然在同一层次。

4、总结

CCMatrix使NMT研究社区能够利用比以前仅几十种语言对更大的双语料数据集。这可以加速创建更有效的NMT模型，这些模型可以使用更多的语言，尤其是语料库相对有限的资源较少的模型。

由于规模庞大且使用了大量公共文本，或许CCMatrix将成为NMT领域中用于构建和评估系统的最常用资源之一。

当然，Facebook在构建CCMatrix过程中所提出的数据集构建方法更值得推广，或许能够帮助更多人来创建大规模数据集。

参考资料：

Facebook开源最大规模并行语料，45亿规模

美国批准Nuro部署新型送货车不用满足所有现行汽车安全标准

微软发布全新Edge 80版浏览器：增Surface Pro X等ARM64设备支持

最新文章

扶苏怎么死的（扶苏的真正死因）

直升机螺旋桨（为什么直升机有两个螺旋桨）

曹操用人之道(曹操用人之道的故事)

全运会的口号(口号充满霸气)

葵花籽仁（葵花子的功效与慎食）

曹操的谋士（曹操麾下的10大谋士）

steamcommunity302怎么用(steam社区无法打开如何解决方法)

c语言绝对值怎么表达(c语言绝对值怎么表达出来的)

驱动人生离线版和网卡版的区别

字符串函数的用法(strcmpt函数)

最新评论

标签

关注我们么么哒！

Facebook开源最大规模并行语料，45亿规模

美国批准Nuro部署新型送货车 不用满足所有现行汽车安全标准

微软发布全新Edge 80版浏览器：增Surface Pro X等ARM64设备支持

最新文章

扶苏怎么死的（扶苏的真正死因）

最新评论

标签

关注我们 么么哒！

关注我们的公众号

美国批准Nuro部署新型送货车不用满足所有现行汽车安全标准

关注我们么么哒！