北京新译科技有限公司

新译科技300万中英双语数据免费下载、助力机器翻译等科学研究

2017-11-09 17:18:15

newtranx

新译科技继2017年9月29日采用新算法上线英中多领域、俄语、维语机器翻译以来;《全网多领域智能翻译首上线——新译科技机器翻译更新上线》, 如今也在新算法的基础上,更新了阿拉伯语-英文、俄语-英语、德语-英语、法语-英语、西班牙语-英语、葡语-英语、捷克语-英语、阿拉伯语-中文、日语-中文、韩语-中文、西班牙语-中文、法语-中文12个语言对,24个方向,可于 新译智能翻译 或者关注微信公众号体验(ID: NewTranx)。

考虑到很多研究人员希望获取更多的英中双语数据来研究机器翻译等课题,再加上陆续收到科研工作者和企业询问能否提供UM-CORPUS的数据,我们在原有的数据基础上增加100万句对数据,一同提供给广大科研工作者。

原有的200多万英中UM-CORPUS数据为澳门大学NLP2CT实验室田亮博士、黄辉教授为了英中课题研究从互联网、澳门政府等处获取到的1500万多领域平行语料库。考虑到互联网上英中数据虽然多,但是能够免费让科研工作者下载使用的数据并不是很多,原数据经过论文发表并于2014年公开给广大科研工作者使用。不过经过三年多的发展,原有数据并未覆盖最新的术语、关键词等信息。该次提供的3,006,672双语数据,除了对原有的多领域数据进行校验和去除部分噪音数据外,还增加了100万句人工校验的新闻、法律、教育和专利四部分的垂直领域数据(大约每个领域30万句的平均分配)。

UM-CORPUS共计包含新闻、口语、法律、专利等八个领域共计220万句,其中英语平均句长为23,中文为35(以单个汉字作为计数)。其中领域分布如图一所示:

新数据我们命名为UM-NEWTRANX-CORPUS,包含300万句双语句对,并按照字母顺序进行了排列。其中,我们对300万句英文、中文部分进行分词(中文采用结巴分词)统计后信息如表1所示。

表1: UM-NEWTRANX-CORPUS300万句平行语料库信息

语言 单词(Tokens) 平均句长 词汇量(vocabularies)
英语 55,734,538 18.54 610,290
中文 46,059,263 15.32 294,938
语言 英语 中文
单词(Tokens) 55,734,538 46,059,263
平均句长 18.54 15.32
词汇量(vocabularies) 610,290 294,938

其中语料库中的句子,80%以上的句子小于30个词。具体的句子长度len分布如下:

语言 1≤len≤10 10<len≤30 30<len≤50 50<len≤80 Len>80
英语 965,922 1,531,597 414,887 80,590 13,676
中文 1,259,642 1,411,288 299,422 33,635 2,685
语言 英语 中文
1≤len≤10 965,922 1,259,642
10<len≤30 1,531,597 1,411,288
30<len≤50 414,887 299,422
50<len≤80 80,590 33,635
Len>80 13,676 2,685

如果要下载原有UM-CORPUS数据,以及更多关于该语料库的信息,可以参考网址 (http://nlp2ct.cis.umac.mo/um-corpus/) 如果要下载最新版的UM-NEWTRANX-CORPUS数据,可以复制下文中的链接到网页进行下载:

中英语料下载:(www.newtranx.com/corpusdownload.html)

为尊重原实验室成果,以及新译科技的研发人员的付出,引用相关数据请引用如下论文:

Liang Tian, Derek F. Wong, Lidia S. Chao, Paulo Quaresma, Francisco Oliveira, Shuo Li, Yiming Wang, Yi Lu, "UM-Corpus: A Large English-Chinese Parallel Corpus for Statistical Machine Translation". Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC'14), Reykjavik, Iceland, 2014.

新译科技有限公司

新译科技成立于2014年,是一家利用人工智能和大数据技术提供互联网以及移动互联网服务与应用的科技公司。

联系我们

  北京:010-85160296      深圳:0755-86529976

新译科技邮箱   support@newtranx.com

  北京市朝阳区望京东园四区7号楼绿地中心B座2005-2006室
  深圳市南山区清华信息港科研楼909室

新译科技二维码