机器翻译事业部
中国科学院计算技术研究所自然语言处理研究组(以下简称“研究组”)长期从事自然语言处理和机器翻译研究,在汉语词法分析、句法分析、机器翻译方面都取得了突出的研究成果。在机器翻译方面,研究组专注于机器翻译研究10余年,曾经开发过基于规则、基于实例和基于统计的机器翻译系统,对机器翻译基础技术有深厚的积累。特别是近年来研究组集中力量对统计机器翻译技术开展深入研究并取得了较大的进展。
研究组的相关工作在本领域顶级国际会议和期刊连续上发表论文三十余篇,其中,2006-2010年在本领域最有影响的国际会议ACL上共发表论文10篇,EMNLP上7篇,COLING上10篇,获得国际会议论文奖1项,在本领域最权威的学术期刊“Computational Linguistics”上发表论文1篇。论文发表的数量与质量在国内位于首位,在国际学术界也位居前列,这些工作受到国内外同行的广泛关注和跟踪。
基于研究组在机器翻译领域的研究工作,我们研制了多套统计机器翻译引擎和相应的训练工具。这些系统在国际上最重要的机器翻译评测NIST Open MT Evaluation中名列第三,这是亚洲研究机构取得的最好成绩。研究组在机器翻译和汉语自然语言处理方面的创新性研究成果获得北京市2009年科学技术进步二等奖。词法分析是汉语自然语言处理的基础,研究组开发的“汉语词法分析系统ICTCLAS” 在第一届国际SigHan汉语分词评测中获得多项第一名,是目前世界上应用最广泛的开源汉语分词工具,正式下载量达8万余次,大大促进了我国中文信息处理、搜索引擎等相关领域的研究开发进展,该系统及其后续相关工作获得2010年钱伟长中文信息处理科学技术奖一等奖。
近年来,研究组承担了多项国家自然科学基金、863、973等科研课题,特别是“十五”期间国家资助的2项与机器翻译相关的重点课题均由本研究组承担,充分展示了研究组在机器翻译研究方面的实力和同行对我们的认可。
研究组非常重视并积极推动研究成果转化。基于这些研究成果研究组已经申请发明专利12项,其中已经授权5项,获得计算机软件著作权登记15项。2008年研究组在北京海淀中科计算技术转移中心内注册成立了机器翻译事业部(以下简称“事业部”),其核心目标是立足于研究组在机器翻译领域的研究成果,通过对已有成果的产品化改造和升级,推进机器翻译成果的实用化,实现研究与应用的良性互动发展。目前事业部的工程团队共有研发工程师5人,语言工程师1人。2年多来,事业部承接了多个项目的开发,合同金额超过600万元,其中比较有代表性的项目有:
l 与国内知名专利标引公司合作,实现汉英双向8个领域的专利文献自动翻译系统,并实际用于300余万篇中国专利文献全文的翻译,用户评价正确率达到70%-85%。
2 受韩国某著名跨国电子公司委托,开发旨在运行在手持移动设备上的旅游领域的中英韩口语翻译系统的核心翻译引擎。
3 与韩国某著名电讯公司开展合作研究和开发,实现了面向新闻领域的中韩统计机器翻译系统。
4 受北京市政府外事办公室委托,开发一套面向外事领域的人机互助式的在线机器翻译系统。
此外,从实际应用和国家战略需求角度出发,研究组成功将自主研发的统计机器翻译技术推广应用于汉语、英语、韩语、阿拉伯语、俄语等主要语言和维吾尔语、蒙古语、藏语等少数民族语言,其中韩-汉、维吾尔-汉等已经用于实际的系统中。
联系方式
联系人:刘群
电话:010-62600552
图2 研究组获得钱伟长中文信息处理科学技术奖的证书
图3 研究组获得计算语言学顶级会议ACL-COLING 2006论文奖的证书