新闻产经轻工日化电器通讯仪器机械冶金矿产建筑建材石油化工食品医药电子电工能源电力交通运输农业环保图片手机版
当前位置:中国市场调查网>产业>科技>  正文

百度翻译研发500天幕后:团队曾经迷茫一个月

中国市场调查网  时间:07/12/2011 09:37:32   来源:DoNews
6月30日,百度完全自主投入、研发的在线翻译产品——百度翻译(http://fanyi.baidu.com/)正式上线,受到了业界和用户的普遍关注。这款由世界级顶尖机器翻译研发团队历时一年多时间打造的最新翻译工具,也曾遭遇过长达一个月的迷茫期。百度翻译研发负责人日前独家披露产品背后的故事。

  

  2010年组建顶尖机器翻译团队

  互联网的出现,为机器翻译的研发和应用带来了空前的机遇和挑战。在中文搜索领域处于绝对领先地位的百度,也敏锐意识到了机器翻译的重要性。

  2010年初,百度组建了由世界级机器翻译专家王海峰博和吴华博士领衔的机器翻译核心研发团队。他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文。

  王海峰更是自然语言处理领域世界上影响力最大、也最具活力的国际学术组织ACL(Association for Computational Linguistics)50年历史上唯一当选副主席的华人。

  在王海峰和吴华博士的组织下,一个由3名正式员工和1名实习生组成的百度初始机器翻译核心研发团队成立。随后一年,团队展开了百度机器翻译的研发。

  调研、规划、语料抓取、训练工具、解码器等工作也由此全面铺开。

  

  曾经迷茫1个多月

  在百度做机器翻译,一个重要优势就在于,百度强大的海量计算平台和丰富的海量互联网数据处理经验,可以支撑机器翻译团队从海量互联网数据中挖掘超大规模的双语语料。

  作为机器翻译领域资深专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。

  随着工作的开展,双语语料数量也迅速增加,当达到1000万句对的规模时,团队成员们都十分振奋,从事机器翻译工作多年的他们,从未使用这么大规模的双语语料训练过系统。不过,当看到基于这1000万语料训练的系统的翻译结果时,大家一下子都沉默了,翻译质量远比预期要低!仔细分析后发现,虽然这1000万语料已经是从更多的语料中选出的质量较高的部分,却仍有一大半的低质句对,例如:“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了“good good study, day day up”。这样的句对,利用已经使用的常规双语处理技术很难过滤掉。而如果不解决这个问题,语料规模再大也没有意义。于是,语料工作的重点迅速转到了低质语料处理。

  接下来的一个月,大家反复地分析、开发及实验,但又一次次陷入迷茫和困惑,大量被同行证明行之有效的方法一时间都失灵了,成功过滤的低质语料不足10%。经过这个过程,大家逐渐看清了一点,解铃还须系铃人,要想有效处理与传统的文本数据差别非常大的互联网数据,还要更多地将传统文本处理技术与互联网技术相结合。于是1个月后,一套全新的互联网双语语料挖掘技术方案出炉了。基于这套技术,1000万句对被有效过滤到约400万。令大家兴奋的是,过滤过的400万语料训练出来的系统,其质量远远好于基于1000万句对训练的系统。新的互联网双语语料挖掘技术成功了!

  之后的时间里,高质量双语语料不断增加,翻译系统质量得以一路攀升。

  更本地化 擅长网络流行语

  仅仅一年多的时间里,百度翻译即以令业界惊叹的速度上线发布,并获得大量用户的肯定。与业界同类产品相比,百度翻译具有四大技术亮点:机器翻译核心技术、语料挖掘和过滤技术、海量计算技术、可靠的web前端技术。

  依托于百度在中文互联网技术上的优势,百度翻译尤其对中文网络语言有着独特的应对能力。如翻译“有木有、我勒个去、神马都是浮云”等网络流行语,百度都能准确翻译。从评测结果来看,百度翻译在应对日常用语和网络语言方面优势明显,尤其在翻译结果忠实反映原文语义及符合目标语言习惯这两项指标上表现出色。如在百度翻译输入“你们有什么要问的吗?”,百度翻译结果为达意贴切的“Do you have any question?”;而在其他较为热门的在线翻译工具中输入该词,则分别出现了“What you have to ask it?”、“What do you have to ask?”等含偏差理解和语法错误的翻译结果。

  百度翻译相关负责人表示,百度翻译团队对机器翻译技术突破和产品完善的追求永无止境,期待更多用户使用体验和反馈,以不断提升翻译质量和产品功能,让用户受益。(完)

  

  附对比翻译实例:

  “女孩子喜欢酷酷的男孩”

  百度翻译:

  Girls like cool boy.

  其他翻译工具:

  Cool girls like boys.

  The girls like to the cruel cruel boy.

  

  “如果上天给我再来一次的机会,我一定会对她说三个字:我爱你。”

  百度翻译:

  If the God would give me another chance, I will say three words to her : I love you.

  其他翻译工具:

  If God gave me the opportunity again, I certainly would, she said three words: I love you.

  If the god give me another chance, I will say to her three words: I love you.

  

  “爱要怎么说出口”

  百度翻译:

  How to say I love you

  其他翻译工具:

  How to say love the export

  Love how to say