新闻产经轻工日化电器通讯仪器机械冶金矿产建筑建材石油化工食品医药电子电工能源电力交通运输农业环保图片手机版
当前位置:中国市场调查网>产业>科技>  正文

连线杂志:未来新闻90%以上将为电脑化新闻

中国市场调查网  时间:05/03/2012 14:56:03   来源:腾讯科技

连线杂志:未来新闻90%以上将为电脑化新闻

机写新闻报道能否胜过人工记者?(腾讯科技配图)

  腾讯科技讯(中涛)北京时间5月2日消息,美国知名IT杂志《连线》记者史蒂芬·列维(Steven Levy)近日发表长篇评论文章称,虽然由计算机程序控制的新闻报道编写技术已取得了长足进展,且该技术很可能致使大量记者丢掉“饭碗”,但至少目前这种威胁尚未真正显现出来。

  以下为列维文章全文:

  未来新闻90%以上将为电脑化新闻

  Narrative Science(以下简称“Narrative”)是一家专门训练计算机编写新闻报道的公司。假如Narrative技术已经能够编写出我今天撰写的这篇文章,那我们很可能既不必提及该公司的芝加哥总部其实就在《芝加哥论坛报》(Chicago Tribune)报业大楼附近,也不必揭示出这种可能让记者丢掉饭碗的潜在技术,其实是部分诞生于美国西北大学梅迪尔新闻学院(Medill School)的媒体、整合营销通信项目。显而易见,这种讽刺意味其实是针对人类,而非计算机本身。

  但至少目前尚未如此。

  Narrative员工量为30名左右,该公司在芝加哥环路边上有一个很大的房间。我们不妨试想一下这种场景:每隔30秒钟左右,Narrative算法的如椽大笔就能撰写出一则新闻报道,这无疑将引发我们进行哲学高度的思考。这种计算机撰写的新闻可以是美国大学篮球联赛的Big Ten最新进展情况,也可能涉及某家企业营收的声明,更可能是把多个Twitter信息汇总成有关赛马的新闻。此类文章已在诸如《福布斯》以及其他知名媒体(其中不少媒体不愿透露其身份)的网站上发表。Niche新闻服务已聘请Narrative为其注册用户撰写后续报道,使Narrative成为着他们的体育“粉丝”、小型投资者或快餐店老板。

  事实上,通过Narrative算法所撰写的文章,读起来并不是那么晦涩和生硬。当然,这种文章无法与美国体育评论作家罗杰·安吉尔(Roger Angell)的文风相提并论。但这种叙述平实的文章,却能很快将赛事结果等信息传达给体育爱好者。Narrative利用iPhone用户在GameChanger应用程序中输入的赛事得分结果等数据,进而撰写出一篇篇文章。去年期间,这种软件所生成的美国儿童棒球赛事帐号达40万个,预计今年该数字将增至150万个。

  Narrative联合创始人兼首席技术官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)管理着一群编程人员和技术工程师。在哈蒙德看来,这些文章只是计算机写作的开始,最终计算机写作的文章将在新闻产业中占据着主导优势地位。这种优势地位将究竟有多高?去年我曾要求哈蒙德回答这个问题,他最初有点“王顾左右而言他”。但在我的连续追问下,哈蒙德说出了这样一个数字:“90%以上。”

  这也是我为何决定写这篇文章的原因所在,并希望自己赶快完成,以免被一部MacBook Air笔记本电脑抢在我前头发布了同类文章。

  哈蒙德却安慰我道,大不必为此而担心。哈蒙德坚称,这种计算机撰写的新闻稿,并不会让新闻记者等人员丢掉饭碗,他们今后仍将能够每月按时领取薪酬。随着新闻产业规模的空前增长和扩大,计算机将通过相关数据而撰写出成本低廉的新闻稿,此类文章将涵盖大量活动、产业趋势和产品开发,而这些领域目前尚未被传统记者所关注。

  然而这并不是说计算机所撰写文章,将永远处于边缘化的位置,也不会永远被限定在一些小打小闹或生成一些简单的企业营收评论上面。哈蒙德最近曾被问及这样一个问题:今后20年内,计算机所撰写文章能否获得普利策新闻奖(Pulitzer Prize)?哈蒙德回答道,应该用不了20年,5年之内就可能实现该目标。

  Narrative公司与其创始人

  哈蒙德生于美国犹他州,其父为一名考古学家,并在当地一所州立大学任教。成年后,哈蒙德原本计划当一名律师。但在上个世纪1980年代后期,也就是哈蒙德在耶鲁大学上学期间,他深受知名人工智能专家、耶鲁大学计算机系主任罗杰·尚克(Roger Schank)的影响。在拿到计算机科学博士学位后,哈蒙德受聘于芝加哥大学,并担任该大学一家新型人工智能实验室负责人。在该实验室工作期间(1990年代中期),他开发了一套可追踪用户阅读、写作习惯并向用户推荐相关内容的系统。

  在该技术基础上,哈蒙德创建了一家小型科技公司,后来他将该公司出售。这段时间中,哈蒙德进入美国西北大学工作,并担任该大学情报信息实验室主任。2009年期间,哈蒙德和他的同事拉里·伯恩鲍姆(Larry Birnbaum)在梅迪尔新闻学院教授一项课程,该课程同时包括电脑编程和未来新闻学两项内容。他们两人鼓励学生创建出可将数据转移成新闻故事的系统。在该班学生中,有一位是《芝加哥论坛报》的特约记者,其报道范围为美国高中生体育赛事。这名学生、以及另外两位新闻系学生同一名计算机系学生被分成一组。该开发小组的原型软件“Stats Monkey”,能够搜集各大学、中学的体育赛事得分和相应数据。

  在那个学期结束时,这个班级参与了该校举办的产品演示会。出席该演示会的新闻业人员,包括来自ESPN体育电视台、Hearst报业集团以及《芝加哥论坛报》的高管。Stats Monkey软件给与会人员留下了深刻印象。梅迪尔新闻学院院长约翰·拉文(John Lavine)回忆道:“他们将体育赛事得分数据输入到该程序当中之后,大约12秒钟之后,该程序就写出了有关美国体育机构历史的文章,同时还配备了图片和图片文字说明。”

  美国网络广告公司DoubleClick(注:此前已被谷歌收购)前高管斯图亚特·弗兰克尔(Stuart Frankel)也是参与当天演示会的嘉宾之一。弗兰克尔说:“他们当时一演示这款软件后,房间里的氛围马上就变了。尽管如此,该产品也就仅仅是一款能够撰写有关棒球新闻报道的软件而已。”从DoubleClick离职后,弗兰克尔随即加盟哈蒙德和伯恩鲍姆两人的行列中。这种软件能否撰写任何新闻报道?能否使用任何数据?在得到肯定的回答后,弗兰克尔认定计算机写作产业有着巨大增长潜力。2010年期间,哈蒙德、伯恩鲍姆和弗兰克尔共同创建了Narrative公司,弗兰克尔出任该公司CEO。

  Narrative首名客户是一家报道美国大学篮球联赛Big Ten会议的电视网络。合同规定,Narrative算法将需要以相当于实时方式,而撰写出数千条有关Big Ten的体育新闻,同时每个季度对该赛事的数据和新闻进行更新。Narrative还负责为美国女子垒球赛事撰写文章,Narrative也因此变成为该赛事撰写文章最多的“记者”。

  在Narrative开始执行合同后不久,就出现了一些小问题:这些文章往往侧重报道比赛胜出方。如果Big Ten的某只球队被外围球队击败后,Narrative软件撰写的文章会让人感到很丢脸。Big Ten赛事举办者因此向Narrative提出新要求:即使Big Ten的球队输球,Narrative文章仍能加以表扬。在这种情况下,多数人认为应该引进人工记者加以干预,但Narrative技术开发人员却认为无此必要,而只需对软件代码进行相应修订。有过这次教训后,Narrative在负责为美国儿童棒球赛事进行撰文过程中,也对相应数据进行了调整处理。

  Narrative的新闻撰写引擎需要数个步骤:首先,该引擎需要收集大量高质量的数据。这也是金融业和体育产业能够成为Narrative服务对象的直接原因:这两个产业都涉及大量波动性很强的数据:每股收益、股价变化、垒球投手责任得分率(ERA)以及棒球打点(RBI)等。而新数据总是源源不断,因此Narrative总能根据新数据撰写出新文章或丰富旧内容。

  举例来说,棒球“粉丝”们已创建了在比赛进行过程中预测某个球队胜算把握的模式。在此过程中,如果某个得分改变了胜算把握的几率,比如由40%上升至60%,则Narrative算法就会将这个得分作为截止当前比赛进程中的亮点加以描述(比如Narrative必须知道击跑数量最多的球队将胜出)。因此Narrative技术工程师就为每种赛事或活动预先设定一些规则。那么该如何做才能将这些分析数据变成文章?该公司招聘了一个所谓“元作者”的团队,该团队由资深记者组成,以负责创建一系列报道题材的模板。该团队同Narrative技术工程师密切合作,使计算机能够从不同“角度”来识别相应数据。比赛结果是哪个球队胜出?是艰难胜出还是大败对方?比赛过程中是否有某位球员表现绝佳?该算法还根据比赛已知数据和其他数据库进行推测:是否某个关键一击起到了定胜负的作用?

  然后就是文章结构事宜。绝大部分新闻报道尤其是体育和金融题材,往往都会形成一个可预见的固定模式,因此创建相应文章模板,就成为相对比较简单的问题。该算法按照元作者提供的词汇来组成句子(就垒球而言,元作者似乎会在很大程度依赖20世纪早期知名体育评论家林·拉德纳(Ring Lardner)的写作用词习惯),该公司将这种完成后的产品称为“叙事作品”(narrative)。

  当然这种算法偶尔也会犯些小错误。比如说棒球比赛中的代打者(pinch hitter)每场比赛只能代打一次,但Narrative算法所撰写文章有时会将代打次数描述成2~6次。只是诸如此类的错误很少出现。哈蒙德表示,有时数据库也会提供错误信息,而Narrative算法已具有纠错功能。哈蒙德说:“如果某家公司的季度利润环比增长了600%,算法就会指出,很可能某个环节出现了错误。人们会问这样的问题:我们的算法是否出过令人难堪的大错误,我们的回答是从未有过。”

  《福布斯》媒体首席产品官刘易斯·德沃金(Lewis Dvorkin)表示,在对Narrative所报道的每一个赛事或其他活动进行了解后,他本人对此印象深刻但并不感到惊讶。尽管人工记者所撰写文章出现重大错误并不鲜见,但德沃金并没有听说过有关计算机自动新闻报道出错的任何投诉。德沃金说:“一次也没有。”

   < 1 2 >