【搜狐IT消息】9月19日消息,2012年通信展在京举办。今年主题为"智变中的ICT产业:开创应用和服务新时代",ICT中国2012高层论坛同日召开。
腾讯网络平台部副总经理侯金刚先生在ICT中国2012高层论坛上回顾了腾讯的互联网服务,阐述了腾讯对云计算的认识并和大家分享了云计算方面的积累的经验。
以下为侯金刚演讲实录:
侯金刚:各位来宾下午好!我是来自腾讯网络平台部的,我的条目是“云服务的价值和挑战”,实际上我们的这个部门是负责腾讯的基础设施,也就是大家刚才谈的IaaS,腾讯的各个业务以及我们开放的云平台上的业务,数据中心、网络服务器以及其他的操作系统这块的东西。所以我今天主要是讲在腾讯,IaaS面临的一些挑战和我们的做法。
在之前我会给大家回顾一下腾讯的互联网服务,这些东西实际上对于我们基础架构提出了一个挑战。在这个当中,大家可以看到,IaaS云计算对于基础设施的挑战以及我们在云计算上的实践。互联网公司本身就是基于云的服务,大家可以看到,我们有几大平台,有QQMail的平台,有QQ平台,微博等平台,最终用户要把个人的数据、包括消息、微博、日志传到云中去,实现交互。所以,互联网公司这几年来的发展本身是基于已有的英特网做的服务,只不过这个云服务是更多基于个人云的服务。我不知道这种对何主任的分类里面来讲,是属于SaaS云服务还是其他云服务。
除了腾讯自有平台,前年底我们推了开放云平台,更多的是跟业界的一些互联网公司共同拥有的一些云平台,我们拥有的支付、付费渠道来共同推向互联网用户提供更好的服务。从去年和前年,我们就提出了八大开放平台,包括我们的社交、SAS平台,Qzone、微博、微信到一些搜索等等平台,都提供了接口,这些接口更多的不是一种PaaS的形式,是供给第三方互联网上的个人和其他的开发商,通过腾讯积累的客户资源、平台资源等等,使得第三方开发商的应用和服务能够更好地推到用户上去。实际上这个开放云平台,对外的大家看到的是PaaS接口,实际上里面用了很多的应用,第三方的应用也放到了我们的数据中心,也用了我们已有的服务器和数据中心。同时,我们给第三方开发商一起面向最终用户进行市场推广,这里面来看的话,也有PaaS服务,也就是说我们的开放云平台本身就含有很多的云服务,大家看到的可能是PaaS的情况。
刚才讲到这两个东西,一方面腾讯已有的这些平台的应用来讲,本身是一个云的情况。另外一方面,我们这个平台越来越多地集成第三方的应用,实际上这些业务对基础架构是一个很大的挑战。这些挑战具体起来讲,就是在互联网公司,这些应用跟传统企业的应用是不一样的,这些应用一方面,用户规模比较大,我们知道随便一个用户都是亿级的规模,另外来讲,它对服务器的需求量比较大,像我们的平台都是几万台服务器,流量来讲,一个应用可能是几百个G的流量,而且不同的应用,我们从计算的模式、从网络通信的模式来讲,它们本身也不一样。我们知道这里面有各种各样的,类似在线交易,还有流媒体的服务,虽然实时性要求不高,但是每天会大量上传图片的业务。这些业务交汇在一起,由于规模的上升,所以比传统的企业要复杂得多,云计算这个概念提出来也就是为了更好的解决在这种海量规模上,我们的计算资源、网络资源如何更好地提供给我们的应用部门、提供给我们的最终用户。
我们总结起来,互联网业务的高速增长实际上是需要我们基础架构的云化。我们可以具体总结一下,从业务的发展来讲,为什么说需要我们的基础架构要云化,传统的模式能不能解决这样的问题。互联网的应用本来就是在线的发布,最终的用户实际上就是测试的用户,他在网络上发布的版本永远都是一个伟大的版本。我们曾经有一个应用在极端的情况下,一个月发布了十几个版本,这样的一种情况下,会出现很大的对基础架构的挑战。我们知道,我们建数据中心差不多花两三年的时间,我们要买服务器设备,需要花一个季度去交付,这些时间根本满足不了互联网一天可以发十几个版本。所以,我们总结起来,就是计算和网络资源的供给速度以月计提高到分钟级或在线实时交付。这是从业务部门来讲,有这样一个情况。当然这种东西,我们也可以给一些解决方法,无非就是我把我的资源池建大,根据我的规划,有十倍的资源准备,他要的时候就有,当然这种情况是很容易做到的,但是老板肯定不允许你这样做。
互联网的业务没有像传统的金融企业要求那么高,但是它需要有一个快速的恢复,当你在基础架构出现故障或者失效的时候,能不能在几分钟或者几十分钟的情况下进行恢复,如果我们的服务器出现故障失效需要维修的话,最快做到三四个小时就可以了,除非是你有多重的保障,这样的话,对你的复杂性和可拓展是一个挑战。基础架构本身能够恢复,使得业务没有感知,当一个数据中心垮了,你可以让它在另外一个数据中心在几分钟之内启动,这对业务来讲是非常好的。
第三点,我们讲第一点的时候已经谈到了,老板当然希望有海量规模的资源,但是最好是能够实现低成本的通信计算。腾讯的服务器规模我们今天已经快超过30万台服务器,我如果只是提高10%的服务器利用率,节省的成本可能就在几十个亿,更不要说其他的网络资源结合的情况。所以,从互联网公司来讲,如果你如果从50%提高到70%、80%的利用率的话,成本节省也是非常大的一个方面。这是我们过去云计算云服务的一个主要目标。从第一点来讲,我们需要资源弹性供给;第二点来讲,我们需要基础架构有一个自愈性,对用户有一个体验保障;第三点,就是高效资源利用。所以,我们认为从互联网公司为了承担自己这种庞大的计算业务的规模来讲,实际上这是没有办法也绕不开的槛。过去几年我们一直在做一件事情,就是整合我们的基础设施,然后就是整合我们的数据中心、整合我们的服务器以及网络。像我们的全业务,这个全业务既包括腾讯自有的业务,也包括将来更多的业务,提供IaaS云的基础服务,这样使得我们的业务能够更快、更低成本获得资源,并且更高效地使用资源。
具体来讲怎么做呢?刚才提到,腾讯为了支撑我们的互联网业务,为了支撑开放云平台的业务,我们的整个基础设施规模还是比较庞大的。这个规模基本上是这样一种情况,我们的数据中心分布在全国十几个城市,包括华北地区、华东地区、华南地区,也包括我们在香港和在美国的数据中心,也包括我们使用了一些欧洲、日本的机房,使用了第三方基础架构上的资源去做。现在,我们这种比较大规模的IDT集群来讲的话有50多个,分布在全国十几个城市,如果加上我们的CDN来讲的话,在全国有100多个城市。从IDC带宽来讲,现在差不多有1300多个提供IDC带宽。这里面大量的照片或者一些内容的存储,差不多有100个P的云存储,因为我们有很多的存储是多份的分布,有的有三份,有的有四份,有的有五份,加在一起是几百个P。这样庞大的规模一方面是需要长周期的维护,还有就是业务弹性的要求,另外还有一个就是资源的成本。
为了更好地使我们的基础设施、使我们的基础资源能够支撑我们的云服务和云计算,我们在做几个事情。一个,就是我们认为从云计算和云服务来讲,特别是IaaS云,我认为有两个支柱,一个就是大功率数据中心,天津的云计算中心已经投产,现在有四五万台的规模已经在使用,二期还在建设过程中,预计明年投产。一期二期加在一起的话,差不多有12万台到15万台的规模,实际上来讲,天津云计算中心还在做三期、四期,我们希望最后服务器的规模达到20—30万台,这些都是物理机。在建这样一个庞大的数据中心的时候,我们不仅要考虑到数据中心本身的建设、节能、绿色、环保,同时我们还要考虑到它怎么来更好的适合我们将来开通云服务。这里面我们在做的时候主要探讨轻量化和模块化的建设,我们采用了绿色节能的技术,使得我们部署的时候方便一个模块一个模块建设上限,我们的服务器也会根据一个模块一个模块的布局方式,使得数据中心的楼和基础设施花很长的时间盖起来了,但是最后的部署可能是半年的周期去部署,使得它更好地支撑我们的情况。除了天津,我们在上海、深圳等地都在规划下一轮的数据中心,未来可能会支撑这些城市一百万台的计算规模。
除了大规模的IDC之外,另外一个支撑云计算、云服务的就是云网络,云网络跟传统的有这么几点区别,我们希望有一个能够支持大规模集群计算的,再一个就是所谓的局域网里面,在一个数据中心内部,这样一万到两万台物理机的计算规模,便于业务能够做大规模的集群计算。为了更多的考虑将来计算资源的云化,我们也希望我们的服务器集群能够更好地支持虚拟机的资源。另外,因为我们不可能把几十万台的服务器放在一个地点,我们会考虑到大数据之间的通信容量,根据我们的估算,差不多一个十万台规模的数据中心,在数据中心交换的容量在四五百G,这也是我们在看内部通信模式上来讲的话,实际上我们会发现服务器之间的通信,这种容量实际上有时候比用户的容量要更大,所以,为了更好地支持这种基础服务,我们也要考虑到数据中心内部的网络支撑。这是我们在规模上考虑的情况。
云计算来讲,就是大规模的数据中心和海量的云计算网络,它只是一个支撑点,更多的是使得上游领域做这个资源的情况,我们认为关键的一点,就是软件营运,刚才有专家提到软件是一个核心的东西,弹性、智能的资源管理是基础架构云服务的核心。网络上的带宽容量,从数据中心承担的应用是几十万台服务器,这些东西无论怎么做,很难做到在线提供高效的CPU的利用率的情况,我们需要软件的东西进行一个管理,所以我们有一系列的软件支撑云服务。Matrix这个东西是实际资源和虚拟资源的转化,它是一个什么东西呢?实际上就是我们的计算资源的一个管理工具,往下来看的话,它监控了CPU、监控了服务器,对上来讲的话,它把业务的应用基础,或者叫应用环境,或者叫AEM这种东西汇集起来,当服务器出现故障的时候,我们可以动态的把业务的场景拿到另外一个机器上去,这个东西既包括虚拟机的迁移,也包括实际应用场景的迁移。因为我们内部有很多应用,特别像IaaS应用,它并不是完全的虚拟化,它只是一种计算,所以我们是对它进行一个管理。Sniper是传统对网络时候管理的资源,对上来讲,是基于业务的流量和管理,同时我们在这里增加所谓业务流量调度的情况,当一个出口、专线出现问题的时候,我们可能会把这个容量从一个出口调到另外一个出口去,从Matrix到Snipre我们发现更多的是原有的基础架构计算资源和网络资源的管理,通过一个虚拟层管起来,当你需要资源的时候,我在线动态的给你,当你不需要的时候,我们可以动态的收回。这些东西用了很多年,一个是腾讯内部本身在用的东西,同时在开放业务平台的时候,这些接口都通过PaaS的方式已经启动给第三方使用。所以,谈到我们在过去几年来,把我们的基础架构、把我们庞大的基础设施进行云化,一方面是把我们的技术规模做大,另一方面是把我们基础设施这部分通过软件和软的业务之间屏蔽起来,使得我们的基础架构资源能够被监控管理起来,这样是我们的基础架构云服务的一个核心。
实际上我们有很多专利上的创新,包括一些算法,从专利来讲,腾讯过去几年,我们专利申请量已经占到很大的比例,跟Google一样,申请量是一个量级,授予量也是比较高的量级。在这个里面我们有很多的专利其实跟云计算是相关的,这些专利大部分是在我们的系统里,主要是分布式文件系统,我们的分布式数据库,以及到我们的一些分布式网关,还有一个就是基于这种分布式的集群,以及我们计算资源管理的Matrix,这样的东西是我们过去在软件研发中得到的情况去支撑基础架构云服务的过程。
我要给大家汇报的内容主要就是这些,谢谢大家!
• 中国角型毛巾架行业运营态势与投资潜力研究报告(2018-2023)
• 中国直接挡轴市场深度研究及投资前景分析报告(2021-2023)
• 2018-2023年KTV专用触摸屏市场调研及发展前景分析报告
• 中国回流式高细度粉碎机市场深度调研与发展趋势预测报告(2018-2023)
• 2018-2023年中国原色瓦楞纸行业市场深度研究及发展策略预测报告
• 中国雪白深效精华液市场深度调研及战略研究报告(2018-2023)