阿里云发布CIPU背后,一个时代有一个时代的云计算

2022-06-22

“每个人做云计算的出发点都不一样。AWS一开始是S3,是一个存储,严格意义上讲是个网盘,有个API接口。但阿里云做云第一个推出的既不是存储,也不是计算,是ODPS(现MaxCompute),大数据计算。”阿里云智能总裁张建锋在接受钛媒体采访时如此表示。

这不禁让人想到一个云计算悖论:如今的云计算巨头最早做的都不是真正的“云”,而只是云计算范畴的一个产品,而真正意义上的“云”,其概念早已经被模糊。

2002年,Amazon上线AWS(Amazon Web Service),本意是把自己的商品目录以SOAP接口的方式开放给开发者,AWS的名字里没有Cloud。

后来AWS于2006年推出S3和EC2的时候,也是提都没提Cloud Computing,EC2底层的虚拟化技术采用了开源的Xen技术,但AWS提炼通用计算平台的思路,促成了云计算的发展,云计算从一种理念落实到一个产品,由此开始萌芽。

真正的“云”应该是什么?阿里云提出了Back to Basic,似乎正在努力回到云计算的本质。

阿里云智能总裁张建锋

一个时代有一个时代的云计算

1961年,John McCarthy在MIT的百周年纪念上第一次提出了公共计算服务的概念:“如果我设想的那种计算机能够成真,那么计算或许某天会像电话一样被组织成公共服务…… 公共计算服务(Utility Computing)将是一种全新的重要工业的基础。”

不论是公共计算服务(Utility Computing),还是1990年代的网格计算(Grid Computing),其实都是如今云计算的雏形,这也启示我们,一个时代有一个时代的“云计算”。

回到云计算发展相对快速的当下,张建锋表示,云计算主要经历了两个阶段,第一阶段是分布式架构,互联网企业高速成长,单一业务的算力要求就能超过万台规模的服务器,由此催生了一些分布式和虚拟化代表的云计算技术,特别是分布式和虚拟化技术,在互联网企业的推动下,快速地完成了从传统的大机向分布式系统的迁移。

第二阶段诞生了资源池化的技术,企业不断提高着对算力可用性和可靠性的要求,在以CPU为中心的分布式架构下,云计算公司通过软件定义的方法,将计算、存储资源池化,构建计算存储分离的架构,对资源统一调度编排,提供给行业客户,以云原生方式重新设计的整个架构跟软件。

“(云计算)两个阶段有共同的特点,都是都是通过软件定义的方法,基于传统的、以CPU为中心的计算体系架构去做优化,已经触及瓶颈。”张建锋表示。

云上客户的需求发生了很大变化,数据密集型的计算越来越多,不断地提高了对云计算提供的低时延、高带宽的需求,这些需求很难通过传统体系结构的优化去满足。

第一是计算和网络传输的时延大。随着体系结构越来越走向分布式,一个大型的应用会分散在多个子系统去部署,这些系统之间需要高速地去互联、需要非常低的时延;

第二,随着大数据应用的不断的增长,使得IDC内部的东西向流量(数据中心内部交互流量)带来越来越大,所以需要来满足流量增大之后网络的一些新的要求;

第三,系统规模越来越大、越来越复杂,需要解决超大规模基础设施的复杂管理问题,也需要解决云内部的超大应用的管理问题。

云计算公司接下来应该怎么办?

张建锋表示,“我们越来越接近于下一个时代,需要定义一个全新的技术体系。”在阿里云看来,CIPU(Cloud infrastructure Processing Units)肯定是下一个时代云计算的象征之一,这是为新型云数据中心设计的专用处理器,未来将替代CPU成为云计算的管控和加速中心。

CIPU:软件定义,硬件加速

商业与技术是云计算上升的双螺旋,波动则是行业向前发展的常态,当云计算产业商业增长慢下来的时候,天平的重心来到了另一侧。

CIPU代表云计算从过去侧重软件创新,迈入到软硬融合的范畴。云计算最大的特点是软件定义,灵活性突出但牺牲了部分硬件性能,越来越严苛的业务需求,要求云计算既要满足软件定义的灵活性,又要有原来硬件原生的性能,自然需要体系性变化。

阿里云技术产品负责人蒋江伟表示,CPU扮演两个角色:一个是计算,一个是控制,协调整个服务器上的各种组件,包括网络、硬盘等,在单一服务器的维度来说,这个逻辑是非常正确的。

对于云计算来说,它需要管理的服务器规模非常大,以阿里云为例,有上百万台服务器的量,在这个体量下,飞天云操作系统需要把它的控制和计算的逻辑进行重新定义,数以百万节点的计算、存储和网络资源,单一CPU的控制能力是做不到的。

而从算力层面,CPU只是算力的其中一个单元,其他GPU的算力、网络的算力、存储相关的算力。此外针对一些标准的软件,比如开源软件、商业软件,运行在x86芯片、ARM芯片上,需要一些额外的效率。云计算发挥时分复用的弹性调度能力,大量的计算需要跨网络进行数据交互的,需要通过CIPU来进行加速。

“CIPU结合飞天操作系统,对比原来我们说的操作系统+CPU的概念,其实非常类似。CPU解决控制和计算,CIPU也解决了绝大部分的控制和少部分的计算加速。”蒋江伟提到。

在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。

计算、存储、网络和安全,云计算最为基础的四大件,基于CIPU和飞天的新一代云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试中表现出优越的性能。

在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。

最大的阻碍是“惯性”?

中国云计算市场和成熟市场仍有相对大的差异,是等待客户认知发展,还是云计算厂商做更多的工作,以AWS为代表的美国市场是前者,阿里云更接近于后者。

或者说由于中国云服务客户所处的早期阶段,其数字化进程往往依赖于此前的技术和认知惯性,而非做更大规模的改动,让阿里云不得不选择后者。

“我总觉得这几年应该是云计算最关键的时候。以前是分布的系统,慢慢构建一个可弹性售卖的系统。本质上它的核心是分布式系统,有能力做分布式系统的,号称自然都能做云。今天云是一个新的结构的引进,这个时代不知道是VMware+英伟达,还是微软自己的一套体系,还是AWS一套体系。”张建锋对于云计算的演进有着自己的看法。

“云计算里面不可能像以前Windows+英特尔,有这么一个大一统的生态。但这几家的竞争还是很白热化的。但中国今天真正在做这方面的工作,我认为是没有的,人家做的云计算跟我们做的云计算,不是一回事情。”

从阿里云内部视角来看,阿里云和AWS都迈入到了类似的阶段,区别是因为在不同的市场里,看到的风景不太一样,进而导致技术路线有所区别。尤其是海量规模的中小客户,不同业务系统的差异很大,强行要求客户做大量改动匹配云服务的技术,显然并不现实。

而阿里云CIPU是跑在云操作系统之下,支撑云操作系统更高效地做云资源的管理和加速,从客户视角来讲,能够管理的是虚拟计算集群、存储集群、网络集群,拿到的是被CIPU管理数据中心提供的云算力。

在客户无感知的情况下,云计算调度效率以及算力性能,明显要好于不用CIPU加速的云算力,客户的应用不需要更改任何代码,相应的工作前置到阿里云底层基础设施,从而加速云计算行业的成熟。

Back to Basic,云计算行业都在为客户能够更好地上云用云,在云计算之上做了大量业务层的工作、各种数字化的项目,这种思路并不能说错,对于云计算的应用和普及有很大的促进作用,但是当上层越来越复杂和厚重的时候,是时候回归到云计算的底层逻辑,重新审视云计算的技术基底,蓄力下一个云计算时代。

(本文首发钛媒体APP 作者|张帅,编辑|盖虹达)

您好!请登录

点击取消回复