云计算厂商在AI时代下的军备竞赛

什么是云计算?

云计算是通过 Internet提供计算服务(包括服务器、存储、数据库、网络、软件、分析和智能),以提供快速创新、弹性资源和规模经济。对企业而言,云计算就是以租用 IT 服务代替购买。使用云计算,企业无需耗费巨额资金购买数据库和软硬件,就可以通过互联网或云技术获得计算能力,并按实际使用情况付费。

企业可以随时在需要时访问它们,而无需自己购买或维护实体的IT基础设施。目前,企业可获得的云技术服务包括但不限于服务器、存储、数据库、网络、软件、分析和商务智能。利用云计算出色的速度、可伸缩性和灵活性,企业能够轻松开发和实现业务 IT 解决方案创新,为业务 IT 解决方案提供支持。

部署云计算资源有三种不同的方法:公共云、私有云和混合云。

公有云:为第三方云服务提供商所拥有和运营,他们通过 Internet 提供其计算资源(如服务器和存储空间),比如阿里云、Amazon Web Services(AWS)、Google Cloud、IBM Cloud 及 Microsoft Azure。在公有云中,所有硬件、软件和其他支持性基础结构均为云提供商所拥有和管理。

私有云:由企业自己搭建和管理的云环境,专供一个企业或组织使用的云计算资源,如对数据敏感度高的银行业私有云。私有云可以实际位于公司的现场数据中心之上。某些公司还向第三方服务提供商付费托管其私有云。私有云拥有专门为其定制的专用资源,具有更高的云平台安全性和隐私级别。

混合云:组合了公有云和私有云,通过允许在这二者之间共享数据和应用程序的技术将它们绑定到一起。混合云允许数据和应用程序在私有云和公有云之间移动, 敏感的服务和应用程序可以安全地驻留在私有云中,而公共网络服务器,或者面向客户的终端则驻留在公共云中,企业能够更灵活地处理业务并提供更多部署选项。比如,企业电子信箱使用由 Google 提供的公用 Gmail 服务;另一方面,企业可以使用其中一种内部部署资料中心进行内部 HR 程序与员工薪资支付,并且只有 HR 部门与 CEO 可存取与编辑。 

多云:多个云供应商提供的多个云服务组合而成,既可以是公共云,也可以是私有云。所有混合云都是多云,但并非所有多云都是混合云。当通过某种形式的集成或编排将多个云连接在一起时,多云就变成了混合云。

云计算服务包括:

1)IaaS(Infrastructure as a Service,基础设施即服务)是云服务的基础层,方便企业从云提供商处租用其IT基础设施,包括服务器、存储设备、网络和操作系统等。企业不需要建设机房和购买服务器,可以按需直接购买IaaS服务商提供的虚拟机、存储、网络和其他基础设施资源,这些基础设施都是部署在云端的,也即经常所说的云计算,像市面上的阿里云、腾讯云、微软云、谷歌云、亚马逊云等。

2)PaaS(Platform as a service,平台即服务)建立在IaaS基础上的云基础设施,为用户提供构建用户级工具和应用程序的资源。它提供计算、网络和存储资源,以及开发工具、数据库管理系统和中间件,用于工具和应用程序的创建;开发人员可以使用PaaS提供商的工具和资源和开发规范来直接构建、测试、托管和扩展应用程序,只需要开发很少的代码。代表公司有MySQL、MangoDB等。

3) SaaS(Software as a service,软件即服务)指通过互联网按需提供软件应用程序,通常是订阅式的,由云提供商管理并负责托管和维护,后续的更新、云平台安全补丁和必要的升级都由他们解决。对于个人用户而言,常用的app网站如即时通讯软件,微博,邮件等,都是SAAS应用。代表公司有Adobe、Salesforce、Meta、Snowflake、Shopify、ServiceNow等。

云计算与AI的结合

从ChatGPT诞生后,AI热潮带来的算力和模型服务需求正在推动云计算巨头重回增长,这背后的驱动力一方面是云计算巨头都不想在刚起步的AI竞赛中落后于竞争对手,另一方面则是企业面临越来越多的海量数据处理需求,数据驱动决策成为各行各业的发展趋势。IDC调研发现,企业用户对云的需求变化,主要体现在以下三方面:在云上获得应用AI的能力、在云上获得AI加持的工具、在云上实现以智能驱动的应用创新。

云被视为AI的承载,云计算为AI提供了强大的计算能力和数据存储空间,以及能够随时随地获得所需资源和算法支持的灵活性、可拓展性,这使得AI能够进行大规模的数据处理和模型训练,从而加速AI的应用和发展。云计算的优势在于其资源池化、按需使用和网络化计算等特点。这些特点使其能够提供更加灵活、高效和可扩展的计算和存储资源。与AI融合后,云计算的智能化水平进一步提高,使得云计算能够更好地满足不断变化的业务需求。

一些常见的AI+云计算应用为:

  • 销售优化和客户洞察:基于AI的深度学习能力生成的推荐算法,几乎是各家电商平台最常见的使用场景。阿里、京东等电商平台凭借超大的电商体量与用户数据,搭建起了一套公用云服务,强有力的云计算本身就是训练AI大模型的基础;另一方面,随着抖音、快手等公司在电商领域的快速崛起,内容电商天然就能利用到当下AIGC工具的强项进行精准的营销布局、销售优化。

阿里大模型通义千问赋能旗下智能音箱天猫精灵打造居家场景智能生态入口

  • 开发流程改善和用户体验:在游戏开发阶段,充分利用AI技术的各种能力能够显著提高整体的开发效率。以设计游戏角色为例,传统情况下一位设计师一周可产出2到3个角色概念草图,但通过使用AI,同样的时间内可以产出20个角色高精度完成稿。这不仅加速了开发流程,还提升了设计的质量和创造性。目前,部分出色的游戏已经引入了一些AI元素,例如通过AI技术实现智能NPC角色的创造,还允许玩家进行AI“捏脸”,甚至通过AI进行唐诗宋词的创作等。由于拥有云计算和AI这些强大的能力,游戏企业只需善用这些技术,就能为游戏客户提供全新的体验。米哈游新作《崩坏:星穹铁道》中,就内置了AI生成器“模因共振机”,玩家上传图片,就能够生成游戏中的主角之一“三月七”的新图。

云计算厂商在AI领域激烈的军备竞赛

自生成式AI爆发后,各大云厂商积极加大对AI领域的投入以打造云计算业务的下一个增长点:

  • 云服务商需要投资于硬件和芯片的研发,增强针对生成式AI任务的硬件和芯片能力,甚至开发新型芯片来加速生成式AI的计算。只有不断站稳硬件层面的前沿,才可以提供更高的性能和成本效益;
  • 云服务商还需要开发行业特定或用例特定的AI框架,通过针对不同领域的独特需求,实现差异化。

云服务厂商在AI布局路线比较:

在云和AI的融合上,微软、谷歌、Meta等头部云计算大厂已出现了明显的分化,本质上是由于AI模型技术差距所决定的。一种路径是全面突破,以微软与谷歌为代表的云厂商依靠先期的相对优势的技术能力,从开源走向闭源,围绕底层模型能力,打造从硬件到模型再到上游应用的闭环AI生态。另一种路径是单点突破,如亚马逊和Meta,将更多的精力放在单点产品(如开源模型或相关硬件开发)上。

谷歌&微软打造闭环AI生态:依靠其相对优势的技术能力从开源走向闭源,全力打造围绕底层模型能力的闭环AI 生态。回顾大语言模型的发展历史,从2017 年谷歌Bert 开始到2020年GPT-3 再到2022 年的ChatGPT,人工智能技术的发展潮流始终由OpenAI(微软)、Deepmind(谷歌)这两家巨头主导,其他厂商根据先行者的开源资料以及相关论文进行模仿并创新。根据NeurIPS 的统计,谷歌&微软在2022 年发布了约60%的大语言模型相关学术论文,占据了技术领域中的绝对话语权。这两家头部AI 厂商迫切希望将自身的技术优势构筑为商业化能力的核心壁垒,以延长后来者的追赶时间。

亚马逊开源社区单点突破:亚马逊于2023 年4 月推出了Bedrock AI 服务,主推面向开发者的大语言模型API 相关内容,赋能开源社区。此外,亚马逊将对于EC2 芯片的研发列为了下一阶段AI 领域的重点。相较于微软&谷歌围绕底层模型能力扩充产品线,亚马逊倾向于多点发散、扬长避短,一方面助力开源社区缩小与微软&谷歌间的模型差距,另一方面积极尝试多种AI 与云融合的可能性。

自研芯片谷歌领先:由于谷歌云基础设施的投入晚于微软及AWS,为满足AI 的大量训练与计算需求,谷歌针对transformer 的框架针对性开发了TPU 加速芯片,从性能来看,TPUv4 的计算能力已经能够支撑谷歌5000 亿参数模型的训练(PaLM-E,训练使用了6144 片 TPUv4 芯片)。根据谷歌云的对比,TPU 系列芯片相较A100 芯片,其性能、成本大幅优化,因此谷歌TPU 在其加速卡中的占比显著高于其他云厂商。

经过早期探索,AWS 底层采用了自研的Nitro 系统架构,将虚拟化功能从服务器卸载到Amazon Nitro 专用芯片上,大大降低了物理性能的损耗,并提升了安全机制,优化了网络与输入输出机制,使得AWS 的能力迅速提升。AWS 针对不同的业务需求,推出了不同类型的自研芯片,如针对底层系统的Nitro 芯片、针对服务器高性能计算的Graviton 以及人工智能业务的推理芯片Inferentia 与训练芯片Trainium。AWS通过在关键计算要素的自研&定制化,实现系统效率的最优。AWS Trainium 是AWS 专门为深度学习训练打造的第二代机器学习 (ML) 加速器。与同类Amazon EC2 实例相比,可节省高达 50% 的训练成本。Trainium 已针对训练自然语言处理、计算机视觉和推荐器模型进行了优化,这些模型用于语音识别、推荐、欺诈检测、图像识别和预测等各种应用程序。AWS Inferentia2 以最低的成本为您的深度学习 (DL) 推理应用程序提供高性能。 加速器在性能和功能方面实现了重大飞跃。与 Inferentia 相比,Inferentia2 的吞吐量提高了 4 倍,延迟低至前者的 1/10。同时,为满足不同模型之间的通用性,AWS 提供AWS NeuronSDK 支持PyTorch 和 TensorFlow 原生集成。

商业化场景微软领先:Copilot 是微软生成式的AI 助手,此前已被应用在类似于Github 等代码开发场景。根据微软在其技术文档中的表示,Copilot 采用了OpenAI 推出的GPT-4 模型,并且进一步优化了输出内容的可靠性以及使用数据的隐私问题,为企业级的应用做好了准备。AI 功能被直接集成到Word、Excel、PowerPoint、Outlook 和Teams 等应用中,用户可以提出问题并提示AI 撰写草稿、制作演示文稿、编辑电子邮件、制作演示文稿、总结会议等。

AI商业化变现开始起步

从微软、谷歌、Meta、亚马逊、苹果23年四季度最新财报看,我们看到AI商业化变现开始取得进展:

  • 微软:AI服务贡献微软Azure和其他云服务收入增长约6%(上季度3%);Github Copilot付费用户超130万,环比增长30%;Azure AI客户达5.3万,其中1/3是Azure新客户;
  • 谷歌、Meta、亚马逊虽然未披露AI对其云计算业务的贡献数据,但亚马逊反映已有数千名客户开始使用Bedrock、Meta继续在广告系统和产品套件中利用AI、谷歌的Duet AI付费用户达数千个。

在AI应用层面,AI概念股大数据分析公司Palantir Technologies(PLTR US)实现了“首个盈利年度”,四季度业绩好于预期,同时给出了高出市场预期的2024年盈利指引。公司CEO表示,看到各行各业对人工智能平台(包括大型语言模型)不断增长的需求。

微软股价在AI浪潮下表现最佳

自ChatGPT在2022年10月30日发布以来至2月14日,除Meta外,主要云计算厂商如微软、谷歌、亚马逊平均涨幅达67%,其中涨幅表现最好的为微软,背后的原因也跟其推出的Copilot最早实现商业化、具备相对优势的技术能力、以及跟OpenAI具备密切的合作关系有关。展望未来,在AI实现商业落地的阶段,我们仍看好微软、谷歌等相对优势较领先、有望率先突破全AI生态闭环的云计算厂商。

参考资料:

1.红杉资本《当AI遇上云计算:强大的企业二重奏》

2.36Kr《互联网云厂商的「新烦恼」:如何在痛苦磨底中讲AI故事?》

3.中信证券《AI 如何影响云计算产业?从北美云巨头说起》