Who will win the battle for AI in the cloud?

什麼是雲計算?

雲計算是通過 Internet提供計算服務(包括伺服器、存儲、資料庫、網路、軟體、分析和智慧),以提供快速創新、彈性資源和規模經濟。 對企業而言,雲計算就是以租用IT服務代替購買。 使用雲計算,企業無需耗費巨額資金購買資料庫和軟硬體,就可以通過互聯網或雲技術獲得計算能力,並按實際使用方式付費。

企業可以隨時在需要時訪問它們,而無需自己購買或維護實體的IT基礎設施。 目前,企業可獲得的雲技術服務包括但不限於伺服器、存儲、資料庫、網路、軟體、分析和商務智慧。 利用雲計算出色的速度、可伸縮性和靈活性,企業能夠輕鬆開發和實現業務IT解決方案創新,為業務IT解決方案提供支援。

部署雲計算資源有三種不同的方法:公共雲、私有雲和混合雲。

公有雲:為第三方雲服務提供者所擁有和運營,他們通過 Internet 提供其計算資源(如伺服器和存儲空間),比如阿裡雲、Amazon Web Services(AWS)、Google Cloud、IBM Cloud 及 Microsoft Azure。 在公有雲中,所有硬體、軟體和其他支援性基礎結構均為雲供應商所擁有和管理。

私有雲:由企業自己搭建和管理的雲環境,專供一個企業或組織使用的雲計算資源,如對數據敏感度高的銀行業私有雲。 私有雲可以實際位於公司的現場數據中心之上。 某些公司還向第三方服務提供者付費託管其私有雲。 私有雲擁有專門為其定製的專用資源,具有更高的雲平臺安全性和隱私級別。

混合雲:組合了公有雲和私有雲,通過允許在這二者之間共用數據和應用程式的技術將它們綁定到一起。 混合雲允許數據和應用程式在私有雲和公有雲之間移動, 敏感的服務和應用程式可以安全地駐留在私有雲中,而公共網路伺服器,或者面向客戶的終端則駐留在公共雲中,企業能夠更靈活地處理業務並提供更多部署選項。 比如,企業電子信箱使用由 Google 提供的公用 Gmail 服務;另一方面,企業可以使用其中一種內部部署資料中心進行內部 HR 程式與員工薪資支付,並且只有 HR 部門與 CEO 可存取與編輯。 

多雲:多個雲供應商提供的多個雲服務組合而成,既可以是公共雲,也可以是私有雲。 所有混合雲都是多雲,但並非所有多雲都是混合雲。 當通過某種形式的集成或編排將多個雲連接在一起時,多雲就變成了混合雲。

雲計算服務包括:

1)IaaS(Infrastructure as a Service,基礎設施即服務)是雲服務的基礎層,方便企業從雲供應商處租用其IT基礎設施,包括伺服器、存儲設備、網路和操作系統等。 企業不需要建設機房和購買伺服器,可以按需直接購買IaaS服務商提供的虛擬機、存儲、網路和其他基礎設施資源,這些基礎設施都是部署在雲端的,也即經常所說的雲計算,像市面上的阿裡雲、騰訊雲、微軟雲、谷歌雲、亞馬遜雲等。

2)PaaS(Platform as a service,平臺即服務)建立在IaaS基礎上的雲基礎設施,為使用者提供構建使用者級工具和應用程式的資源。 它提供計算、網路和存儲資源,以及開發工具、資料庫管理系統和中間件,用於工具和應用程式的創建;開發人員可以使用PaaS供應商的工具和資源和開發規範來直接構建、測試、託管和擴展應用程式,只需要開發很少的代碼。 代表公司有MySQL、MangoDB等。

3) SaaS(Software as a service,軟體即服務)指通過互聯網按需提供軟體應用程式,通常是訂閱式的,由雲供應商管理並負責託管和維護,後續的更新、雲平臺安全補丁和必要的升級都由他們解決。 對於個人使用者而言,常用的app網站如即時通訊軟體,微博,郵件等,都是SAAS應用。 代表公司有Adobe、Salesforce、Meta、Snowflake、Shopify、ServiceNow等。

雲計算與AI的結合

從ChatGPT誕生后,AI熱潮帶來的算力和模型服務需求正在推動雲計算巨頭重回增長,這背後的驅動力一方面是雲計算巨頭都不想在剛起步的AI競賽中落後於競爭對手,另一方面則是企業面臨越來越多的海量數據處理需求,數據驅動決策成為各行各業的發展趨勢。 IDC調研發現,企業使用者對雲的需求變化,主要體現在以下三方面:在雲上獲得應用AI的能力、在雲上獲得AI加持的工具、在雲上實現以智慧驅動的應用創新。

雲被視為AI的承載,雲計算為AI提供了強大的計算能力和數據存儲空間,以及能夠隨時隨地獲得所需資源和演算法支援的靈活性、可拓展性,這使得AI能夠進行大規模的數據處理和模型訓練,從而加速AI的應用和發展。 雲計算的優勢在於其資源池化、按需使用和網路化計算等特點。 這些特點使其能夠提供更加靈活、高效和可擴展的計算和存儲資源。 與AI融合后,雲計算的智慧化水平進一步提高,使得雲計算能夠更好地滿足不斷變化的業務需求。

一些常見的AI+雲計算應用為:

  • 銷售優化和客戶洞察:基於AI的深度學習能力生成的推薦演算法,幾乎是各家電商平臺最常見的使用場景。 阿里、京東等電商平臺憑藉超大的電商體量與用戶數據,搭建起了一套公用雲服務,強有力的雲計算本身就是訓練AI大模型的基礎;另一方面,隨著抖音、快手等公司在電商領域的快速崛起,內容電商天然就能利用到當下AIGC工具的強項進行精準的行銷佈局、銷售優化。

阿裡大模型通義千問賦能旗下智慧音箱天貓精靈打造居家場景智慧生態入口

  • 開發流程改善和用戶體驗:在遊戲開發階段,充分利用AI技術的各種能力能夠顯著提高整體的開發效率。 以設計遊戲角色為例,傳統情況下一位設計師一周可產出2到3個角色概念草圖,但通過使用AI,同樣的時間內可以產出20個角色高精度完成稿。 這不僅加速了開發流程,還提升了設計的品質和創造性。 目前,部分出色的遊戲已經引入了一些AI元素,例如通過AI技術實現智慧NPC角色的創造,還允許玩家進行AI“捏臉”,甚至通過AI進行唐詩宋詞的創作等。 由於擁有雲計算和AI這些強大的能力,遊戲企業只需善用這些技術,就能為遊戲客戶提供全新的體驗。 米哈遊新作《崩壞:星穹鐵道》中,就內置了AI生成器“模因共振機”,玩家上傳圖片,就能夠生成遊戲中的主角之一“三月七”的新圖。

雲計算廠商在AI領域激烈的軍備競賽

自生成式AI爆發后,各大雲廠商積極加大對AI領域的投入以打造雲計算業務的下一個增長點:

  • 雲服務商需要投資於硬體和晶元的研發,增強針對生成式AI任務的硬體和晶元能力,甚至開發新型晶元來加速生成式AI的計算。 只有不斷站穩硬體層面的前沿,才可以提供更高的性能和成本效益;
  • 雲服務商還需要開發行業特定或用例特定的AI框架,通過針對不同領域的獨特需求,實現差異化。

雲服務廠商在AI布局路線比較:

在雲和AI的融合上,微軟、谷歌、Meta等頭部雲計算大廠已出現了明顯的分化,本質上是由於AI模型技術差距所決定的。 一種路徑是全面突破,以微軟與谷歌為代表的雲廠商依靠先期的相對優勢的技術能力,從開源走向閉源,圍繞底層模型能力,打造從硬體到模型再到上游應用的閉環AI生態。 另一種路徑是單點突破,如亞馬遜和Meta,將更多的精力放在單點產品(如開源模型或相關硬體開發)上。

谷歌&微軟打造閉環AI生態:依靠其相對優勢的技術能力從開源走向閉源,全力打造圍繞底層模型能力的閉環AI 生態。 回顧大語言模型的發展歷史,從2017 年谷歌Bert 開始到2020年GPT-3 再到2022 年的ChatGPT,人工智慧技術的發展潮流始終由OpenAI(微軟)、Deepmind(谷歌)這兩家巨頭主導,其他廠商根據先行者的開源資料以及相關論文進行模仿並創新。 根據NeurIPS 的統計,谷歌&微軟在2022 年發佈了約60%的大語言模型相關學術論文,佔據了技術領域中的絕對話語權。 這兩家頭部AI 廠商迫切希望將自身的技術優勢構築為商業化能力的核心壁壘,以延長後來者的追趕時間。

亞馬遜開源社區單點突破:亞馬遜於2023 年4月推出了Bedrock AI 服務,主推面向開發者的大語言模型API 相關內容,賦能開源社區。 此外,亞馬遜將對於EC2晶元的研發列為了下一階段AI領域的重點。 相較於微軟&谷歌圍繞底層模型能力擴充產品線,亞馬遜傾向於多點發散、揚長避短,一方面助力開源社區縮小與微軟&谷歌間的模型差距,另一方面積極嘗試多種AI 與雲融合的可能性。

自研晶元谷歌領先:由於谷歌雲基礎設施的投入晚於微軟及AWS,為滿足AI的大量訓練與計算需求,谷歌針對transformer 的框架針對性開發了TPU 加速晶元,從性能來看,TPUv4 的計算能力已經能夠支撐谷歌5000 億參數模型的訓練(PaLM-E,訓練使用了6144 片 TPUv4 晶片)。 根據谷歌雲的對比,TPU 系列晶片相較A100 晶元,其性能、成本大幅優化,因此谷歌TPU 在其加速卡中的佔比顯著高於其他雲廠商。

經過早期探索,AWS 底層採用了自研的Nitro 系統架構,將虛擬化功能從伺服器卸載到Amazon Nitro 專用晶片上,大大降低了物理性能的損耗,並提升了安全機制,優化了網路與輸入輸出機制,使得AWS的能力迅速提升。 AWS 針對不同的業務需求,推出了不同類型的自研晶元,如針對底層系統的Nitro 晶元、針對伺服器高性能計算的Graviton 以及人工智慧業務的推理晶元Inferentia 與訓練晶元Trainium。 AWS通過在關鍵計算要素的自研&定製化,實現系統效率的最優。 AWS Trainium 是AWS 專門為深度學習訓練打造的第二代機器學習 (ML) 加速器。 與同類Amazon EC2 實例相比,可節省高達 50% 的訓練成本。 Trainium 已針對訓練自然語言處理、計算機視覺和推薦器模型進行了優化,這些模型用於語音識別、推薦、欺詐檢測、圖像識別和預測等各種應用程式。 AWS Inferentia2 以最低的成本為您的深度學習 (DL) 推理應用程式提供高性能。 加速器在性能和功能方面實現了重大飛躍。 與 Inferentia 相比,Inferentia2 的輸送量提高了 4 倍,延遲低至前者的 1/10。 同時,為滿足不同模型之間的通用性,AWS 提供AWS Neuron SDK 支援PyTorch 和 TensorFlow 原生集成。

商業化場景微軟領先:Copilot 是微軟生成式的AI 助手,此前已被應用在類似於Github等代碼開發場景。 根據微軟在其技術文檔中的表示,Copilot 採用了OpenAI推出的GPT-4 模型,並且進一步優化了輸出內容的可靠性以及使用數據的隱私問題,為企業級的應用做好了準備。 AI 功能被直接集成到Word、Excel、PowerPoint、Outlook 和Teams 等應用中,使用者可以提出問題並提示AI 撰寫草稿、製作演示文稿、編輯電子郵件、製作演示文稿、總結會議等。

AI商業化變現開始起步

從微軟、谷歌、Meta、亞馬遜、蘋果23年四季度最新財報看,我們看到AI商業化變現開始取得進展:

  • 微軟:AI服務貢獻微軟Azure和其他雲服務收入增長約6%(上季度3%); Github Copilot付費使用者超130萬,環比增長30%; Azure AI客戶達5.3萬,其中1/3是Azure新客戶;
  • 谷歌、Meta、亞馬遜雖然未披露AI對其雲計算業務的貢獻數據,但亞馬遜反映已有數千名客戶開始使用Bedrock、Meta繼續在廣告系統和產品套件中利用AI、谷歌的Duet AI付費使用者達數千個。

在AI應用層面,AI概念股大數據分析公司Palantir Technologies(PLTR US)實現了“首個盈利年度”,四季度業績好於預期,同時給出了高出市場預期的2024年盈利指引。 公司CEO表示,看到各行各業對人工智慧平臺(包括大型語言模型)不斷增長的需求。

微軟股價在AI浪潮下表現最佳

自ChatGPT在2022年10月30日發佈以來至2月14日,除Meta外,主要雲計算廠商如微軟、谷歌、亞馬遜平均漲幅達67%,其中漲幅表現最好的為微軟,背後的原因也跟其推出的Copilot最早實現商業化、具備相對優勢的技術能力、以及跟OpenAI具備密切的合作關係有關。 展望未來,在AI實現商業落地的階段,我們仍看好微軟、谷歌等相對優勢較領先、有望率先突破全AI生態閉環的雲計算廠商。

參考資料:

1.紅杉資本《當AI遇上雲計算:強大的企業二重奏》

2.36Kr《互聯網雲廠商的「新煩惱」:如何在痛苦磨底中講AI故事?》

3.中信證券《AI 如何影響雲計算產業?從北美雲巨頭說起》