欢迎来到火狐体育app官网下载_全站在线登录官网! 主要产品:砂石制砂机、对辊式破碎机、冲击式破碎机、液压开箱制砂机
制砂机设备

SemiAnalysis详解微软AI战略报告全文:从能源到Token

时间: 2025-11-22 02:21:42 |   作者: 制砂机设备

产品介绍

  

SemiAnalysis详解微软AI战略报告全文:从能源到Token

  11月13日,SemiAnalysis发布了一篇他们对微软AI战略的详细分析报告,并指出微软在一年之前AI战略的转变——大幅暂停了数据中心建设,并放缓了对OpenAI的承诺——是一个失误。

  但SemiAnalysis认为,随着OpenAI股权架构的进一步简化,微软正在数据中心市场“惊艳回归”。“雷德蒙德的巨头想到自己曾走错了路,因而进行了重大调整。随着新宣布的OpenAI合作协议,预计Azure的增长将在未来几个季度加速。”

  这篇报告深入分析了微软“暂停”背后的原因,包括对未来AI需求的误判、自建项目执行缓慢,以及对利润率和资本回报率的重新权衡。微软在裸机服务器GPU集群建设上的迟缓。与此同时,微软自身的AI产品线(从基础设施到应用层)也面临新创公司和传统巨头的激烈挑战,GitHub Copilot的护城河被Anthropic等新兴模型瓦解,企业客户和开发者开始转向更灵活的平台。

  报告认为,2025年,微软意识到战略失误,重新加码AI投资,积极寻求各类算力扩容方式,包括自建、租赁、合作等多元路径。得益于与OpenAI新签订的协议,Azure增长预期强劲。微软不仅拥有OpenAI模型和芯片的IP访问权,还在积极布局自研模型(MAI系列)、拓展Office Copilot生态,并尝试打造“Token-as-a-Service”业务模式,力图实现AI垂直整合,提升利润率和市场竞争力。

  微软在2023年和2024年位居AI领域的顶尖位置,但一年前他们的战略发生了重大转变。他们大幅暂停了数据中心的建设,并放缓了对OpenAI的承诺。我们一年前就向数据中心模型客户指出了这一点,随后还撰写了一篇相关的新闻通讯文章。

  2025年,OpenAI开始多元化合作伙伴,逐渐远离微软,直接与Oracle、CoreWeave、Nscale、SBEnergy、亚马逊和谷歌签订了大量计算合同。

  这看似是一个严峻的局面。今天,我们发布了一篇文章,剖析微软的失误,同时还包括了与萨蒂亚·纳德拉(Satya Nadella)及我们的好友Dwarkesh Patel的公开访谈,在访谈中我们就微软的人工智能战略和执行提出了质疑。

  如今,微软对AI的投资重回正轨,这家人工智能巨头对加速计算的需求达到了前所未有的高度。雷德蒙德的巨头想到自己曾走错了路,因而进行了重大调整。随着新宣布的OpenAI合作协议,预计Azure的增长将在未来几个季度加速,正如我们的Token经济模型所预测的那样。

  微软在AI token经济堆栈(AI Token Economic Stack)的每一个环节都有布局,且正经历加速增长,我们预计这一趋势将在未来几个季度和几年内持续。

  该公司积极寻求近期产能,并迅速采取行动获取所有可用资源。自建、租赁、NeoCloud、偏远地区——一切手段都在考虑之中,以加快近期产能增长。

  在硬件方面,微软甚至可使用OpenAI的定制芯片IP,这是目前最令人兴奋的定制芯片ASIC之一。鉴于OpenAI的ASIC开发进展远优于微软的Maia项目,微软最终可能会使用该芯片来支持OpenAI模型。这反映了微软与OpenAI模型的关系。虽然他们能够访问OpenAI模型,但仍在尝试用微软AI训练自己的基础模型。我们始终相信他们正试图成为真正垂直整合的人工智能巨头,消除大部分第三方的毛利空间,并以低于同行的成本提供更高智能的产品。

  在本报告中,我们将深入探讨微软人工智能业务的每个方面。首先回顾OpenAI合作伙伴关系的历史,涵盖微软在2023-24年数据中心投资的历史性激增,以及其OpenAI训练集群规模的爆炸性增长——从几十兆瓦到千兆瓦。随后分析“大暂停”及其在数据中心市场的惊艳回归。

  很大程度上,这一切都源于OpenAI所有权结构的极大简化,以及微软专注于通过无状态API将模型能力转化为产品应用(及收入)所需基础设施的战略。

  在每个部分中,我们将深入探讨微软的产品组合、竞争定位及前景。对于微软来说,情况并非全是好消息,这家软件巨头正面临一系列新进入者和挑战者,威胁其主导的生产力套件和AI计算平台。

  2022年11月,ChatGPT的发布改变了世界。微软是首个对“ChatGPT时刻”做出一定的反应的超级云服务商,而且反应极为壮观。虽然微软早在2019年就向OpenAI投资了10亿美元,但在2023年1月将投资规模扩大了10倍。同时,微软展开了史上最激进的数据中心建设,主要由其关键AI合作伙伴推动。

  下图展示了数据中心的预租赁活动,这是容量增长和资本支出的最佳领先指标之一。微软从2023年第一季度到2024年第二季度的预租赁活动,远超于了其他超级云服务商的总和。2023年第三季度,微软单季度的租赁规模几乎等同于2022年全年北美市场的总租赁量。

  而数据中心租赁只是整体情况的一部分。我们逐栋建筑的数据中心行业模型显示,2024年和2025年微软自建容量的兆瓦数增长前所未有。此外,微软还与Coreweave和Oracle签订了数十亿美元的合同,以获取额外容量。

  这次建设的最具标志性项目或许是“Fairwater”计划。2023-2024年,微软计划并同时建造了地球上两座最大的数据库中心。让我们简要回顾一下微软2023-2024年建设规模。下图展示了他们的第一个大型训练集群,位于爱荷华州,GPT3.5即在此训练。我们估计该集群配备了约2.5万块A100芯片。虽然下图所示园区相当大,但我们大家都认为OpenAI仅使用了Ballard建筑中的两个数据大厅,大约19兆瓦。

  第二个大型集群建在亚利桑那州。它跟着时间逐步扩展,逐栋建筑建设,2023年完成首栋H100建筑,2024年在另一设施中建成H200,2025年又有两座数据中心配备GB200。总计,我们估算四栋建筑中约有13万块GPU。

  微软为OpenAI打造的下一代集群称为Fairwater,规模显著更大。每个“Fairwater”由两栋建筑组成——一栋标准CPU及存储设施,功率为48兆瓦,另一栋为超密集GPU建筑。后者为两层,总面积约80万平方英尺,功率约300兆瓦,相当于超过20万个美国家庭的用电量。每栋建筑配备超过15万块GB200GPU。下图为位于威斯康星州的设施,完全专用于OpenAI。

  在乔治亚州,QTS为微软建造了一个“姊妹”设施,同样为OpenAI服务。虽然冷却系统不同,但GPU建筑功率同样约为300兆瓦。下图展示了该设施的规模——全球无另外的建筑拥有如此多的风冷冷却机组!现场变电站的规模也令人印象深刻。

  不仅单栋建筑是地球上最大的,它们还坐落于更大的园区内。在亚特兰大,第二个Fairwater园区已在紧锣密鼓地建设中。

  在威斯康星州,第二个Fairwater即将开工建设,但故事还未结束,微软正在筹备更大规模的第三阶段。我们大家都认为微软设计了两栋超过600兆瓦的单体建筑,每个设施的CPU/存储和柴油发电机数量是标准约300兆瓦Fairwater的两倍。下图展示了这两栋600兆瓦建筑的场地规划。如果按时建成,它们将成为全世界最大的单体数据中心。

  锦上添花的是,微软计划将所有这些主要的人工智能区域通过超高速的AI广域网连接,速度超过300Tb/s,并具备扩展至10Pb/s以上的能力。我们在一年多前的文章《多数据中心训练:OpenAI击败谷歌基础设施的雄心计划》中就曾指出这一点。

  下图展示了一个假设的5GW分布式集群的网络设计示意图。我们将在报告后续部分详细讨论Fairwater网络架构的每个方面,基于我们的AI网络模型。

  在全速推进之后,微软突然决定以一种惊人的方式踩下刹车。观察数据中心预租赁总量,微软在高峰期独占了超过60%的租赁合同!但在2024年第二季度之后,新租赁活动冻结,而其他大型云服务商则明显地增加。微软目前占所有大型云服务商预租赁容量的比例已降至25%以下。

  这些站点被其他主要竞争者如Oracle、Meta、CoreWeave、谷歌、亚马逊等接手。由于态度冷淡和对AI缺乏信心,微软永远失去了大量AI基础设施的市场份额。

  此外,微软还大幅放缓了自建项目。下方展示了一些图片,列出了约950MW的“冻结”IT容量。这还不包括弗吉尼亚、乔治亚、亚利桑那州以及国际上的多个其他数据中心。

  在同一时间范围内,其他竞争者的大型数据中心从动工到开始运行工作负载。微软总共暂停了超过3.5GW的容量建设,这些容量原计划在2028年前建成。

  为了理解“大暂停”的原因和后果,我们来深入分析微软AI产品组合的每个部分。我们分析不同层级利润率的首选框架是“AI Token工厂经济栈”(AI Token Factory Economics Stack):

  - 从芯片到token,广泛的供应商都暴露在人工智能基础设施建设的浪潮中。

  - 目前,单一最大利润Stack当然是由英伟达驱动的芯片层,它的毛利率高达75%。

  以当前价格来看,我们观察到领先的模型制造商在其直接API业务上实现了超过60%的利润率。

  Azure的AI裸机服务器:远离1500亿美元的OpenAI毛利润,执行不力及投资回报率担忧

  在构建大规模裸机GPU/XPU集群业务中取得成功的玩家,已经掌握了构建大规模基础设施的艺术。这是一种多种因素的结合,如执行速度、对市场和最终用户需求的理解、选址和融资等。

  我们对Oracle的深度分析指出了其为赢得市场所做的重要战略调整。除科技巨头外,CoreWeave是一个没有初始规模但通过完美执行上述标准赢得市场的典型案例。现在让我们来看看微软的执行情况。

  评估微软的裸机努力,研究Fairwater项目很有用。2024年初,有传言称微软为OpenAI投入了1000亿美元的“Stargate”项目。我们大家都认为他们计划将集群托管在威斯康星州的数据中心园区。如前所述,该路线图本可将该站点容量提升至超过2GW。

  当然,首个价值1000亿美元的Stargate合同最终落到了Oracle和德克萨斯州阿比林。

  我们认为微软执行缓慢起到了是关键原因。动工两年多后,第一阶段仍未投入运营。相比之下,Oracle于2024年5月在德克萨斯州阿比林动工,并于9月开始运营。

  我们还认为微软对1.5GW扩容的规划不佳。从电力传输角度看,满负荷容量至少要到2027年中期才能交付,比Oracle的阿比林集群突破1GW的时间晚了一年。微软不足以满足OpenAI尽快扩展的需求——这显示出对市场的误判。AI实验室别无选择,只能寻找其他合作伙伴来满足其对近期计算能力的巨大需求。

  众所周知,Oracle已成为OpenAI的主要GPU合作伙伴。在过去的十二个月里,他们签订了超过4200亿美元的合同价值,转化为约1500亿美元的毛利润(详细模型可在AITCO模型中找到,涵盖每个NeoCloud计算合同及其成本/利润率细分)。

  考虑到典型的五年期限,300亿美元的年毛利润将使微软2025财年1940亿美元的年毛利润提升超过18%。公平地说,失去OpenAI合同不单单是执行问题,在某一些程度上也是一个有意识的决定。从微软的角度来看,拿下所有OpenAI合同将会恶化其Azure业务的质量,因为:

  与微软整体业务相比,Oracle AI的投资回报率(ROIC)确实较低,为20%,而微软整体目前为35%-40%。然而,我们得知,一旦剔除OpenAI的收入分成(预计在2030-2032年间结束),微软自身的AI投资回报率并不比Oracle高多少。

  然而,微软似乎忘记了自己近期的历史教训——他们从以重度裸机服务器(Bare Metal)工作负载为主的AI收入结构,转向更多API和token工厂业务模式,导致其投资回报率持续提升。他们可能刚刚允许竞争对象为自己进入AI工厂业务提供资金!

  微软暂停的一个关键教训是,他们严重低估了来自别的玩家(如Meta)的XPU云需求规模。我们目前正目睹他们误判的影响。别的玩家预订的RPO(剩余履约义务)明显多于微软。

  微软现已坚定重返市场,但他们扩展近期容量的选项所剩无几。被迫选择最糟糕的方案:从NeoCloud(注:即CoreWeave这样的公司)租用GPU,再转售给第三方,无论是裸机还是通过Foundry的token。我们将在下文讨论Foundry。当然,租用裸机服务器再转售裸机服务器的业务将导致Azure的利润率明显低于平常。

  微软回避自建数据中心,结果意识到失误后不得不向NeoCloud支付利润。

  在今年三月发布的Cluster MAX1.0中,我们讨论了Azure在网络性能、安全性和最新GPU可用性方面的领头羊,并已占据OpenAI计算扩展的绝大部分份额。这使其明确处于我们排名的金牌层级,紧随CoreWeave之后,与Nebius、Oracle和Crusoe等公司并列。然而,到十一月初发布的ClusterMAX2.0时,针对AI工作负载的新CycleCloud和AKS功能开发明显停滞。

  通过与140多位来自大型AI公司(如OpenAI、Meta、Snowflake和Cursor)及初创企业(如PeriodicLabs、AdaptiveML、Jua、NousResearch、DatologyAI和Cartesia)的计算采购负责人交流,我们得知Azure在托管集群或按需虚拟机领域并非重要玩家。Azure的大规模集群GPU容量似乎直接供应给OpenAI,剩余部分被财富500强的传统企业内部开发者抢占。这些喜欢开发内部RAG聊天机器人的公司通常签有企业协议,专门从Azure采购所有基础设施即服务(IaaS)。

  在我们的实测中,Azure不销售用于AI的托管Slurm或Kubernetes集群的原因显而易见:我们得知CycleCloudSlurm集群在易用性、监控、可靠性和健康检查方面存在非常明显差距。Azure为OpenAI提供的整机裸机体验(当他们一次租用整个数据大厅时)与CoreWeave、Nebius或Fluidstack等供应商向其最终用户提供的体验截然不同。

  行业内典型的GPU计算买家仍然主要寻找规模在64到8000个GPU的H100、H200、B200或B300HGX服务器。买家寻求GB200、GB300或任何AMD产品的情况则较少。然而,微软在AMD GPU以及针对其最大客户(即OpenAI)的GB200/GB300NVL72机架规模系统上投入了大量时间和精力。你能够最终靠工程师薪资的运营支出(OPEX)或GPU采购及新设施的资本支出(CAPEX)来衡量这一点。

  另一种观察角度是开源社区。根据HuggingFace——任何公司发布和下载开源模型的事实标准平台——与微软相关的知识产权每日模型下载量比亚马逊少5倍,比谷歌少3倍。

  微软拒绝了OpenAI的业务,但这并不代表他们正在占领企业或长尾市场。在这一指标上,他们明显落后于其他超级云服务商。

  所有这些结果都很明确:积极寻求计算能力的AI公司正在转向其他平台。这些需求范围从价值约100万美元、为期1年的64GPU合同,到价值超过5亿美元、为期3年的8000GPU合同不等。我们正真看到一些勇于探索商业模式的公司在3月购买了256个H100,11月又寻求9000个GB300NVL72。目前,Azure正在错失所有这些增长机会。

  为满足这一客户群,我们大家都认为Azure必须重新设计其面向AI的CycleCloud和AKS产品,简化当前的集群部署和监控体验。他们要构建健康检查功能,默认部署到集群中,并主动从硬件故障中恢复。同时,他们要组建市场推广和支持团队,配备充足人员以向终端用户交付这些集群。我们在ClusterMAX2.0中提到,由于其对从A轮到AI独角兽创业公司的使用者真实的体验不佳,Azure有被降级为银牌的风险。

  话虽如此,Azure显然拥有成功的基础。他们在全球拥有70个区域、400多个数据中心。他们运营着有史以来最大的SaaS业务,拥有向全球最大组织销售的经验:从为美国情报机构提供的“Azure Government Secret”到为中国消费的人提供的Windows PC。

  Azure战略的关键是通过广泛的地理布局,将AI更贴近企业客户。这是对AI工作负载未来形态的方向性押注:

  - 当今最大的推理用例,即ChatGPT和编程Agent,并不敏感于延迟,跟着时间跨度的增加,这种敏感度还会促进降低。它们大多也不涉及敏感的企业数据。因此,延迟和数据本地化并不重要——关键是尽快扩大容量,以向全球销售更多的令牌。

  - 未来,企业用例有几率会成为增长的重要来源。它们一定要遵守高安全性、数据本地化法律,以及大规模的公司偏好的典型环境和约束。它们还将与非AI工作负载共同处理,例如特定Azure区域的CosmosDB存储。缺点是数据中心选址过程更复杂,因为电力限制影响着全球大多数主要都市区。相较于在“偏远地区”建设、拥有过剩电力的竞争对手,它们无法快速扩容。

  构建并利用全球布局是微软构建“可替代”资源池的核心理念。他们已取得了一些成功。例如,字节跳动Seed在美国亚利桑那州训练其视频模型,而非中国或马来西亚。我们始终相信字节跳动Seed在美国本土租用所有主要美国超级云服务商的资源。虽然此次运行是在竞争对手平台上,但显示出某一些程度的资源可替代性并非必需。

  这一基础设施战略与领先AI实验室如OpenAI的策略截然不同。鉴于最耗电的工作负载响应时间长达数分钟(例如深度研究、推理模型),几毫秒的网络延迟对它们而言无关紧要。

  数据中心可以建在任何可能的位置,服务全球流量。这一点还受到训练后工作负载迅速增加的推动,这类工作负载同样对延迟不敏感,也不需要大量集中计算资源。

  如果你要进一步探索这支可替代的舰队,一个重要的考量便浮现出来。这一个话题最近受到了大量关注,那就是:折旧。

  声名狼藉的Michael Burry最近声称,所有超级云服务商(Meta、Google、Oracle、Microsoft、Amazon)都通过延长其IT资产的常规使用的寿命来人为地提升收益。这种提升使得“常规使用的寿命”从2020年的3-5年延长到了现今的5-6年。

  Burry的论断基于一个假设,即NVIDIA的产品周期现为2-3年,远低于资产的常规使用的寿命。我们大家都认为这是该论点的致命缺陷。新的会计处理虽然在短期内对公司有利,但也是基于数据中心的真实运营经验。

  回到2020年,当微软、Meta和谷歌将常规使用的寿命从3年延长到4年时,我们还处于“ChatGPT之前”的第二年(2BC)。而现在,进入“ChatGPT发布之后”的第三年(3AD),常规使用的寿命的延长对资本支出需求巨大的超级云服务商来说已证明是有益的。那么,从2020年开始并持续到2025年,IT设备发生了什么变化?答案是可靠性和激励机制。

  戴尔、SuperMicro、惠普企业(HPE)、联想和思科等服务器制造商(OEM)长期以来都提供标准的3到5年保修期服务器。5年保修当然更贵,但也有许多延长保修选项可达6年或7年。价格自然会上涨,但只要供应商备足备件,就能对磨损的节点做维修。同时,思科、Arista、Aruba和瞻博网络(Juniper)等网络设备供应商已尝试对其交换机提供终身保修。存储设备供应商也提供类似服务——只需支付年度支持合同,他们就会持续更换磨损的硬盘。可以把它想象成汽车市场:高端市场可能每两年租赁并升级他们的奔驰,而其他人则开着二十年车龄的老旧车,只需支付油费和保险。

  当我们观察全球最大的高性能计算(HPC)集群和超级计算机时,这一点得到了验证。这些领先系统运行着市场上最大、最强、最热(有时也是最高效)的处理器。超级计算中心率先采用液冷技术,并拥有围绕系统构建数据中心的经验,而不是将系统塞进已有的数据中心。

  位于橡树岭国家实验室的IBMSummit长期以来是Top500上世界最快的超级计算机。它于2018年6月投入生产,经过6.5年的连续运行,于2024年11月退役。Summit使用了2016年发布的IBMPower9处理器,其采购早在2014年完成。

  日本理化学研究所(RIKEN)于2020年安装的Fugaku仍在运行,排名Top500第七。2018年安装在劳伦斯利弗莫尔国家实验室(LLNL)的Sierra仍在运行,排名第20。2016年安装在中国无锡国家超级计算中心的神威·太湖之光仍在运行,排名第21。Exascale级系统如ElCapitan、Frontier和Aurora(分别排名第1、2和3)于2021至2025年间投入到正常的使用中,预计将运行至2027至2032年。

  最后,搭载14,400个H100 GPU的微软NDv5系统Eagle于2023年安装,排名第5。我们预计该系统利用率极高,并将持续运行多年。

  V100于2017年5月发布,2017年秋季开始批量出货,NVIDIA最后一次发货是在2022年1月。换句话说,NVIDIA从新GPU推出起,持续供应备件超过5年。超级云服务商和OEM有充足时间备货,保持实例运行至今——也就是V100GPU开始出货后整整8年。

  当然,从纯粹的每兆瓦收入角度来看,今天的V100并不是一个好生意。我们甚至知道一些超级云服务商正在拆除旧数据中心中的V100、A100,甚至更早的H100GPU,以腾出空间安装最新最强的设备。重点不是因为GPU已经磨损老化,而是由于电力和空间限制,他们选择用更高收益的资产替换现有的盈利资产。

  优化GPU云经济性的关键是最大化其经济寿命。我们的AI云总拥有成本(TCO)模型提供了有用的框架。分析H100集群的TCO,剔除资本成本后,经营成本约为每GPU每小时0.30-0.40美元。问题是,5年后GPU是否还能产生超过该成本的收益。

  该经营成本必须与每GPU产生的收入相匹配。显然,随着Nvidia推出明显提升每美元和每瓦吞吐量的新芯片,GPU的定价能力迅速减弱。我们的AI云TCO模型被全球大多数GPU大买家及其财务支持者信赖,提供所有Nvidia、AMD、TPUv7&v8以及Trainium2&3SKU的长期租赁价格预测,并包含详细的集群物料清单分析。

  我们的历史预测准确率令人惊讶!但从Azure等公司的角度来看,目标是实现相对于广泛市场更高的定价能力。未来仍不确定,但也许会出现多种发展路径:

  - 通过利用其企业关系、PaaS层和垂直整合(应用程序、模型、token等),Azure可能能够从使用了6年的旧GPU中提取足够的价值,从而避免提前退役。

  - 另一条路径,同样与企业业务相关,是在加速计算的同时,向客户推销利润更高的服务(例如非AI服务,如数据库)。即使这些6年旧的GPU本身并不产生利润,但如果它们恰好成为推动更高利润服务销售的原因,那么继续运营它们可能是合理的。

  在我们看来,这就是为什么Azure的“可替代设备群”战略可能合理,并能实现比其他竞争者更高的结构性投资回报率(ROIC)。主要的不确定因素仍然是企业采用的规模,以及Azure能否成功推销更高价值的服务。

  未来会怎样?Vera Rubin是否能兑现其性能承诺,促使大型云服务商在GPU仅服役2-3年后就拆除这些仍能产生收入的GPU,正如Burry博士所言?或者我们是不是会看到H100 GPU价格的底部保持坚挺?这样一些问题尚待解答,但我们的TCO模型提供了最佳估计。借助我们专有的GPU云测试(ClusterMAX)和每日基准测试平台InferenceMAX,我们致力于提供市场上最优质的洞见。我们的免费开源InferenceMAX平台展示了系统级创新,例如Nvidia的GB200BVL72,在某些应用场景和配置下,相较于传统的基于HGX的GPU,能带来数量级的性能提升。

  目前,大多数GPT API token仍由OpenAI直接处理,但我们预计Foundry将成为微软未来的重要增长引擎,并逐步夺回市场占有率。对微软而言,重要的是,无论是通过OpenAI API还是Azure Foundry提供服务,Azure在2032年前将拥有所有API推理计算的100%份额。

  然而,我们大家都认为向企业销售token的业务仍处于起步阶段。Alphabet的Sundar Pichai在2025财年第三季度财务报表电话会议中披露了一个有趣的信息,证实了我们的观点:

  “在过去12个月里,近150个Googl eCloud客户各自使用我们的模型处理了约1万亿个tokens,涵盖了广泛的应用。”

  将token转化为收入远比看起来复杂。我们大家常常看到分析师在输入/输出比率、缓存token的考虑以及定价计算等方面犯下重大错误。我们的token经济模型全面理解了生成token的经济学,以及如何将token和能耗转化为收入、利润和RPO。

  在代码辅助的应用层,微软凭借GitHub Copilot曾享有非常大的优势。微软拥有业内首个内联代码模型(现在通常称为“tab”模型),并且由于独占的知识产权访问权限,较早将GPT-4集成到Copilot中。

  从外部看,微软的堡垒似乎固若金汤。他们拥有行业标准工具VS Code和GitHub,拥有OpenAI模型IP的独家访问权用于产品研究开发,并且拥有庞大的企业客户基础。

  然而,他们低估了一批勇于探索商业模式的公司对VS Code的分叉改造,这一些企业构建了模型与代码库之间更紧密、更优的集成,使这些挑战者得以整体超越Copilot。一个关键推动因素是这些勇于探索商业模式的公司采用了Anthropic的模型。

  各实验室也自行开发产品。用户绑定于一套模型,但这些模型是在生产中使用的工具和环境上训练的。这带来了优化的体验,正如Codex和Claude Code的收入增长所显示的那样,非常受欢迎。

  微软此后加大了对其模型超市生态系统的押注,最近推出了Agent HQ,该平台接入了包括谷歌和xAI在内的多个实验室的智能体。

  鉴于其对OpenAI模型权重的访问期限仅延长至2032年,公司需要为当前利润最高的OpenAI模型产品制定备选方案。

  微软已发布了涵盖文本、图像和语音的3款MAI模型。文本模型MAI-1目前在LMArena上的评分约为38,但尚未通过聊天界面或API公开提供。该模型是一个大型专家模型(MoE),在15,000个H100GPU上训练,下一代模型将是一个更大规模的多模态大型语言模型(LLM)。

  另外两款分别是图像和语音模型。图像模型仍位列LMArena前十,且两者均已集成到Copilot中。

  对微软而言,后两款模型代表了一种低成本且质量尚可的模型应用场景。它们远未达到最先进模型的水平,但我们始终相信公司正在悄然准备投入更大规模的内部训练工作,预计未来几年内年化计算支出将接近160亿美元。

  微软Copilot是一个涵盖范围广泛的总称,不仅仅指GitHub Copilot。它包括面向销售、财务、服务、安全等多个领域的Copilot。该生态系统的月活跃用户已超过1亿,将成为推动整体AI普及的重要力量。

  构建Office 365 Copilot的最新努力体现在Office Agent中,以下我们将深入探讨Excel Agent。这些智能代理的总体目标是在微软生态系统中以自主、功能性强且对用户有用的方式执行操作。

  获得OpenAI模型、权重和代码库的访问权限,使微软能够从OpenAI模型的原始思维链中提炼知识。知识提炼比训练后的小型模型更有效,这在某种程度上预示着微软能够在不显著增加计算成本的情况下获得强大能力。

  访问OpenAI知识产权还使微软能利用其拥有的数据对OpenAI模型进行微调,这一些数据可能比外部公司在Office套件上构建的工具或环境所能获得的数据更细粒度、更基础:

  Excel Agent是OpenAI某个推理模型的后训练版本。微软声称其表现优于前沿实验室的成果。

  在深入研究Azure的AI业务后,我们将关注AzureAI硬件堆栈的两个关键部分:

  - 微软的实际芯片战略:他们将如何平衡NVIDIA、Maia、OpenAI、AMD及其他厂商的合作关系。

  在定制硅芯片开发方面,微软在超大规模云厂商中处于垫底位置,甚至没有试图迎头赶上。

  微软于2023年底展示了他们的Maia 100加速器,是四大超大规模云厂商中最后一个拥有AI加速器ASIC的企业。

  如同第一代硅芯片预期,Maia 100并未实现大规模生产,也没有用于实际生产工作负载。该芯片的架构设计早于生成式AI爆发,因此在推理任务所需的内存带宽方面存在不足。ASIC项目需要多代迭代,才能实现有意义的计算卸载,从而替代商用系统。

  下一代Maia 200的开发也因多项问题而停滞,导致设计进程延长、流片时间推迟到2024年底,量产要到2025年才开始。预计Maia 200在2025和2026年总出货量仅为谷歌、亚马逊,甚至Meta的零头。这是因为Maia 200芯片在微软内部被评估为失败,迫使微软重新制定AI ASIC路线图。

  微软甚至放弃了对Maia 200的软件开发,转而将精力投入到未来的Maia迭代版本。现在看来,微软最早也要到2027年底,才能部署接近内部性能预期的2纳米Maia 300。在这期间,竞争门槛会被进一步拉高,微软需要与Nvidia的Vera Rubin竞争。鉴于目前Maia团队的管理失误,我们对他们2027年的表现也不抱信心。

  从那时起,微软需要多代迭代才可以做到Nvidia的TCO(总拥有成本)性能水平,而谷歌是唯一已经做到这一点的ASIC设计商,起步交付第七代TPU。萨提亚(Satya)认为内部硅芯片的意义在于实现硬件与软件的紧密协同设计,因此希望Maia能架构为训练和服务MAI模型。

  这使得Maia的命运与MAI捆绑,问题就在于MAI能否(而非何时)开发出领先的模型。在此期间,等待MAI做出成绩的时间本可拿来异步开发和迭代硬件。要求MAI准备好只会为微软硬件的成功增加新的不确定性。亚马逊的故事也证明,自研模型并非定制硅芯片的“出生权”。

  下图显示,在CoWoS预订方面,微软AI硅芯片的出货量远低于谷歌、亚马逊和Meta。我们来看看其他超大规模云厂商到底领先了多远。

  获得OpenAI IP的访问权限可能意味着微软依赖OpenAI芯片。我们也认为,这将使Broadcom再添一个定制ASIC客户。AI芯片市场的高端价值捕获正在迅速变成“Nvidia vs Broadcom”两强争霸。

  随着Maia与OpenAI/Broadcom/Nvidia的竞争变得扑朔迷离,微软开始多元化芯片供应商,我们大家都认为他们也会向初创企业寻求支持。

  具体来说,微软的风险投资基金MI2最近发布了一张活动照片,活动邀请了Modular、Neurophos等初创企业。Modular是一家致力于为Nvidia之外多样化加速器开发推理和编程框架的软件初创公司;Neurophos是一家开发光处理单元(OPU)的芯片初创公司,也在挑战Nvidia。如果成功,这一些企业将成为对抗Nvidia的重要力量:Modular MAX可替代vLLM和SGLang等推理运行时,Neurophos则用其OPU挑战芯片本身,并宣称“每皮焦能耗FLOPs提升1000倍”。

  话虽如此,这些初创项目只是概率极低的“边下注”,主线路径依然失败。管理层被“唯唯诺诺”的观点所误导。

  谷歌在超大规模云厂商中的硅芯片霸主地位无可匹敌,第七代TPU与Nvidia Blackwell不相上下。TPU为Gemini模型家族提供算力,Gemini能力不断的提高,在某些任务的每美元智能性价比接近帕累托前沿。虽不是代码领域最强模型,Gemini 2.5 Pro依然表现不俗,Gemini 3即将推出将逐步提升谷歌实力。TPU不仅满足了谷歌内部搜索、广告和Deepmind的AI需求,谷歌正接近成为像Nvidia一样的商用AI硬件公司。

  亚马逊正在交付数百万Trainium加速器,Anthropic是Trainium2的主力客户,几乎占据整个Trainium2项目。这批Trainium2集群为Anthropic带来的增长正推动AWS收入大幅加速,正如我们预测的那样。

  有趣的是,亚马逊几乎所有Trainium需求都来自外部客户。公平地说,亚马逊在开发自研前沿模型方面兴趣最小,更愿意做纯基础设施提供商。这反而更凸显微软的尴尬:亚马逊慢慢的变成了商用AI系统提供商。

  他们将通过出租自家AI硬件获得可观毛利,而无需太多内部工作负载“自测”硬件和软件。这与萨提亚的观点——“你最好有自己的模型”——背道而驰。实际上,是Anthropic带来了模型,并深度参与系统模块设计,致力于降低TCO并提供更多推理与后训练算力。

  Meta正处于ASIC路线图的关键转折点。Meta即将推出的MTIA“雅典娜”将成为首款接近现代GPU的Meta芯片:大规模计算引擎与HBM协同封装。该芯片已开始量产。明年将推出新一代“Iris”,随后是“Iris”的中期升级版“Arke”。Meta还制定了激进的路线图,目标是在硬件实现上超越Nvidia,包括面向规模扩展的CPO、混合键合、逻辑上集成DRAM等技术。

  总结来看,所有超大规模云厂商都已部署支持实际工作负载的ASIC,唯独微软缺席。微软硅芯片团队不仅要与其他超大规模厂商竞争,更要与Nvidia竞争。祝好运吧。如果微软完全依赖租用Nvidia GPU,因为他们没自己有外部需求的加速器,那就只能和Oracle、CoreWeave、Nebius这类公司竞争。而谷歌和亚马逊则有机会凭借差异化技术栈获得更高利润。

  如前所述,加速器硅芯片是部署AI基础设施时最大的成本项。以Nvidia GPU为黄金标准——其毛利高达75%以上,售价是成本的4倍。定制硅芯片的主要目标之一就是消除这部分利润,让超大规模云厂商直接设计芯片并委托台积电制造。

  然而现实是,超大规模云厂商没端到端的硅芯片设计能力,只能依赖Broadcom、Marvell、联发科、Alchip、GUC等设计合作伙伴。这些合作伙伴也要赚取利润,但即使是“头等舱”Broadcom方案,总体利润依然低于Nvidia。

  下图说明了降低加速器硅芯片毛利怎么来降低成本、提升云服务商利润。这里假设芯片性能与Nvidia完全相同,虽然不现实,但可以说明降低硅芯片成本的益处。想了解AI系统部署经济学,请参考我们的AI云TCO模型。

  微软没有借口,他们通过早期且有远见的投资OpenAI,早已洞察模型架构。但照目前速度,OpenAI(也参与了Maia 200设计)即便晚几年开始定制硅芯片,可能最终芯片做得比微软还好。不过这对微软来说也许是好事:微软对OpenAI IP的使用权涵盖除消费硬件外的全部领域,包括访问OpenAI Titan ASIC系列。鉴于OpenAI ASIC发展轨迹明显优于微软Maia,微软很可能最终用Titan来服务OpenAI模型。这和微软用OpenAI模型的情况类似:虽然有访问权,但微软还在尝试用自家AI训练基础模型。和模型一样,芯片路线图的访问权并非永久。依赖OpenAI的ASIC没办法实现超大规模云厂商定制ASIC项目普遍追求的硬件自给自足目标。

  我们也认为,这将使Broadcom再添一个定制ASIC客户。AI芯片市场高端价值捕获正在迅速变成“Nvidia vs Broadcom”两强争霸。

  微软在其Fairwater 2亚特兰大数据中心部署的网络极具创新性,处于当前AI集群部署的前沿。Fairwater 2的网络在两层512端换机网络基础上更进一步,采用纯轨道(rail-only)拓扑,将可连接GPU数量从131,072提升到524,288。

  在非阻塞Clos网络中,使用k端口、L层交换机可连接的最大GPU数量如下公式。如果假设用Spectrum-X SN5600交换机(每台64个800G逻辑端口,k=64)搭建两层网络(L=2),最多可连接2,048块GPU:

  下表展示了基于64端换机,最多4层交换机时的可连接GPU数量。层数越多,每交换机分配到的GPU越少,导致每GPU的网络成本增加。

  如果将每块GPU的800G逻辑端口拆分为8个100G端口呢?CX-8 NIC支持拆分为100G通道,但并非所有51.2T交换机都支持512个100G逻辑端口——需要512端换机如Spectrum-5。魔力在于端口数k随层数L指数增长,通过这一种拆分方案,最多可连接131,072块GPU——远超未用高阶交换机时的2,048块。

  那如何构建这样的网络?可用8个独立叶交换机平面(planes)分别连接每块GPU的8个100G端口。每个平面有256台主干交换机和512台叶交换机,512台叶交换机各用1条100G链路连接256块GPU,总计131,072块GPU。

  但每个平面只连接每块GPU的一个100G逻辑端口,所以需8个平面。8个平面x每平面768台交换机=6,144台交换机。这样每台交换机平均连接21.3块GPU,比用800G端口搭4层网络(每台9块GPU)更高效。这种拓扑已在Oracle Stargate部署,是Nvidia和Broadcom 512端换机的典型应用场景。

  微软更进一步,采用纯轨道拓扑,在两层网络下可连接高达524,288块GPU!在纯轨道网络拓扑中,原本每块GPU的800G链路拆分为8条,现在是每个计算托盘的3,200G链路拆分为32条——分别连接32个平面。

  该网络用24,576台交换机连接524,288块GPU,交换机与GPU比例仍为21.3,但连接的GPU数量提升了4倍!

  不过,每个平面完全独立,意味着同一计算托盘内的GPU无法通过扩展网络互相通信,只可以通过PXN和NVLink网络通信。这带来挑战:难以在同一网络上重叠不同通信流,不过微软的MRC协议专为优化和调度此类流量而设计。

  理论上微软可用32个平面连接524,288块GPU,但实际上Fairwater 2每栋楼(如A楼和B楼)仅有约300MW容量,对应约160,000块GPU。微软并未追求同一多平面网络连接更多GPU,而是通过主干层的超额上行链路连接到AI WAN。

  微软专门构建AI WAN,使训练任务能充分的利用WAN连接。目标是最终实现亚特兰大和威斯康星的Fairwater园区、以及凤凰城、爱荷华和Abeline园区间的分布式训练。

  构建该网络时,微软连接较少GPU,并在BT1(主干)交换机上分配端口上联OCS,同时预留空端口扩展。可用32个平面,每平面128台BT1(主干)交换机和154台BT0(叶)交换机,主干层以上为OCS交换机。

  BT1下行用DR光模块,上行到OCS可能用FR8光模块,可将8条100G通道用CWDM复用,一根光纤通过环行器实现双向通信。OCS每次只切换一根光纤,光纤带宽越高,每OCS端口可用带宽越大。用800G FR8光模块也能保留8x100G拆分,接收端再将光信号拆分回8条通道。

  微软用光路交换机(OCS)为AI WAN提供楼宇间光链路重配置能力,无需复杂布线,也无需深缓冲交换机。只需用专用协议通过OCS发送数据包到不同集群。谷歌已在数据中心网络(DCN)用Apollo OCS,称其能灵活扩展、技术升级和调整网络拓扑。

  FR光模块能连接Fairwater 2的两栋楼,但跨园区(数千公里)需更强功率和距离的转发器,并用可重配置线路系统(RLS)实现密集波分复用(DWDM)。DWDM可将多路光波(每路800G或1.6T带宽)复用到同一光纤对上。如果C波段和L波段各用32路,合计64x800G链路,一对光纤可承载高达51.2Pbit/s带宽。

  下图显示,300Tbit/s连接需375对光纤(用FR光模块加环行器只需188对),但用DWDM复用C波段32路可降至仅12对光纤。

  ZR光模块(400ZR和800ZR)也是可选方案,可在数百公里内传输信号,且可用DWDM将多路ZR信号复用到同一光纤对。ZR光模块部署简单,可直接插在AI路由交换机上,但跨数千公里时通常更偏好转发器。Meta的scale-across部署正在用ZR光模块,scale-across部署推动ZR需求迅速增加。返回搜狐,查看更加多

站内信息搜索

全国统一销售热线:15838350285
扫一扫 , 关注科泰
微信二维码

微信公共号

版权所有火狐体育app官网下载_全站在线登录 砂石制砂机 对辊式破碎机 冲击式破碎机 液压开箱制砂机 技术支持: 豫ICP备17021885号