


5000亿美元,是NASA预估能让人类完成火星登陆的预算、能买下1.36个阿里(3670亿美元)、3.5个NBA联盟(1400亿美元)、建设100座Apple Park(50亿美元)、买1400亿杯咖啡(3.5美元),却只够OpenAI建一座Stargate数据中心。
但这,也许只是开始,业内人士认为,OpenAI的野心甚至是这个数据的十倍。xAI、Meta等科技巨头,都开始疯狂在AI数据中心砸钱,全球开启了一波基建狂潮,押注新一轮的万亿级市场。但在狂潮背后,我们不禁想问:这么多钱,都花哪去了?
本篇文章我们就来扒一扒AI数据中心背后的资本支出。数据中心由哪些部分构成?上下游主要公司和玩家有哪些?到底要怎么花钱?有意思的是,我们翻遍了各大报告后,发现大家给出的预算各不相同,究竟谁才是对的?更有数据中心,被“逼”上了太空,原因是什么?在AI被质疑存在泡沫的情况下,又为什么资本依然疯狂涌入呢?
我们将数据中心的支出大致上可以分为4大类,分别是IT类设备、供电设备、冷却设备和工程建设。为便于对比,我们将计算单位统一到每GW的支出。
服务器包含了CPU、GPU、内存、主板这些重要原件,通常直接由ODM(原始设计制造商)供货,比如工业富联等,他们会从英伟达和AMD这些芯片设计企业拿到服务器的设计标准,并制造成整机,直接向Oracle、Meta、亚马逊这类超大规模的客户供货。
ODM占据了服务器市场46%的份额,而其他的中小企业要购买服务器,那就得找戴尔(Dell)、超微(Super Micro)、惠普(HP)这类OEM(原始设备制造商)厂商购买。
值得一提的是,虽然英伟达在其中的市场占比只有5%,但业界有观点会认为,尽管英伟达的InfiniBand(网络通信标准)更贵,但凭借低延迟、无丢包风险的优势,更适用于AI数据中心。
最后是存储,也就是硬盘,每GW则需要19亿美元的存储设备。大玩家包括了三星、SK、美光 (Micron)、希捷 (Seagate)等玩家。我们将以上三项相加,最终得出IT类设备每GW支出为431.5亿美元。这就是数据中心支出的大头了。
2018年,亚特兰大的一个数据中心遭受了网络攻击,导致法院、警察局、机场等多个城市服务机构被迫关闭。攻击者除了用勒索软件锁住了数据外,还干了一件事,那就是侵入了冷却系统。
冷却系统被入侵后,环境和温度骤升至100华氏度(约37.8摄氏度)以上,一时间不少芯片受到损坏。黑客甚至还将服务器和冷却系统的控制权作为“人质”,要求支付51000美元的比特币。
后来,攻击冷却系统的方式越来越常见,花样也慢慢变得多。这个故事告诉大家,冷却系统对于一个数据中心的重要性,虽然建造预算只占总成本的3%。
而对于配备液冷系统的数据中心来说,冷却设备主要包含冷却塔、冷水机组、CDU(冷却分配单元)和CRAH(机房空气处理机组)。要承担1GW的散热,它们分别需要支出0.9亿、3.6亿、4.5亿、5.75亿,总共14.75亿美元。
主要供应商由于分散在所有的环节,数量众多,我们就不一一列举了,但其中维谛(Vertiv)、江森(Johnson Controls),世图兹(Stulz)和施耐德(Schneider)等等,都是这样的领域的大玩家。
我们再来看看核心基建的电力部分。供电设备大致上可以分为应急供电的备用柴油发电机、负责配电总控的开关设备、保障不断电的UPS(Uninterruptible Power Supply)、给各机柜配电的母线槽及其他配电设备。
美国银行认为,典型的柴油发电机每MW的成本为40~55万美元,燃料箱、燃料泵和安装费用加起来约为35~50万美元,因此每MW的发电机成本大约为80万美元,要提供1GW的电力,则需要8亿美元的应急发电机。
最后一项的工程建设费用包含了建筑成本、安装成本、总承包商费用等等,每GW的工程预计花费约42.8亿美元。
我们合计下,要建成1GW的数据中心,最后的总支出大约是516亿美元,其中IT设备占比最高,成本达到了84%。这么算下来,OpenAI 10GW的Stargate项目就得5160亿,与官方宣称的5000亿投资非常接近。
但与此同时,我们在翻各种研报的时候发现一个很有意思的事情,就是不同机构给出的数据差距非常大,就拿Stargate为例,不同机构估算出的总预算甚至差出了2000亿美元,这是怎么回事?大多数人应该怎么去看这样的计算分歧?
Bernstein 11月1日的报告:每GW的AI数据中心成本约为350亿美元。而且各项目的支出占比也与美国银行的预测不同。例如IT设备相关的GPU、网络、CPU、存储总占比为56%,远低于美国银行计算的84%。
为什么各家的预测数据相差会如此大呢?主要有两个原因,第一是,假设使用的芯片不同。
美国银行的计算对象,为英伟达在今年9月初发布的Rubin架构的芯片,将于2026年底上市;而Bernstein和Morgan Stanley的计算对象,是2024年3月发布的Blackwell架构。
这个天然气涡轮发电机,它在设计的时候就是考虑到了像一年365天,几乎每一个小时都在运行这样使用的场景。还有一些其他的原因是,柴油的话它其实就是一种比较贵的燃料,然后相对于天然气发电机的话,它用的是天然气,它能够最终靠管道去输送,发同一度电的成本,柴油发电机的成本很可能是,天然气发电机成本的3~8倍。
谷歌最近的消息说,计划在2027年将数据中心送上太空。根本原因就在于,在太空中利用太阳能板来发电,效率能够达到地球上的8倍,还能解决晚上没有太阳能的困扰,能够说是免费且无限的能源供应。除此之外,在太空的真空,还能利用辐射散热方式,降低冷却系统的需求。
除了谷歌,微软、亚马逊,还有马斯克的SpaceX都开启了这方面的探索。那么建设太空数据中心又得花多少钱呢?在Linkedin有人预测,目前建设一座1MW的太空数据中心,算上发射费后,成本约为3550万美元,如果是1GW,那将是355亿。
既然建设AI数据中心耗费如此大,而且在市场纷纷怀疑充满泡沫的情况下,为什么这股基建热潮只增不减呢?在我们采访的嘉宾看来,根本原因有两点,第一是,投资不足比投资过度的风险更大。
大部分公司现在都意识到一点,Under investment is riskier than over investment,是所谓的投资不够,给你带来的风险要远大于你过度投资带给你的风险。为何会这样呢?有很大的可能性谁最先获得最好的AI模型,或者所谓的AGI的话,此公司就会占据比较大的一个市场占有率,其他公司的生存空间就会很快地缩小。
那我们再看一下过度投资会有咋样的风险,你无非就是买了更多的地、更多的电、更多的房子,建数据中心。最后你发现,可能你买多了,无非就是你可以把它用作自己企业内部的一些使用、效率的提升,或者你可以把它租给其他人,或者就把这些地、电卖给其他公司,总体来说就是过度投资的风险,它其实就是有一个封顶的。
在硅谷有一句话就是,Bill will always eat Andy。你只要有Infra(基础设施),你只要有Hardware(硬件),Server(服务商)总有办法,可以想办法把你运用掉的。这周早一点的时候OCP Meta的人就在里面说,其实他们目前的GPU,光用来去做他们内部一些AI,比如Instagram或者Facebook,然后去筛除一些不合适的内容,他们其实也已经需要很多算力了,就算有多余闲置的算力,用来做内部的降本(cost reduction),他实际上也是完全是可以用的,所以我觉得现在主流的这一些企业,都不会担心说这些会overinvest(过度投资)。
实际上的意思就是这些hyper scaler(超大规模云服务商),它的这些自生的钱,我自己赚的钱我再投回去,我自己欠的钱我再投回去,后面其实就是要靠这些public market(公开市场),就是债券市场,美国的investment grade(投资级)或者high yield grade(高收益级)。
然后还有最近新起来的,我们叫美国的影子银行,所谓这些private credit(私募信贷),你把它break down(拆分),基本上就是这些大的融资渠道,来撑起这个整个的AI build out(基建热潮),这在历史,美国历史上也不是没见过。我觉得AI更像全球的基建的大的周期,只要你(AI)能挣到钱,你是全球的增长的这个driver(驱动者),真的是不用特别担心钱这个事情。
站内信息搜索

微信公共号