
传统数据中心当年主要用于数据的存储、检索与管制。但在生成式 AI 与代理式 AI 期间,这些措施已演变为 AI Token 工场。跟着 AI 推理成为其中枢责任负载,它们的主要产出已蜕变为以 Token 款式制造的智能。
这一排变也需要对包括总体领有成本(TCO)在内的 AI 基础措施的经济效益评估的方式相应地进行调遣。然而,在评估 AI 基础措施时,企业仍过于存眷芯片峰值规格、谋划成本,或每好意思元所能得回的浮点运算性能,即每好意思元 FLOPS。
重要隔离在于:
米兰体育官方网站算力成本是企业为 AI 基础措施所支付的用度,不管是从云做事提供商租用,已经在腹地自建部署。
每好意思元 FLOPS 臆测的是企业每参预一好意思元所得回的原始算力,但原始算力并不等同于现实寰宇中的 Token 产出。
每 Token 成本指的是企业生成并托付每一个 Token 的抽象成本,时常以每百万 Token 成原来暗示。
前两者仅是参预考虑。但当业务围绕产出运转时,只针对参预优化,骨子上是一种根人性的错配。
每 Token 成本决定了企业能否竣事 AI 的限制化盈利。它是唯独大要平直抽象反应硬件性能、软件优化、生态系统支握以及施行诈欺率的 TCO 考虑,而 NVIDIA 在这一考虑上竣事了行业最低的每 Token 成本。
大要裁汰每 Token 成本的成分有哪些?
要衔接若何优化每 Token 成本,领先需要了解用于谋划“每百万 Token 成本”的谋划公式。

在这个公式中,好多评估 AI 基础措施的企业时常只存眷分子项,即每 GPU 每小时成本。关于云部署而言,这对应支付给云做事提供商的小时用度;而关于腹地部署,则是通过摊销自有基础措施得到的等效小时成本。然而,裁汰每 Token 成本的重要在于分母,即最大化施行托付的 Token 产出。
这个分母传递了两层交易含义:
最小化每 Token 成本:当 Token 产出增多被代入公式时,将裁汰每 Token 成本,从而普及每一次交互做事的利润空间。
最大化收入:每秒托付更多 Token,也意味着每兆瓦产出更多的 Token,这将带来更高的智能供给才气,使 AI 驱动的家具与做事大要在换取基础措施参预下创造更高收入。
因此,若是只存眷分子,就会疏远信得过决定分母的成分。不错将其衔接为一个“推理冰山”:分子位于水面之上,直不雅可见且易于横向相比;而分母则荫藏在水面之下,那才是决定施行 Token 产出的重要成分。对 AI 基础措施的准确评估,应从推敲水面之下的部分启动。

上层问题:
每 GPU 小时的成本是若干?
峰值 PetaFLOPS 性能和高带宽内存容量是若干?
每好意思元可得回若干 FLOPS?
深度成天职析:
每百万 Token 的成本是若干?尤其是针对大限制搀杂行家(MoE)推理模子(现时部署最普通的一类 AI 模子),其每百万 Token 成本是若干?
每兆瓦可托付若干 Token 产出?尤其是对腹地部署而言,由于在地皮、电力与基础措施上的老本参预较大,最大化每兆瓦所产生的智能产出至关迫切。
纵向膨大(scale-up)互连是否大要支握 MoE 模子所需的“all-to-all”通讯模式?
是否支握 FP4 精度?推理栈是否大要在保握高精度的同期充分诈欺 FP4?
推理运行时是否支握投契解码或多 Token 展望,黄金城官方网站入口以普及用户交互体验?
做事层是否支握解耦做事、KV 感知路由、KV 缓存卸载以过甚他优化?
平台是否支握代理式 AI 的私有责任负载需求,包括超低延长、高诡辩以及长输入序列长度等?
平台是否支握从试验、后试验到大限制推理的无缺生命周期,并阴私系数模子架构,从而竣事基础措施可互换性与高诈欺率?
这些算法、硬件与软件化中的每一项优化都必须有用况且是不错互相集成的,不然分母项将无法培育。一块看似“更低廉”的 GPU,若是其每秒 Token 产出数目赫然更低,反而会导致更高的每 Token 成本。大要作念到全栈信得过优化的 AI 基础措施,才大要确保每项优化都互相增强,从而握续普及举座效果。
为什么每 Token 成本比每好意思元 FLOPS 更迫切?
以下DeepSeek-R1 AI模子的数据展示了表面考虑与施行交易规矩之间的各别。
仅从算力成原来看,NVIDIA Blackwell 平台的成本似乎约为 NVIDIA Hopper 的 2 倍,但算力成本并不成证实这项参预究竟能带来若干施行产出。若是仅以每好意思元 FLOPS 进行分析,相较于 NVIDIA Hopper 架构,NVIDIA Blackwell 仅有约 2 倍上风。然而,施行规矩却呈现出数目级各别:Blackwell 每瓦的 Token 产出量是 Hopper 的 50 倍以上,每百万 Token 的成本裁汰至其 1/35 阁下。

注:数据开端于 NVIDIA 分析报说念及 SemiAnalysis InferenceX v2 基准测试。
这一悬殊各别标明,相较于上一代 Hopper,NVIDIA Blackwell 在交易价值上竣事了渊博的跃迁,其普及幅度远超系统成本的增多。
若何遴荐符合的 AI 基础措施?
仅凭算力成本或每好意思元表面 FLOPS 来相比 AI 基础措施,不仅是不充分的,也无法真实反应推理经济学。正如数据所展示的,要准确评估 AI 基础措施的营收后劲与盈利才气,需将臆测维度从输入考虑转向每 Token 成本和施行 Token 产出量。
NVIDIA 通过在谋划、集中、内存、存储、软件以及相助伙伴技巧上的极致协同设想,竣事了业内最低的 Token 成本与最高的 Token 诡辩量。此外,诸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平台构建的开源推理软件的握续优化,意味着在现存 NVIDIA 基础措施部署后,Token 产出仍可不断普及,每 Token 成本会握续下落。
突出的云做事提供商与 NVIDIA 云相助伙伴,已在限制化部署中充分体现这一上风。包括 CoreWeave、Nebius、Nscale 与 Together AI 在内的相助伙伴,已部署 NVIDIA Blackwell 基础措施,并对其技巧栈进行了优化HJC黄金城官方首页入口,为企业提供现时最低的 Token 成本,同期充分领路 NVIDIA 在硬件、软件与生态系统协同设想方面的一都上风,使每一次 AI 交互的管制都拓荒在这一无缺体系之上。

备案号: