2026年2月,全球人工智能发展的天平发生了微妙的倾斜。
在这个寒冬尚未完全褪去的月份,一串滚烫的数据点燃了整个科技圈:全球最大的AI模型API聚合平台OpenRouter显示,中国AI模型的周调用量首次超越美国,并且在全球调用量排名前五的模型中,中国厂商强势占据四席。
这不仅仅是一次简单的排名更迭。Token(人工智能处理数据的基本单元)作为AI时代的“数字原油”,其调用量被普遍视为衡量AI模型真实应用落地和商业价值的最核心指标。当美国硅谷还在为英伟达单日市值蒸发2452亿美元(约合人民币1.68万亿元)而惊愕时,太平洋彼岸的中国AI军团,正凭借一场由技术创新与成本革命引领的“ Token战争 ”,改写着全球AI的应用版图。
一、数据拐点:三周暴涨127%,“AI中国团”的集体冲锋
回顾2025年,全球AI舞台的主角无疑是美国模型。彼时,OpenAI、Anthropic、谷歌等巨头的模型占据了绝大多数开发者的心智,美国模型的Token周调用量一度占据OpenRouter平台前十大数据总量的近七成,而中国模型的占比不足两成。
然而,进入2026年2月,剧情迎来了戏剧性的反转。
OpenRouter的最新数据显示,在2月9日至15日这一周,中国模型以4.12万亿Token的调用量,首次超过了同期美国模型的2.94万亿Token。如果说这一周只是“险胜”,那么紧接着在2月16日至22日的一周,中国模型则彻底拉开了差距,调用量进一步冲高至5.16万亿Token,而同期美国模型的调用量则跌至2.7万亿Token。短短三周时间内,中国模型的调用量涨幅高达127%,呈现出惊人的“井喷”态势。
更令人震撼的是榜单的头部格局。在2月16日至22日的周调用量排行榜上,前五名中有四款模型均贴上了“中国制造”的标签:分别是MiniMax的M2.5、月之暗面(Moonshot AI)的Kimi K2.5、智谱的GLM-5以及深度求索(DeepSeek)的V3.2。这四款模型合力贡献了前五名总调用量的85.7%,形成了对顶尖生态位的绝对统治。
这种集体性的爆发,被上海财经大学特聘教授胡延平形象地称为“AI中国团”的崛起。他认为,产业市场集中度并非越高越好,有多家头部企业形成宽广的技术产业群落,而非少数两三家寡头,对于竞争创新和人才生态建设是好事,也有利于在中美AI竞争中形成集群优势。
二、成本优势:不到美国1/10的Token价格
中国模型为何能在短时间内征服全球开发者,尤其是美国开发者?一个关键的答案藏在价格标签里。
OpenRouter平台有一个独特的属性:其用户主要由海外开发者构成,其中美国用户占比高达47.17%,而中国开发者仅占6.01%。这意味着,中国模型的登顶,不是“内循环”的自嗨,而是全球开发者,尤其是来自竞争对手大本营的美国开发者,用真金白银“用脚投票”的结果。
驱动这些开发者做出选择的核心动力,是极致性价比。
以OpenRouter平台公示的价格为例,中国模型的成本优势堪称“降维打击”。在处理输入信息环节,MiniMax的M2.5与智谱的GLM-5,其价格均为0.3美元每百万Token。而作为海外主流的对标产品Claude Opus4.6,其价格则高达5美元每百万Token,是中国模型的约16.7倍。在模型生成内容环节,差距更为悬殊。MiniMax M2.5的输出价格为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6的价格则飙升至25美元/百万Token,分别是前两者的约22.7倍和9.8倍。
如此巨大的成本差异,对于任何一家追求投入产出比的商业公司或独立开发者而言,都是无法忽视的诱惑。
这种显著的成本优势并非源于单纯的补贴或低价倾销,其背后是深层次的架构创新。弗若斯特沙利文中国总监李庆在接受采访时指出,以“混合专家”(Mixture-of-Experts, MoE)架构为代表的技术路线,是中国模型能够大幅降低推理成本的核心原因之一。
MoE架构的巧妙之处在于,它把一个庞大的整体模型拆分成多个相对较小的“专家网络”。尽管模型总参数量依然巨大,保证了其知识储备的上限,但在处理具体任务时,系统只会智能地激活其中一小部分最相关的“专家”进行计算。这种“按需调用”而非“全员上阵”的模式,极大地降低了对算力的消耗。数据显示,MoE架构能让推理时的显存占用降低60%,推理吞吐量提升高达19倍。这正是中国AI厂商在保证性能比肩国际顶尖水平的同时,能将成本压缩至对方十分之一甚至几十分之一的技术底气。
三、价值之变:Token从“流量”变为“燃料”
调用量的指数级增长,不仅反映了性价比的提升,更折射出人工智能应用范式的根本性转变。
人工智能的角色正在从“聊天机器人”进化为“数字劳动力”。
过去,人们使用AI主要是为了问答、写作辅助或信息检索,单次交互消耗的Token数量有限。而现在,越来越多的开发者将AI接入工作流,用于处理复杂任务。国联民生证券在研报中提出了“Token通胀”的概念,指出单位时间内、单位用户的Token消耗正在结构性上升。
这种变化源于三大驱动力:一是从问答到干活,编程场景成为消耗Token的大户,重构代码、自动测试、多轮调试需要大量的上下文理解与生成;二是AI Agent的普及,Agent不再是被动响应,而是主动规划、调用工具、反思纠错,这一系列自主行为会多次调用模型,大幅累加Token消耗;三是推理深度的增加,面对复杂逻辑问题,模型需要进行更长时间的思考和多步骤推理,这也导致了Token用量的激增。
Token不再是传统互联网时代边际成本趋近于零的“流量”,而是像制造业中的电力、燃油一样,成为驱动数字世界运转不可或缺的“能源”和“燃料”。英伟达CEO黄仁勋在近期的业绩电话会上也反复强调一个观点:“计算即收入”“推理即收入”。当AI真正开始“干活”时,每一次推理都在创造实际的经济价值。
四、产业涟漪:国产算力与商业闭环的曙光
中国AI模型在调用量上的登顶,也正在产业链上下游引发连锁反应,其中最直接的就是对国产算力的强烈拉动。
申港证券认为,国产AI大模型调用量的提升,将加快数据调用量增长和模型性能提升,国产算力产业链有望核心受益。随着越来越多的企业和开发者将应用构建在中国模型之上,对AI训练和推理芯片的需求正经历指数级增长。这种旺盛的需求为国产GPU、AI服务器以及智算中心带来了前所未有的发展窗口期。
与此同时,流量的爆发也加速了商业模式的验证。月之暗面发布的Kimi K2.5模型,凭借其强大的多模态能力和Agent并行处理能力(能调度多达100个“Agent分身”并行工作),在发布后不到一个月内,累计收入已超过其2025年全年的总收入。这证明,只要模型足够强大、成本足够低廉,用户愿意为真正的生产力提升付费。
咨询公司弗若斯特沙利文的报告也显示,在中国大模型B端市场,2025年下半年,阿里千问系列模型的日均Token调用量占比已达32.1%,相较上半年的17.7%几乎翻倍。企业端的加速渗透,标志着AI技术正在从“尝鲜期”迈入“生产力核心期”。
结语
2026年2月,注定将成为全球人工智能发展史上的一个关键坐标。中国AI模型调用量首次超越美国,不仅是数字上的超越,更是技术路线自信的体现和市场选择的结果。
当然,这只是一个开始。在底层原始创新、高端算力生态等方面,依然需要持续攻坚。但OpenRouter的这份榜单至少向世界传递了一个清晰的信号:在人工智能这场世纪竞逐中,中国不再仅仅是追随者,而正在成为全球AI应用浪潮的核心引领者。当硅谷的巨头们还在为股价波动而烦恼时,来自东方的“AI中国团”已经用极致的工程能力和技术架构,赢得了全球开发者最实际的认可。
Token的洪流正在改变世界的走向,而这一次,浪头在中国。