最像 Anthropic 的中国 AI 公司,是MiniMax

Source

“中国的OpenAI” 是谁?一众媒体和分析机构给出的答案是:智谱。

这家中国的大模型 AI 创业公司正在港交所冲刺 IPO。在招股说明书中,它明确宣称:“2025年6月,智谱被美国OpenAI 列为全球主要竞争对手。”

毕竟,OpenAI 开启了生成式人工智能的大规模普及。只要做大模型,或多或少都会沾上 OpenAI 的影子。一个非常划算的方式是:照猫画虎、形而上学地模仿 OpenAI,这是获得“中国的OpenAI” 加冕最容易的方式。

那么,谁是中国的 Anthropic?

表面上,谁有自己的基座模型,编程能力强,谁把基座模型和 Agent 能力整合在一起,谁先推出了类似 Computer Use 的功能,谁就应该是中国的 Anthropic。

但真的是这样么?Anthropic 就是这么回事么?

请让我给出关于谁最像 Anthropic 的答案,一个颠覆三观的答案:MiniMax。

MiniMax 是另一家近期在港交所冲刺 IPO 的中国大模型 AI 公司。表面上看,MiniMax 的收入 70% 来自 C 端用户,而 Anthropic 的收入绝大多数来自 B 端;MiniMax 有从语音到视频再到文本的全模态模型矩阵,而 Anthropic 旗下的 Claude 专注于文本和编程,它们风马牛不相及。

但其实,它们真的很像。

“没有标签”

Anthropic 和 MiniMax 最像的一点是:没有标签。创始人没有,公司也不太有。

2021年,Dario Amodei 带着几个 OpenAI 的同事出走创立了 Anthropic。他们离开的原因,是对 OpenAI 商业化路线的不满——在 AI 安全问题还未解决的情况下,OpenAI 把 GPT-3 交给微软使用,这种逐渐商业化以及对创始初心的背离,让这群技术理想主义者决定“另起炉灶”。

Dario Amodei 在 OpenAI 是研究副总裁,标准的技术主管职位。它不是 Sam Altman 那种 spotlight position(聚光灯下的角色)。在他拿到生物物理学博士学位后,先在百度硅谷 AI 实验室工作,后来加入 Google 做语音识别,2016年才进入 OpenAI 。其实你很难给 Dario Amodei 贴上精确的标签:物理学博士?前 OpenAI 高管? AI 安全专家?

都对,但都不够准确,也非常不鲜明。

同是在2021年,闫俊杰从商汤离职创立 MiniMax。他在商汤也是副总裁,同时兼任研究院副院长和智慧城市事业群CTO,也是标准的技术主观,没有汤晓鸥那种创始人的闪耀光环,甚至连个“洋博士”都不是(在中科院自动化所获得的博士学位)。在跟罗永浩的对谈里,他说“我们是比较草根的团队,没啥背景”,诚不人欺也。

这类技术主管出身的“准二号位”创业,有个共同特点:技术能力扎实,但缺少“领袖魅力”的训练,个人形象模糊,没有标签,不擅长翻云覆雨,更喜欢刨根问底,追求可解释性,而非炸裂效应。

我们用他们对比一下同时期那些标签打得锃光瓦亮的创业者——

OpenAI CEO Sam Altman,连续创业者,曾担任全世界最大的创业孵化器 Y Combinator 的总裁,天生的聚光灯追逐者,擅长讲故事,热衷造势,硅谷人脉中枢,权力斗争达人,这些都能让人们记住。

月之暗面 (Kimi)创始人杨植麟:清华姚班本科,CMU 博士,师从苹果 AI 负责人 Ruslan Salakhutdinov,30岁出头,“天才创业者”标签人尽皆知,还是个摇滚乐手,文艺青年。就连 Kimi 的模型也有标签:“超长上下文”。

但 Dario Amodei 和闫俊杰,你很难用一句话说清楚他们是谁,他们的性格特质都在显性上模糊,很难被人一句话总结出来。他们在镜头前面表情平淡,语速缓慢,谈及技术细节时偶有激动,并不适合提炼“金句”。他们的公司在做什么,也很难一句话说明。

MiniMax 是什么?视频生成?多模态?Agent?它都做,说不清哪个是主要产品。海螺 AI、星野、Talkie 三个 C 端产品,针对不同市场,都有不少用户,但留给用户的记忆点并不鲜明。技术上,M2 曾跻身开源模型排行榜第一,社区好评如潮,但你问10个业界人士“MiniMax是干什么的”,答案肯定是不一样的。

Anthropic 也一样。很多人说它不是做 coding 的么?这就跟说 MiniMax 是做多模态的一样,属于看似精确,实则错误和不完整的强行标签。Anthropic 在最引以为傲的编程领域的收入并不及卖企业 API 的收入。问题企业怎么用 Anthropic?这也太不直观了,反正 Claude 在 C 端的影响力远不及 ChatGPT 和 Gemini,它究竟是什么,就很难打上标签。

“没有标签” 在公众形象上是个问题,它让 Anthropic 和 MiniMax 的品牌形象很难溢出。

但是另一方面,“没有标签” 反而是它们最突出的标签。时间越长,“没有标签” 这个标签,就越有它的价值。

因为,“没有标签” 是今天大模型——特别是语言模型进化的趋势。模型能力从长期看正在收敛,每一家的突出优势都可能在未来几个月被另一个竞争对手突破和颠覆。

曾被广为看好的“开源之光” —— Meta 旗下的 Llama 一夜之间被 DeepSeek 和 Qwen 按在地上摩擦;两年前备受奚落的 Google 凭借 Gemini 3 拉响 OpenAI 的红色警报,成为全球模型之冠。DeepSeek 和 Google 的优势能一直保持么?天知道。

在这种情形下,“没有标签”就意味着人设不会破,就意味着外界对它不会有太高或太低的预期,就意味着轻易不会被打脸,不会从云端到地狱再到云端坐过山车……“没有标签” ,其实越来越是一种安全感和确定性的来源。

看 Claude,它有经历过口碑的大翻车和凤凰涅槃么?人们甚至不会特别期待 Claude 5,对吧?但无论是 Claude 4.5 Sonnet 还是 Claude 4.5 Opus,人们还是很踊跃在用,但“炸裂”程度远不如 Gemini 3。MiniMax 从 01 到 M1 再到 M2,开源社区的口碑一路走高,OpenRouter 公布的调用量摆在那儿,高过了很多更擅长在社交媒体上“刷屏”的开源模型。

这其实是一个非常微妙,但恰到好处的状态。它是一种非常“得体”的预期管理,尤其对一家越来越走向公众的公司而言。

在平衡损益表面前,“进步” 和 “增长” 是最值得期待的,而“炸裂” 和 “翻车”则不是。“没有标签”,反而应该成为它们最重要的标签。

追求技术的可解释性

2025年10月,MiniMax 创始人和 CEO 闫俊杰在 MiniMax 官方微信公众号上发表了一篇技术长文《为什么MiniMax M2是一个 Full Attention 模型》。

从 text 01 到 M1 再到 M2,MiniMax 在模型预训练上,从力推线性注意力机制(Lightning Attention),重归传统的全面注意力机制(Full Attention),背后是因为团队发现线性注意力机制带来的不错的模型效果背后的代价是:复杂多跳推理任务有明显缺陷。

随着模型与通用 Agent 在功能上日趋接近,“在 Agent场景下,模型需要跨多个工具、跨上下文反复验证与调整。Hybrid Attention 虽然省算力,但容易造成上下文信息缺失,导致逻辑中断”,闫俊杰在文章中坦承了这点,点明了 MiniMax M2 重新回归 Full Attention 机制的原因。

这种 CEO 公开承认技术路线试错的做法,极为罕见。这让我马上想起了 Anthropic CEO Dario Amodei 今年4月在自己的博客上发表的另一篇长文《The Urgency of Interpretability》(可解释性的紧迫性)。

在这篇文章里,Dario Amodei 强调了生成式 AI 的不透明问题,他认为模型的能力是“生长”而非“构建”出来的,与传统软件有着本质的区别。这种不透明性导致 AI 的很多安全和道德风险无法被预测,因此迫切需要 AI 系统的可解释性研究。

重要的是,在这篇长文里,Dario Amodei 公开承认了此前被他奉为圭臬的 “Constitutional AI”(宪法式 AI)的局限性,他认为 Constitional AI 只能让模型“装作”遵循了安全原则和对齐意图,但内心可能另有“想法”。

因此,放弃将 Constitutional AI 作为安全对齐的圭臬,系统转向模型的可解释性研究是必要的,Anthropic 新的目标是:2027年实现用可解释性可靠地检测大多数模型问题。

这也是一次公开解释重大技术路线试错的行动。无论是 Dario Amodei 还是闫俊杰,他们这类解释文章都很长,技术细节都很多,作为公关传播素材非常不适合提炼“金句”和标题,但它们对理解一家从事大模型基础研发的公司的第一性原理,又十分重要。

Dario Amodei 关于可解释性的长文,本身就在追求技术的可解释性。他之前针对 DeepSeek 崛起的万字长文也是,反传统思维地提出了 V3 比 R1 模型更具挑战性的观点,详细剖解了这两款模型的技术差异。MiniMax 的掌舵者闫俊杰也一样,他非常想让外界了解为什么 MiniMax 回到了 Full Attention 机制,觉得解释不清楚这个问题不行,其实外界未必关心这个问题——牛 X 不就完了么。

而对这两位在技术一线的 CEO 而言,写长文进行技术反思和解释,意味着什么?

意味着他们需要说服自己,而不只是说服投资人和用户;意味着他们相信透明比神秘感更重要;意味着他们愿意承认“我们之前错了”,然后公开自己的技术探索方法。

这在快节奏的 AI 竞赛中是非常奢侈的。

你完全可以想象 Sam Altman 和 Elon Musk 在这种情形下会怎么做:直接发新模型,突出性能上特别强大的地方,用刷新 benchmark 亮瞎你的双眼,完全拿结果说话,不解释技术路线问题,或轻描淡写,让负责研究或训练的副手解释一下。

但毕竟有创始人和 CEO 愿意站出来,详细解释技术细节。

追求技术的可解释性和透明性,会让一家公司在更长的时期,赢得客户的信赖。客户愿意看到一家大模型公司“笨”的一面,它比“神奇”重要。

笨架构与好商业

与追求技术可解释性有点对立的,就是在大众领域的传播,这点 Anthropic 和 MiniMax 都不太擅长。

Anthropic 曾经在旧金山机场密集铺了一段时间 Claude 模型的广告,强调它的安全,但几个月之后就消失了。MiniMax 也为旗下的陪伴应用 Talkie 和视频生成工具海螺投放过一些在 X 和 YouTube 上的广告,但并不持续。

OpenAI 可能不投广告,但 Sam Altman 在社交网络和各种访谈里的非技术暴论高强度输出足够了。我曾经在一条 YouTube 节目内容的开篇看到了先后两条广告——分别来自 Gemini 3 和 K2,你得承认 YouTube 算法推荐真是够精准的,也得承认是真有人在使劲砸广告。在国内,豆包、千问……就不说了。

Anthropic 和 MiniMax 应该属于一开始“定力不足”,试了一下就缩回来,然后想明白了,就不再大张旗鼓地做的那种。

对这个事,MiniMax CEO 闫俊杰有自己的解释。在访谈中,闫俊杰说:“过去三年,AI 创新的主阵地是 Web,不是手机 APP。国际上前十的产品,除了中国的豆包,其他都是先做 Web,靠自然量起来的。能靠不买量做起来的,只有Web端”。

言下之意,就是 MiniMax 不靠买量做 C 端爆款,不靠炒作声量,专注技术迭代。这在中国 AI 创业环境里是挺“笨”的做法。

但这使得MiniMax可能是今天最重视可持续经营的模型公司之一,它的招股书披露,其现金储备有超过11亿美元,简单换算,这笔钱可以让它用上53个月。而它目前5亿美金的亏损规模,其实都不及一些c端大厂AI产品一年用来投流的钱。

还有更“笨”的做法。

2023年下半年,大部分中国 AI 公司还在做稠密模型(更稳健),MiniMax 把80%的算力 all-in 到 MoE 上(更不确定)。MiniMax 的投资人、明势资本创始合伙人黄明明回忆说:“前两次失败了,直到第三次成功,他(指闫俊杰)才跑来告诉我们。我问他为什么赌这么大?赌不出来公司就挂了。”

闫俊杰的回答是:“只有做出 MoE,才能用更低成本向更高阶段演进。否则用的是不可估量的成本,没有一家公司能支持”。

MiniMax 在技术架构的探索上是有非常强的执念的:2023年到2024年上半年,它深耕 MoE,控制模型演进的成本;2024年下半年到2025年初,它强力探索线性注意力机制,启动开源战略;2025年中开始,它侧重推理优化与工程优化,回归全面注意力机制。

至于它在跨模态领域展现的模型能力——从语音(Speech-02-HD)和视频(Hailuo-02)领域达到的顶尖水平,到如今 M2 在文本和代码领域的突破,其实是它基于基础架构持续的探索与适配之下打磨的一整套瑞士军刀。

实在不是牵强附会,MiniMax 在架构上基于第一性原理(成本与性能的平衡)的探索,与 Anthropic 的技术路径摸索有很多相似的地方。

2021年-2023年,Anthropic 侧重单一的“安全”,2023年3月才发布第一代“安全”模型;2024年,它通过 Claude 3 家族迅速建立了匹敌 GPT-4 的模型竞争能力,突破“安全”的桎梏,在产品化上大刀阔斧;2024年底,它将 Agent 与模型推理能力视作战略重心,先是MCP,再是Skill,成为 AI Agent 的标准建立者。甚至基于 Agent 能力的需求,探索从 Constitutional AI,向可解释性 AI 原理的基础技术思路转变。

不同于 MiniMax 将架构思考渗透到不同模态的产品中,Anthropic 对多模态没有执念,它的“瑞士军刀”是每一代 Claude 模型的 Haiku、Sonnet 和 Opus 三个不同性能的版本,相当每一代瑞士军刀的三件套。

这些东西,对普通用户而言可能无感,但对 AI 研究人员来说就有意思得多,当然最兴奋的是那些开发者——尤其是企业级的开发者,他们很容易找到想要的东西,比如工具和 API。

在接受访谈时,闫俊杰说:“技术驱动和产品驱动,这两个东西有可能都是对的,但没法共存。它的驱动力只能有一个。后面我们开始意识到,有可能那样一条路(产品驱动)也是对的,但它不是适合我们的。我们能做的,就只能是技术驱动的方式。”

潜台词是:他们纠结过,最终选择了技术驱动,知道会失去一些东西(比如快速的用户增长),但这是他们唯一能做好的路。

这么做的结果是什么呢?真的是得忍受漫长的在消费级市场的默默无闻,等着5年后、甚至10年后的“效果涌现”么?

我们看看它们商业化的数据。

2024年,Anthropic 收入只有10亿美元;2025年仅3-5月,它的营收规模就从20亿美元增长到30亿美元,Meritech分析师 Alex Clayton 表示:“我们研究了200多家上市软件公司的 IPO,这种增长速度从未发生过”。

2025年上半年,Anthropic 的研发投入与营收比大致为1.04:1,基本已经打平,这在尚处于军备竞赛阶段的 AI 产业已经相当令人羡慕了。它明显比 OpenAI 对应的1.56:1健康得多。

受限于资本投入、算力和市场规模,MiniMax 自然无法与 Anthropic 完整相提并论,但《The Information》报道,MiniMax 是目前亚洲大模型公司中,唯一被证实拥有规模化全球收入的玩家——这些收入都来自可持续、可规模化的产品(C端的海螺视频、Talkie,B 端的 API 订阅),而非靠资本输血或薄利的项目制维生。

MiniMax 的收入规模在它公布的招股说明书中,有着经过审计的更加严格的口径:

MiniMax从2023年开始进行商业化,营收已达到346万美元,2024年直接飙升到3052万美元,同比增长782.2% 。2025年前9个月,公司的营收额较上年同期增长175%,达到5344万美元,已经远远超越了去年全年的水平。截至2025年9月30日,MiniMax 在 C 端收入同比增长了181%,B 端收入同比增长了160%。

毫无疑问,它呈现了一条具有想象力的营收曲线。

而最体现大模型实际调用量的 OpenRouter 的数据显示,MiniMax M2 是 OpenRouter 上第一个日 token 消耗量超过500亿的中国模型,免费版加付费版模型的 token 日调用量已超过800 亿,跻身Top 10(分列第4和第7),用量都在高速增长。

这意味着,向 Anthropic 一样靠卖 API 挣钱,接收来自企业信用卡的收入;以及通过 Stripe 支付系统收取来自个人用户的收入,而不是承接企业或政府和事业单位的大型部署项目,开具一两年后才可兑换的一张张企业支票,在 MiniMax 正在变成现实。

此次招股书里也透露了相关的关键数据, MiniMax的B端业务的毛利率已经达到69.4%,显著高于同行。而整体的毛利也从2023年的-24.7%快速转正,2024年为12.2%,2025年前九个月更是到了23.3%。

2014年,Anthropic CEO Dario Amodei 还在百度实习时,他说那时就发现了 Scaling Law(缩放定律)——大语言模型最核心的原理。当时还在中科院自动化所读博士学位的闫俊杰也在百度实习,做深度学习实验。

闫俊杰回忆:“那个时候国内没有万卡,但那是国内唯一的一个真正意义上的 GPU 集群。我当时用了可能三分之一的 GPU 做实验。我开始意识到,AI这件事真的可以带来实际价值,而不只是写论文”。

然而,中国毕竟错失了 GPT-3.5 的时间窗口,而 Scaling Law 其实是2014年在中国发现的。亡羊补牢,有的时候确实挺晚的。接下来,是跳跃式的发展,还是遵循内心和“第一性”,不同的人有不同的答案。

有意思的是,Anthropic 和 MiniMax,这两个看上去最不像的,甚至在地缘意义上处于某种微妙对立的公司,选择了非常接近的答案。