价格只有Gemini 3 pro的1/4、多模态理解和推理能力顶级、从底层支撑了现象级Seedance2.0大杀四方的大一统基座模型豆包2.0,终于来了。
这是最近最被期待的模型之一。即便这个春节的AI圈如此热闹,你也不得不承认,目前字节跳动成功抢走了绝大部分注意力。
先是Seedance2.0的惊艳亮相——各个社交网络上都是它制作的惊人的视频,被形容为“杀死比赛”和结束AIGC童年期,并且被很多人用来与去年DeepSeek效应对比;再是媲美Nano Banana,在理解和推理上有很大进步的Seedream模型;然后就是刚刚,为前两个模型提供了底层智能基础的基座模型豆包2.0最终亮相。
这次豆包大模型2.0系列(Doubao-Seed-2.0)提供了多个模型选择:包含 Pro、Lite、Mini 三款多模态通用模型,以及面向开发者的 Code 模型(Doubao-Seed-2.0-Code),以满足不同场景下企业和用户对延迟和成本的不同需求。
至此,字节整个豆包大模型家族到齐。三连击,注意力拉满。
其实围绕模型的刷屏,以前在DeepSeek,Kimi 和千问身上都看到过,但这一次发生在豆包系列“三连击”身上的“刷屏”还是有挺大的的不同:
它自己没怎么强调、外界也还没怎么讨论它的“榜单”排名,但人们第一时间就这么用起来甚至是疯狂地玩了起来。在即梦里,在剪映里,在豆包里,在火山引擎的api里,在各种社交网络里。
模型被广泛讨论,而且是以一种真正被大家用起来的方式流行起来,让人不再太关注什么模型指标,参数,网状评分图,甚至Seedance 2.0都快让你不需在意什么专业提示词这些东西了——这才是这次“杀疯了”的豆包模型系列最不一样也最值得关注的地方。
一心要解决真实世界问题的豆包模型
仔细看看这次发布的几款模型以及研究字节在模型上一贯的策略和思路,能更好理解这种不同。
最为惊艳的Seedance2.0,此次最核心的几个特点包括对物理规律理解,对复杂指令的跟随,更真实的音效与视频的配合,以及对复杂运镜和特效的把握,这些都是专业以及普通人们的影视和视频创作里最真实的需求。
在诸多的使用里,你会发现大家在表达一个感受:Seedance2.0吸引人的不只是模型能力,还有它的交互和使用的顺滑。让人感觉已经把产品交互的需求“训”到了模型层面。除了讨论模型,用户会觉得它是一个完善的为真实需求服务的agent,一个用户需求满足的很好的产品。
而豆包这个基座模型,解决的也全是真实世界的难题。
从最初几款模型瞄准的更广泛而基本的问题,到今天的复杂系统问题。字节通过用火山引擎,豆包App等与豆包的彻底连通,来让真实的用户和使用者的需求直接一杆子捅到底,影响基础模型训练的方向和标准。
这都体现在了豆包2.0的更新里。
它的VLM提升了视觉与多模态理解能力,特意为那些最容易产生幻觉的场景做优化,同时它提升了复杂指令执行能力,对“记忆”的理解开始更加真实,让模型在复杂真实任务里更依赖实时判断的推理逻辑而非死记硬背。此外,它增强了搜索能力、让知识更强,此次也同时发布了专为coding场景服务的分支模型。
而且,在豆包2.0背后,字节再次强调了它自己的一整套基于真实世界任务构建的内部评估,它是完成端到端任务的关键。据硅星人了解,字节还为这些看起来很“普通”的工作分配了充足的算力资源。
这种“务实”并不意味着模型不再涌现新能力。
在我们看到的一份预览报告里,豆包2.0在处理一个真实的复杂代码生成任务时,它的解决方案策略不同于评测基准的官方参考实现。这虽然没有被字节形容为DeepSeek论文里那种“aha moment”,但也有了这个意味。因为这背后模型不再仅仅是针对已知解决方案做模式匹配,而是表现出在复杂计算领域进行严格问题求解的能力。这才是推理能力投射到真实世界任务后该有的作用。
豆包作为字节唯一的基座模型,选择了大一统的多模态原生框架,也就是所有模态都从一开始就训在一起,推理能力agent能力也都是原生支持多模态的。这样的基础能力正是Seedance这些“垂直”模型给人惊艳体验的根本。
在基于视觉的推理能力上,豆包2.0展示了对GUI操作界面的很强的理解和推理,甚至是进一步增强了的实时反思能力,这些都是做一个好的agent的基础。
一个例子是freeCAD任务。CAD软件其实是个非常高噪音的图形操作环境,在其中进行语义 GUI 理解,需要通过视觉理解环境,然后通过反思、退出甚至循环的方式分析反馈,自我诊断,从错误里学习,最终自己学会一种“在环境里学习”的能力。
此前同样让人眼前一亮的豆包手机背后,也是这样的模型能力提供支撑。
而这些能力会进一步提供给Seedance和Seedream这样的模型。
在Seedance2.0这次亮眼的能力中,就有一个很有代表性的细节。我用它花了不到10分钟做了一个风格迁移的动画片,你可以看到它的“参考”能力,已经进入了风格的层面,这是单纯的视频模态的模型无法具备的,它来自于豆包2.0这个基座模型,来自于一个把所有能力和所有模态进行大一统训练的强大底层模型。
(我做了一个阿凡提动画片风格,瑞克和莫蒂主演的“杭州宣传片”)
字节自己的Gemini3时刻
豆包2.0这次的整体更新非常值得仔细品味。
根据字节内部透露,它非常重视在一些基础科学里的任务表现,比如一些数学猜想、广义相对论和量子编译器调试以及计算化学的各种任务。
这样的偏好说明字节尝试让它继续打好通用能力的基础,考察和训练的一大重点,都是理解抽象科学概念、主动发现并修复真实漏洞的能力。
所以,如果用人们习惯的“屠榜”视角去看,豆包系列有个很大不同,它其实没有去卷最惊艳的那些塔尖上的任务,它花了大量精力去寻找多模态横向增加智能维度,与更靠谱的处理最广泛基础需求的能力之间的微妙平衡。而这无疑是挺考验耐心和节奏的把握的。
这背后也有“只有字节能这么做”的理由,那就是豆包app。
豆包已经是个国民级产品,所以当它背后的模型更新时,意味着大量天天用豆包的活跃用户的一个离不开的产品的更新,那么它当然要提高最广泛最基础的任务的完成度和能力。这是其他模型可能不需要考虑,也无法“利用”的局面。
换句话说,豆包系列模型是少有的真的在面对大量真实鲜活具体用户做训练和优化迭代的模型。
而负责把这种思路落实下来的一个关键环节,是火山引擎。在此前我们和字节模型团队的交流里,他们选择了一条很接近字节做产品的思路的方式在做模型:模型的设计其实最终是和真实用户一起完成的,火山引擎作为模型对外统一的出口,和字节的模型部门Seed紧密合作,火山的模型策略团队会把市场上的需求反馈收集和抽象出来,直接影响到模型的重要功能和研发方向,一切都要用真实业务价值来衡量模型能力。
在最近的三连击过程里,火山引擎也开始面对甜蜜的烦恼,Seedance2.0等模型的需求暴增,给火山带来巨大需求,对它算力基础设施的要求越来越高。不过,正是这个增长过程里积累的真实经验,在反过来帮助模型在训练中得到更高的token利用率和更好的算力效率。
这一切都不得不让人想到Google。在我们此前的文章《火山有了自己的token经济学》里,我们就提到,字节和Google是同一个路线:关键技术全部自研,模型闭源,产品到研发直接全面打通。
以及,豆包就对应着Gemini,一个大一统的多模态agent模型。Seedance 紧跟Veo,甚至超过了对方。这一切的技术基础也和Google类似,都长在自己的以AI为核心的机器学习平台和云服务上,然后这些“Gemini同款”和“豆包同款”细化成产品再提供给外界。
而Google是在Gemini 3 的发布之后,真正证明了自己这一整套路线的正确,从此真正进入自己的节奏里。
此次豆包系列所创造出的氛围也异曲同工。Google在发布Gemini3时的一个变化是,新模型和自己国民级应用以及自有基础设施平台第一次在第一时间紧密结合,Gemini 3第一时间上线Google各种应用,同时,Nano Banana Pro紧随其后进一步确立它模型在使用者中的地位。而字节这一次的节奏也很有意思,Seedance并非单独上线,而是和一系列产品紧密结合,从即梦到小云雀到剪映再到豆包,最终和豆包大模型一起在火山上提供给更多用户,你都可以想象春晚期间多少人在这些平台上创造自己的“短剧”,火山的token会继续井喷。
坚定地选择把全模态和通用能力都全部训到一起,坚持要把产品和模型打通,把对外服务的基础设施看到的产业需求和模型功能设计打通,这是两家公司的相同决定。而Google的选择在很长一段时间并非公认的正确方向,甚至质疑不断,直到Gemini 3的到来;而字节在以开源为主战场的模型竞争氛围里继续坚持了闭源和与真实规模化的应用结合的路线,同样曾经是,也许现在依然是一个“非共识”的方向。
现在都到了turning point。
在我们去年底的预测里我们曾预测了字节的豆包系列模型的转折点,我们当时这样写道:
“2025年,DeepSeek的成功改变了中国模型厂商们的技术策略,开源成了最优选择,字节成了仅有的几个依然闭源的厂商,这样的决策在2026年将迎来“证明时刻”,字节在模型研发上的各种积累其实已经有迹可循,Seed是时候交出一份闭源答卷了。”
看起来,今天这个预言似乎正在应验。在模型和落地上按自己的想法走出一条路,并且用一代模型直接证明了这条路的正确,字节在这个二月,算是接近它自己的Gemini 3时刻了。