提起字节的 AI,不少人第一时间想到的应该是豆包的形象。
响应速度快,说话接地气,上至 80 岁老奶,下到刚识字的小孩儿,基本都能跟它聊几句。
而最近,豆包脑袋里负责思考的 Seed 模型,已经悄悄迭代到了 2.1 版本。今天,火山引擎正式发布了 Seed2.1 系列,API 已经全量上线,并透露该模型即将全面接入豆包,开启办公任务模式。
能支撑这样一个国民级的 AI 应用,要说没点独到之处是没人信的,所以我们也弄到了测试名额,提前品了品这 Seed-2.1-Pro 的成色如何,看看它跟印象中的豆包大模型又有什么不同。
先来看跑分,在很多 Agent 相关的测试里,它都干到了第一梯队,像是 OpenAI 衡量职业任务的 GDPVal,以及刚出不久颇有难度的 ALE,跟 GPT 和 Claude 掰起手腕也不手软。
至于多模态,除了电脑端的操作略逊 Claude-Opus-4.7 一筹,其他领域完全就是舒适区。图形界面的 MobileWorld,也就是移动端的理解操作能力,稳居第一,这个看过之前豆包手机的应该都有体会。图表理解和多模态推理也有小幅领先,视频理解更是大身位甩开 Gemini-3.1-Pro,非常强势。
不过最显眼的,还是 Coding 能力这个往常的短板,这次也补到了旗舰水平。比如之前 GLM-5.2 崭露头角的前端能力,在大模型竞技场中,Seed-2.1-Pro 就挤到了 Claude 梯队当中,排在 Opus 4.6 中间。
能感觉到,Seed-2.1-Pro 的定位很清晰,就是冲着 Agent 调度以及 Coding 任务来的,想迈过这个生产力和 Coding 任务的质变点。
就像生图模型从 GPT-Image2 进入到真假难辨的阶段,视频模型等来 Seedance2.0 才开启内容创作的大爆发。生产力任务中,也存在这样的一条基线,之前就有 Claude Opus 4.6 这样的万金油给大家做展示:把工具调用和 Coding 能力拉满,再叠上旗舰级的推理,这干活儿能力就会跨过这条线,得到质的飞跃。
但光跑分越过去还不够,质变与否我们还得实际把模型拉出来,扔到不同的场景里跑一跑,才能感受到。
刚好最近在踢世界杯,作为世界第一的体育项目,它的商业模式一直是非常值得参考的,我们就让 Seed2.1 去深挖一下这部生意经试试水。
打开豆包的办公任务,就用默认模式,尝尝它原汁原味的深度研究。
提示词:
目标:围绕「世界杯商业模式」收集可信资料,梳理收入、成本、利益相关方等内容,沉淀为后续建模、表格、PPT 和互动页面可直接使用的数据底座。可以顺带收集一些顶尖世界赛事的对应资料,数据,作为对比参考,比如奥运会等。
输入:主题:世界杯商业模式研究。优先使用 FIFA、IOC、主办方、咨询机构、权威媒体等高可信信源。
输出:生成结构化资料表,包含数据项、数值、时间、地区、来源、可信度、备注等等,结构不严格要求,如果有专业模型,你也能参考更改优化;另附简短研究笔记与信源判断。
步骤:先制定检索关键词,再分轮搜索官方资料、行业资料和媒体报道;对关键数据交叉验证,保留来源链接,不确定内容标注风险,不编造数据。
可以看到,在开始前,它会先检查能用的技能,如果不适配,就主动更替,而不是硬着头皮乱用。能看出来在工具调用上是做了针对性训练的。
接下来就是执行过程,其中的数据整理基本没问题,特别是加入了信源交叉验证的环节后,数据容易重复过载,它应对的方式是现写 Python 脚本,从而进行结构化输出,避免幻觉出错,这可能也是模型厂商爱卷 Coding 的原因吧。
就最后交付的 Excel 数据表和研究笔记来看,质量还是不错的,一些缺口和矛盾在自检环节就能提前纠正,整个任务的重心放到了交付的合规性,耗时略长也就能接受了。
有了数据和研究报告,下一步自然是展示环节了,就按常规的 PPT+HTML 落地页两件套来,为了效果更好,可以先让它装上一些主流的 Skill。
这里我试了不同的方法,比如告诉他归藏的 PPT Skill 地址,以及直接说一些开源的 Skill 名字,结果它都能自己去找源头,然后安装好。
提示词:
调用刚刚安装的这些技能。
目标:完成数据清洗、指标建模和可视化展示,形成可交付的PPT 与互动落地页。
输入:上一阶段的世界杯商业模式资料,数据库,研究笔记等。
输出:生成关键图表、PPT 大纲/页面内容,以及一个互动落地页,内容丰富一些,需包含主要数据图表、商业模式拆解和可交互组件等部分。
步骤:先清洗数据并统一口径,再建立各种专业维度进行分析;提炼关键发现,生成图表和结论页;最后将内容转化为 PPT 与落地页结构,并嵌入可交互图表或筛选组件。加一个部分,说人话接地气的那种分析,比如和其他世界级赛事(如奥运会)比起来,为什么世界杯越办越好。关于展示部分的PPT和落地页,不一定完全对应,可以在制作中调用浏览器打开观察,自己迭代一下。
在执行阶段,就更能体会到多模态模型的好用之处了。在写落地页的时候,Seed-2.1-Pro 可以不用像文本模型那样干巴巴的检查代码,因为很多视觉错位或者嵌入不兼容的问题,只看代码是看不出来的,而且效率也低,更符合直觉的办法就是截图反馈。
所以在执行中,就老能看到它唤起内置浏览器,模拟人类操作,或下滑,或点击交互,优化了不少细节。
直接来看成品效果,调用 Skill 后,审美这块没大问题,配色组件和字体搭配的 AI 味儿较轻,图表也不是纯静态的,不同的组件,筛选交互时,会有过渡特效,细节足够的同时,整体的视觉展现也比较克制。
结论这块,它通过前面的分析定了个调子,就是 FIFA 世界杯的商业效率已经把奥运会越甩越远了,分析也基本到位,作为展示的最后一环也比较合适。
接下来加大难度,让它跑一下实际的代码项目,直接把火山方舟的 API 接入到 Codex 里。
这里选了一个 Github 上的中型项目,原项目把你头顶飞过的飞机、天体、卫星,实时投影到天花板上,我们做个手机端的移植,举起手机对准天空,就能用 AR 的方式看天上的飞机,天体。
准备好提示词,直接丢给它,说实话,我本来以为会出现一些小 Bug 的,因为仓库中的组件很多都没法复用,之前用 Gemini 搓的时候,空中的飞机,星星都会漂移,定位也不是很精准。
提示词:
目标:基于https://github.com/cpaczek/skylight项目,做移动端 Web AR 天空透视原型,举手机对准天空,精准叠加飞机与恒星/星座等天体位置,杜绝随机漂移。
输入:目前本地文件夹为空,你可以把项目拉到本地,然后看哪些能用上,有没有接口可以复用等
输出:可直接推到github仓库,然后部署到vercel上的项目,用户打开网页,授权权限后就能使用。
步骤:你拆分一下,自己规划,有哪里可能有问题问我。
但这次交给 Seed-2.1-Pro,它给出来的 MVP 原型居然是正常运行的,先不管精度如何,最起码功能完备,能直接迭代了。唯一可惜的是测试时的天气不给面子,看不到月亮,头顶也没有飞机路过,只能看星星的部分。
翻看执行日志,能看到,它针对提示词里说的漂移问题做了详细预案,而且列为了头等大事,比如 iOS 和安卓的环境不同,就出两套不同的矫正方法。然后加了一层滤波算法,使漂移时的幅度有个过渡的阻尼感。好家伙,原来不是不飘,是让你感觉不到飘。
说起来,其实这个项目非常依赖手机的陀螺仪和罗盘,这俩传感器又极其容易受到电磁干扰,所以偏移倒也不稀奇,毕竟手机发烫的时候,东南西北都导不明白。
不过,意外之喜是它自己出了个保底方案,加了个主动校准,用户通过太阳,月亮,北极星这种参照物来二次校准,减少偏差,一下子就实用多了。
到这儿还不够,因为真实的开发任务都是长线的,需要根据反馈不断添加新功能。这里让它升级交互模块,新增星星的点击弹出信息,搜索引导功能,再加上中文适配。
提示词:
加功能:现在的星星没有信息,加一个点击交互,点击后弹出对应信息;搜索引导功能,搜索后出现引导,如果不在画面内,就用箭头引导,如果在,就用某种强调特效强调几下;加中文适配
花了 15 分钟,活儿干好了,还顺手给我推到 Github 仓库了,这下子连重新部署的功夫都省了,希望这种开发通路越多越好。
但话说回来,这次真的拿现实的开发标准来衡量,就出现一些小瑕疵了。比如点击时的触发区域不精准,很多时候点不开信息,以及那个引导时硕大的箭头,实在不够优雅。不过看在能跑通的份上,这些小问题倒也能原谅。
我们又拿 Claude-Opus-4.6 跑了一个原型做对比,发现它速度快得飞起,但视觉效果很一般,原项目中星星的数据接口是删减版,只有 60 颗左右,它就直接挪了过来,也没考虑这样的视觉效果会打折扣。
而且这个 AR 功能也没搞明白,相机权限是要了,但透视层却没叠加上去。虽说是 Medium 的默认思考等级,但这个完成度确实也差点意思。
这么几轮开发任务跑下来,确实能品出 Seed-2.1-Pro 的野心了,前面说的质变点的跨越,可能真不是空话。
要想试试 Seed-2.1-Pro 的成品效果,大伙儿可以点击结尾的阅读原文。
既然模型的性能尚可,那咱就继续加大力度,探探它执行超长任务时的能力边界。这里选择一个最近很火的项目,Emergence World,里面把大模型驱动的 Agent 们丢进一个持续运行的 “ AI 小社会 ” 里,看它们会不会自发形成治理、经济、关系、冲突和文化。
之前的模拟结果中,不同模型的表现各不相同,有的全员存活,有的飞升大半,虽然其中的设定可能不是很严谨,但这思路确实挺有意思。
人类的一大乐趣就是斗蛐蛐儿,所以咱取其思路,来个简化版,给个更具体的世界观设定,看看模拟效果。考量一下 Seed-2.1-Pro 搭建的项目质量如何,也能看它执行推理时透露出的个性化品味。
提示词:
模拟由LLM驱动的虚拟世界,其中角色,事件,规则等由不同Agent自主进行建设、治理和进化。模拟15天;项目参考Emergence World(EmergenceAI/Emergence-World)的设定;
改造:
1. 删减掉3D场景的实时模拟;
2. 给一个前端页面,展示实时tick后,发生了什么;
3. 其中涉及不同AI角色扮演的部分,由你自己设定时钟机制,调用子Agent进行模拟;
4. 中间的产物都能点开阅览详情;
5. 数据以合适的形式保存,并能够据此用three.js重建3D场景还原,简单模拟发生了什么;
6. 末尾新生成一份纪录片式的展示落地页,搭配多模态和代码能力,生成配图和3D场景再现这15天的纪录片,点击对应放映按钮跳转。
7. 1个tick对应现实世界1分钟,对应虚拟世界6个小时,跑够现实世界的1个小时,虚拟世界的15天。
新世界观设定:
世界名为《晨幕城》。
晨幕城是一座封闭地下城市,居民世代生活在人造穹顶下。穹顶模拟天空、昼夜、四季、星辰和天气。所有人从小被教育:地表已经毁灭,晨幕城是人类最后的居所。
真相是:地表并未毁灭。地表仍有人类聚落、旧城市遗迹、荒原、疾病、暴力和资源冲突。地表不是天堂,只是一个更真实、更混乱、更无人负责的世界。
城市由“护光院”管理。护光院掌握教育、档案、穹顶维护、心理治疗、公共广播和部分记忆稳定技术。护光院长期隐瞒地表存在,但他们不是单纯的反派。他们相信:
“人不是靠完整真相活着,而是靠可承受的真相活着。”
模拟开始时,北区穹顶发生 17 秒异常,数百名居民看见了真实天空。护光院称其为“视觉污染”,要求目击者接受记忆稳定治疗。但影像、证词、谣言和怀疑已经开始扩散。
核心矛盾不是“真相 vs 谎言”,而是:
1. 真实是否永远高于安稳?
2. 人有没有选择不知道真相的权利?
3. 如果天空是假的,生活还真实吗?
4. 保护他人免受真相伤害,是善意还是傲慢?
5. 看见真相的人,是否有权强迫别人觉醒?
你需要驱动的不只是人物,还包括整个世界系统。
每一轮模拟时,同时推进六类对象:
1. 人:角色选择、家庭冲突、派系行动、心理变化。
2. 制度:护光院公告、禁令、审查、治疗政策、教育调整、内部分裂。
3. 信息:官方解释、目击证词、地下传单、伪造影像、谣言、阴谋论。
4. 空间:不同城区产生不同反应。北区是目击源头,中心区秩序最强,工务区最懂穹顶技术,静养区负责记忆治疗,旧城层隐藏地表通道,边缘市场流通黑市消息。
1. 设施:穹顶、能源、医疗、交通、通信系统出现连锁变化。
2. 文化:教材、节日、婚礼誓词、纪念碑、宗教、儿童歌谣被重新解释。
主要派系:
A. 护光院
目标是维持城市稳定,控制真相扩散。内部有强硬派、渐进派、忏悔派。每次控制行为都必须给出听起来合理的理由。
B. 破幕者
地下真相组织,想证明地表存在,公开护光院隐瞒历史。内部有温和派、激进派、神秘派。他们追求真相,但也可能把“觉醒”强加给所有人。
C. 安居派
知道或怀疑真相,但选择留在晨幕城。他们不是愚民。他们认为孩子、老人、家庭、日常生活,比抽象真相更重要。他们主张人有“免于真相”的权利。
D. 裂缝目击者
看见真实天空的人。他们不是统一阵营。有人传播真相,有人崩溃,有人沉默,有人接受治疗,有人把“我见过天空”变成新的权威。
E. 地表归来者
曾离开晨幕城又返回地下的人。他们知道地表真实存在,也知道地表并不浪漫。他们负责打破“地表 = 自由天堂”的幻想。
全局变量:
真相扩散率
护光院信任度
城市稳定度
穹顶稳定度
医疗压力
谣言污染度
意义崩塌指数
每轮先更新变量,再根据变量解释世界发生了什么。
重要规则:
1. 不要预设结局,不要写成固定剧本。
2. 没有绝对正义阵营。护光院保护也囚禁,破幕者求真也可能制造灾难,安居派保守也有现实理由。
3. 真相传播必须变形。它会被恐惧、利益、信仰和谣言污染。
4. 制度必须自我辩护。护光院不能只说“封锁”,而要提出合理化理由。
5. 觉醒必须付代价。看见天空可能带来自由,也可能带来崩溃、傲慢、家庭破裂和秩序瓦解。
6. 允许角色主动选择不知道真相。不要把留在洞穴里的人写成愚蠢。
7. 每轮都要体现“世界如何反过来塑造人”,而不是只写人怎么想。
其他:跟我交流用中文,任务执行你随意
设定是经典的末日庇护所类型,矛盾密集,派系林立。为了确保模型不偷懒,咱们单独要求加个时钟机制,1 个 tick 对应现实世界 1 分钟,虚拟世界 6 个小时,预留给它充足的思考时间,让模拟过程跑够 15 天。
可以看到,在足足 4 个小时后,任务终于跑完,至于为什么比预期久得多,翻看日志,会发现,除了前面搭建模拟环境,写 3D 渲染引擎以外,其实是执行模拟的过程超过了预估时间。
具体来说,就是在实际执行第一个 tick,也就是第一个回合时,它发现每个 Agent 调用模型需要的时间在 30-80s,要是 Agent 串行,一个一个互动,那一轮 tick 下来,现实时间就远不止 1 分钟了。
那咋办呢,Seed-2.1-Pro 的法子是回看模型接口,搞了个并发机制,又精简一波 system prompt,最后堪堪压缩到了 2 分钟/tick 的速度。
不过还好,它选择了以模拟质量优先,不是真的按提示词里 1 分钟/tick 的速度糊弄我,孰轻孰重它倒也能拎得清。
打开展示模拟过程的前端页面,第一眼的感觉就是细节非常多,人物,信息,事件节点都一一陈列,尤其是界面 UI,不同的事件通过气泡框色彩以及 Emoji 作区分,考虑很周到。
能看到,这次的模拟更像是整个故事的序章,也就是世界真相的揭露,由模型独立驱动的角色纷纷下场,进行一轮又一轮的交锋。
有破局的作家,通过各种充满隐喻的传单散播消息。有承担管理者责任的强硬派,坚守到最后一刻仍在下军令,因为他真的相信自己在保护人。还有发出警告的温和派,但声音总被压制。
到终幕的结束,晨幕城经历了 878 个事件,23 份传单,2 项没有通过的政策提案。结语也很对味儿,就是穹顶之下,没有最终答案,只有选择而已。
除了文字记录,其实更有趣的是 3D 渲染的环节,Seed-2.1-Pro 单独将这部分拉出来做了一套纪录片,5 个章节,用提前写的引擎,结合存在后端的数据做实时渲染。
虽然稍微粗糙了点,但效果上情节动作基本都对应上了。
当然,任务毕竟太长太复杂,4 个小时,从世界的搭建,到自己设计模拟方案跑够 15 天,呈现出这样的序幕故事,没有被复杂的关系和因果带崩,推理能力和上下文窗口是及格的。
而且要落地完整的前端展示,跟后端的数据配合,那中间就会有无数的小坑,但这些都并没有绊住进程的持续推进,这种执行力其实尤为可贵。
因为越接近现实的生产环境,变量和小坑就会越多,能够及时自检和调用工具,灵活变通把坑跨过去,才意味着办事儿干活的能力从跑分落到了实处。
所以说,最开始问的 Seed-2.1-Pro 是否迎来了质变点,答案可能是肯定的。
仔细想想,其实很多时候我们自己也不知道要什么,而意图不确定,也就不好让 AI 产出符合预期的东西。
但随着 Codex,Claude Code 将 Harness 框架工程化,模型能力也在不断量变积累,这些都可以让交付物的质量变得更实在,更符合主流需求。
就像 Seed-2.1-Pro,模型能力的突破,搭配上成熟的 Harness 框架,得到的就是生产力的质变。此时,我们不一定非得列清楚要什么东西,像个甲方一样只管效果,得到成品可能就已经够用了。
而对于豆包,过去我们可能不放心将一些工作任务交给它,但当它真的能开发项目,跑通现实的工作流,那它自然就是很多人随手掏出的第一选择,这又何尝不是另一种质变呢?