补上短板的豆包大模型2.1，味道确实不一样了,豆包的豆怎么做

提起字节的 AI，不少人第一时间想到的应该是豆包的形象。

响应速度快，说话接地气，上至 80 岁老奶，下到刚识字的小孩儿，基本都能跟它聊几句。

而最近，豆包脑袋里负责思考的 Seed 模型，已经悄悄迭代到了 2.1 版本。今天，火山引擎正式发布了 Seed2.1 系列，API 已经全量上线，并透露该模型即将全面接入豆包，开启办公任务模式。

能支撑这样一个国民级的 AI 应用，要说没点独到之处是没人信的，所以我们也弄到了测试名额，提前品了品这 Seed-2.1-Pro 的成色如何，看看它跟印象中的豆包大模型又有什么不同。

先来看跑分，在很多 Agent 相关的测试里，它都干到了第一梯队，像是 OpenAI 衡量职业任务的 GDPVal，以及刚出不久颇有难度的 ALE，跟 GPT 和 Claude 掰起手腕也不手软。

至于多模态，除了电脑端的操作略逊 Claude-Opus-4.7 一筹，其他领域完全就是舒适区。图形界面的 MobileWorld，也就是移动端的理解操作能力，稳居第一，这个看过之前豆包手机的应该都有体会。图表理解和多模态推理也有小幅领先，视频理解更是大身位甩开 Gemini-3.1-Pro，非常强势。

不过最显眼的，还是 Coding 能力这个往常的短板，这次也补到了旗舰水平。比如之前 GLM-5.2 崭露头角的前端能力，在大模型竞技场中，Seed-2.1-Pro 就挤到了 Claude 梯队当中，排在 Opus 4.6 中间。

能感觉到，Seed-2.1-Pro 的定位很清晰，就是冲着 Agent 调度以及 Coding 任务来的，想迈过这个生产力和 Coding 任务的质变点。

就像生图模型从 GPT-Image2 进入到真假难辨的阶段，视频模型等来 Seedance2.0 才开启内容创作的大爆发。生产力任务中，也存在这样的一条基线，之前就有 Claude Opus 4.6 这样的万金油给大家做展示：把工具调用和 Coding 能力拉满，再叠上旗舰级的推理，这干活儿能力就会跨过这条线，得到质的飞跃。

但光跑分越过去还不够，质变与否我们还得实际把模型拉出来，扔到不同的场景里跑一跑，才能感受到。

刚好最近在踢世界杯，作为世界第一的体育项目，它的商业模式一直是非常值得参考的，我们就让 Seed2.1 去深挖一下这部生意经试试水。

打开豆包的办公任务，就用默认模式，尝尝它原汁原味的深度研究。

提示词：

目标：围绕「世界杯商业模式」收集可信资料，梳理收入、成本、利益相关方等内容，沉淀为后续建模、表格、PPT 和互动页面可直接使用的数据底座。可以顺带收集一些顶尖世界赛事的对应资料，数据，作为对比参考，比如奥运会等。

输入：主题：世界杯商业模式研究。优先使用 FIFA、IOC、主办方、咨询机构、权威媒体等高可信信源。

输出：生成结构化资料表，包含数据项、数值、时间、地区、来源、可信度、备注等等，结构不严格要求，如果有专业模型，你也能参考更改优化；另附简短研究笔记与信源判断。

步骤：先制定检索关键词，再分轮搜索官方资料、行业资料和媒体报道；对关键数据交叉验证，保留来源链接，不确定内容标注风险，不编造数据。

可以看到，在开始前，它会先检查能用的技能，如果不适配，就主动更替，而不是硬着头皮乱用。能看出来在工具调用上是做了针对性训练的。

接下来就是执行过程，其中的数据整理基本没问题，特别是加入了信源交叉验证的环节后，数据容易重复过载，它应对的方式是现写 Python 脚本，从而进行结构化输出，避免幻觉出错，这可能也是模型厂商爱卷 Coding 的原因吧。

就最后交付的 Excel 数据表和研究笔记来看，质量还是不错的，一些缺口和矛盾在自检环节就能提前纠正，整个任务的重心放到了交付的合规性，耗时略长也就能接受了。

有了数据和研究报告，下一步自然是展示环节了，就按常规的 PPT+HTML 落地页两件套来，为了效果更好，可以先让它装上一些主流的 Skill。

这里我试了不同的方法，比如告诉他归藏的 PPT Skill 地址，以及直接说一些开源的 Skill 名字，结果它都能自己去找源头，然后安装好。

提示词：

调用刚刚安装的这些技能。

目标：完成数据清洗、指标建模和可视化展示，形成可交付的PPT 与互动落地页。

输入：上一阶段的世界杯商业模式资料，数据库，研究笔记等。

输出：生成关键图表、PPT 大纲/页面内容，以及一个互动落地页，内容丰富一些，需包含主要数据图表、商业模式拆解和可交互组件等部分。

步骤：先清洗数据并统一口径，再建立各种专业维度进行分析；提炼关键发现，生成图表和结论页；最后将内容转化为 PPT 与落地页结构，并嵌入可交互图表或筛选组件。加一个部分，说人话接地气的那种分析，比如和其他世界级赛事（如奥运会）比起来，为什么世界杯越办越好。关于展示部分的PPT和落地页，不一定完全对应，可以在制作中调用浏览器打开观察，自己迭代一下。

在执行阶段，就更能体会到多模态模型的好用之处了。在写落地页的时候，Seed-2.1-Pro 可以不用像文本模型那样干巴巴的检查代码，因为很多视觉错位或者嵌入不兼容的问题，只看代码是看不出来的，而且效率也低，更符合直觉的办法就是截图反馈。

所以在执行中，就老能看到它唤起内置浏览器，模拟人类操作，或下滑，或点击交互，优化了不少细节。

直接来看成品效果，调用 Skill 后，审美这块没大问题，配色组件和字体搭配的 AI 味儿较轻，图表也不是纯静态的，不同的组件，筛选交互时，会有过渡特效，细节足够的同时，整体的视觉展现也比较克制。

结论这块，它通过前面的分析定了个调子，就是 FIFA 世界杯的商业效率已经把奥运会越甩越远了，分析也基本到位，作为展示的最后一环也比较合适。

接下来加大难度，让它跑一下实际的代码项目，直接把火山方舟的 API 接入到 Codex 里。

这里选了一个 Github 上的中型项目，原项目把你头顶飞过的飞机、天体、卫星，实时投影到天花板上，我们做个手机端的移植，举起手机对准天空，就能用 AR 的方式看天上的飞机，天体。

准备好提示词，直接丢给它，说实话，我本来以为会出现一些小 Bug 的，因为仓库中的组件很多都没法复用，之前用 Gemini 搓的时候，空中的飞机，星星都会漂移，定位也不是很精准。

提示词：

目标：基于https://github.com/cpaczek/skylight项目，做移动端 Web AR 天空透视原型，举手机对准天空，精准叠加飞机与恒星/星座等天体位置，杜绝随机漂移。

输入：目前本地文件夹为空，你可以把项目拉到本地，然后看哪些能用上，有没有接口可以复用等

输出：可直接推到github仓库，然后部署到vercel上的项目，用户打开网页，授权权限后就能使用。

步骤：你拆分一下，自己规划，有哪里可能有问题问我。

但这次交给 Seed-2.1-Pro，它给出来的 MVP 原型居然是正常运行的，先不管精度如何，最起码功能完备，能直接迭代了。唯一可惜的是测试时的天气不给面子，看不到月亮，头顶也没有飞机路过，只能看星星的部分。

翻看执行日志，能看到，它针对提示词里说的漂移问题做了详细预案，而且列为了头等大事，比如 iOS 和安卓的环境不同，就出两套不同的矫正方法。然后加了一层滤波算法，使漂移时的幅度有个过渡的阻尼感。好家伙，原来不是不飘，是让你感觉不到飘。

说起来，其实这个项目非常依赖手机的陀螺仪和罗盘，这俩传感器又极其容易受到电磁干扰，所以偏移倒也不稀奇，毕竟手机发烫的时候，东南西北都导不明白。

不过，意外之喜是它自己出了个保底方案，加了个主动校准，用户通过太阳，月亮，北极星这种参照物来二次校准，减少偏差，一下子就实用多了。

到这儿还不够，因为真实的开发任务都是长线的，需要根据反馈不断添加新功能。这里让它升级交互模块，新增星星的点击弹出信息，搜索引导功能，再加上中文适配。

提示词：

加功能：现在的星星没有信息，加一个点击交互，点击后弹出对应信息；搜索引导功能，搜索后出现引导，如果不在画面内，就用箭头引导，如果在，就用某种强调特效强调几下；加中文适配

花了 15 分钟，活儿干好了，还顺手给我推到 Github 仓库了，这下子连重新部署的功夫都省了，希望这种开发通路越多越好。

但话说回来，这次真的拿现实的开发标准来衡量，就出现一些小瑕疵了。比如点击时的触发区域不精准，很多时候点不开信息，以及那个引导时硕大的箭头，实在不够优雅。不过看在能跑通的份上，这些小问题倒也能原谅。

我们又拿 Claude-Opus-4.6 跑了一个原型做对比，发现它速度快得飞起，但视觉效果很一般，原项目中星星的数据接口是删减版，只有 60 颗左右，它就直接挪了过来，也没考虑这样的视觉效果会打折扣。

而且这个 AR 功能也没搞明白，相机权限是要了，但透视层却没叠加上去。虽说是 Medium 的默认思考等级，但这个完成度确实也差点意思。

这么几轮开发任务跑下来，确实能品出 Seed-2.1-Pro 的野心了，前面说的质变点的跨越，可能真不是空话。

要想试试 Seed-2.1-Pro 的成品效果，大伙儿可以点击结尾的阅读原文。

既然模型的性能尚可，那咱就继续加大力度，探探它执行超长任务时的能力边界。这里选择一个最近很火的项目，Emergence World，里面把大模型驱动的 Agent 们丢进一个持续运行的 “ AI 小社会 ” 里，看它们会不会自发形成治理、经济、关系、冲突和文化。

之前的模拟结果中，不同模型的表现各不相同，有的全员存活，有的飞升大半，虽然其中的设定可能不是很严谨，但这思路确实挺有意思。

人类的一大乐趣就是斗蛐蛐儿，所以咱取其思路，来个简化版，给个更具体的世界观设定，看看模拟效果。考量一下 Seed-2.1-Pro 搭建的项目质量如何，也能看它执行推理时透露出的个性化品味。

提示词：

模拟由LLM驱动的虚拟世界，其中角色，事件，规则等由不同Agent自主进行建设、治理和进化。模拟15天；项目参考Emergence World（EmergenceAI/Emergence-World）的设定；

改造：

1. 删减掉3D场景的实时模拟；

2. 给一个前端页面，展示实时tick后，发生了什么；

3. 其中涉及不同AI角色扮演的部分，由你自己设定时钟机制，调用子Agent进行模拟；

4. 中间的产物都能点开阅览详情；

5. 数据以合适的形式保存，并能够据此用three.js重建3D场景还原，简单模拟发生了什么；

6. 末尾新生成一份纪录片式的展示落地页，搭配多模态和代码能力，生成配图和3D场景再现这15天的纪录片，点击对应放映按钮跳转。

7. 1个tick对应现实世界1分钟，对应虚拟世界6个小时，跑够现实世界的1个小时，虚拟世界的15天。

新世界观设定：

世界名为《晨幕城》。

晨幕城是一座封闭地下城市，居民世代生活在人造穹顶下。穹顶模拟天空、昼夜、四季、星辰和天气。所有人从小被教育：地表已经毁灭，晨幕城是人类最后的居所。

真相是：地表并未毁灭。地表仍有人类聚落、旧城市遗迹、荒原、疾病、暴力和资源冲突。地表不是天堂，只是一个更真实、更混乱、更无人负责的世界。

城市由“护光院”管理。护光院掌握教育、档案、穹顶维护、心理治疗、公共广播和部分记忆稳定技术。护光院长期隐瞒地表存在，但他们不是单纯的反派。他们相信：

“人不是靠完整真相活着，而是靠可承受的真相活着。”

模拟开始时，北区穹顶发生 17 秒异常，数百名居民看见了真实天空。护光院称其为“视觉污染”，要求目击者接受记忆稳定治疗。但影像、证词、谣言和怀疑已经开始扩散。

核心矛盾不是“真相 vs 谎言”，而是：

1. 真实是否永远高于安稳？

2. 人有没有选择不知道真相的权利？

3. 如果天空是假的，生活还真实吗？

4. 保护他人免受真相伤害，是善意还是傲慢？

5. 看见真相的人，是否有权强迫别人觉醒？

你需要驱动的不只是人物，还包括整个世界系统。

每一轮模拟时，同时推进六类对象：

1. 人：角色选择、家庭冲突、派系行动、心理变化。

2. 制度：护光院公告、禁令、审查、治疗政策、教育调整、内部分裂。

3. 信息：官方解释、目击证词、地下传单、伪造影像、谣言、阴谋论。

4. 空间：不同城区产生不同反应。北区是目击源头，中心区秩序最强，工务区最懂穹顶技术，静养区负责记忆治疗，旧城层隐藏地表通道，边缘市场流通黑市消息。

1. 设施：穹顶、能源、医疗、交通、通信系统出现连锁变化。

2. 文化：教材、节日、婚礼誓词、纪念碑、宗教、儿童歌谣被重新解释。

主要派系：

A. 护光院

目标是维持城市稳定，控制真相扩散。内部有强硬派、渐进派、忏悔派。每次控制行为都必须给出听起来合理的理由。

B. 破幕者

地下真相组织，想证明地表存在，公开护光院隐瞒历史。内部有温和派、激进派、神秘派。他们追求真相，但也可能把“觉醒”强加给所有人。

C. 安居派

知道或怀疑真相，但选择留在晨幕城。他们不是愚民。他们认为孩子、老人、家庭、日常生活，比抽象真相更重要。他们主张人有“免于真相”的权利。

D. 裂缝目击者

看见真实天空的人。他们不是统一阵营。有人传播真相，有人崩溃，有人沉默，有人接受治疗，有人把“我见过天空”变成新的权威。

E. 地表归来者

曾离开晨幕城又返回地下的人。他们知道地表真实存在，也知道地表并不浪漫。他们负责打破“地表 = 自由天堂”的幻想。

全局变量：

真相扩散率

护光院信任度

城市稳定度

穹顶稳定度

医疗压力

谣言污染度

意义崩塌指数

每轮先更新变量，再根据变量解释世界发生了什么。

重要规则：

1. 不要预设结局，不要写成固定剧本。

2. 没有绝对正义阵营。护光院保护也囚禁，破幕者求真也可能制造灾难，安居派保守也有现实理由。

3. 真相传播必须变形。它会被恐惧、利益、信仰和谣言污染。

4. 制度必须自我辩护。护光院不能只说“封锁”，而要提出合理化理由。

5. 觉醒必须付代价。看见天空可能带来自由，也可能带来崩溃、傲慢、家庭破裂和秩序瓦解。

6. 允许角色主动选择不知道真相。不要把留在洞穴里的人写成愚蠢。

7. 每轮都要体现“世界如何反过来塑造人”，而不是只写人怎么想。

其他：跟我交流用中文，任务执行你随意

设定是经典的末日庇护所类型，矛盾密集，派系林立。为了确保模型不偷懒，咱们单独要求加个时钟机制，1 个 tick 对应现实世界 1 分钟，虚拟世界 6 个小时，预留给它充足的思考时间，让模拟过程跑够 15 天。

可以看到，在足足 4 个小时后，任务终于跑完，至于为什么比预期久得多，翻看日志，会发现，除了前面搭建模拟环境，写 3D 渲染引擎以外，其实是执行模拟的过程超过了预估时间。

具体来说，就是在实际执行第一个 tick，也就是第一个回合时，它发现每个 Agent 调用模型需要的时间在 30-80s，要是 Agent 串行，一个一个互动，那一轮 tick 下来，现实时间就远不止 1 分钟了。

那咋办呢，Seed-2.1-Pro 的法子是回看模型接口，搞了个并发机制，又精简一波 system prompt，最后堪堪压缩到了 2 分钟/tick 的速度。

不过还好，它选择了以模拟质量优先，不是真的按提示词里 1 分钟/tick 的速度糊弄我，孰轻孰重它倒也能拎得清。

打开展示模拟过程的前端页面，第一眼的感觉就是细节非常多，人物，信息，事件节点都一一陈列，尤其是界面 UI，不同的事件通过气泡框色彩以及 Emoji 作区分，考虑很周到。

能看到，这次的模拟更像是整个故事的序章，也就是世界真相的揭露，由模型独立驱动的角色纷纷下场，进行一轮又一轮的交锋。

有破局的作家，通过各种充满隐喻的传单散播消息。有承担管理者责任的强硬派，坚守到最后一刻仍在下军令，因为他真的相信自己在保护人。还有发出警告的温和派，但声音总被压制。

到终幕的结束，晨幕城经历了 878 个事件，23 份传单，2 项没有通过的政策提案。结语也很对味儿，就是穹顶之下，没有最终答案，只有选择而已。

除了文字记录，其实更有趣的是 3D 渲染的环节，Seed-2.1-Pro 单独将这部分拉出来做了一套纪录片，5 个章节，用提前写的引擎，结合存在后端的数据做实时渲染。

虽然稍微粗糙了点，但效果上情节动作基本都对应上了。

当然，任务毕竟太长太复杂，4 个小时，从世界的搭建，到自己设计模拟方案跑够 15 天，呈现出这样的序幕故事，没有被复杂的关系和因果带崩，推理能力和上下文窗口是及格的。

而且要落地完整的前端展示，跟后端的数据配合，那中间就会有无数的小坑，但这些都并没有绊住进程的持续推进，这种执行力其实尤为可贵。

因为越接近现实的生产环境，变量和小坑就会越多，能够及时自检和调用工具，灵活变通把坑跨过去，才意味着办事儿干活的能力从跑分落到了实处。

所以说，最开始问的 Seed-2.1-Pro 是否迎来了质变点，答案可能是肯定的。

仔细想想，其实很多时候我们自己也不知道要什么，而意图不确定，也就不好让 AI 产出符合预期的东西。

但随着 Codex，Claude Code 将 Harness 框架工程化，模型能力也在不断量变积累，这些都可以让交付物的质量变得更实在，更符合主流需求。

就像 Seed-2.1-Pro，模型能力的突破，搭配上成熟的 Harness 框架，得到的就是生产力的质变。此时，我们不一定非得列清楚要什么东西，像个甲方一样只管效果，得到成品可能就已经够用了。

而对于豆包，过去我们可能不放心将一些工作任务交给它，但当它真的能开发项目，跑通现实的工作流，那它自然就是很多人随手掏出的第一选择，这又何尝不是另一种质变呢？