作者:宛辰
去年获得最多精神养分的创业故事,来自 Dify 创始人张路宇。
第一次见到他是在 2023 年「西溪论道」活动上,现场一众星光熠熠的名字中,张路宇三个字并不起眼。2024 年再次见到,Dify 已经是另一个故事了——一位没有光鲜背景的创业者,愣是在所有人都问商业模式的质疑声中,做出了全球最成功的 AI 开源产品之一。
一年的时间里在这家公司上发生的,比如意外在「因循守旧、易守难攻」的日本市场大受欢迎等故事,让我进一步理解「创业」。多的是意外,更需要运气,最终是要有本事在持续变化与事与愿违中摸出一条道路。
现在,相似的故事发生在另一位备受关注的创业者——Manus.im 肖弘和他的团队身上。
4 个月前,肖弘提过一个困惑,「团队擅长从 0 到 1,抓机会的能力很强,一旦开始 1 到 N,状态就没有那么好」。
在他过往的经历中,创业项目大都获得了相对稳定、可观的营收,上一家公司也被成功收购。2023 年,他的新公司「蝴蝶效应」更是以一款浏览器插件 Monica.im,在百模大战的 AI 叙事中错位竞争,成为增长最快、产品体验极佳的 AI 应用之一。看上去,他是一路很顺的创业者。做到这些事情,也才 32 岁。
但实际上,他并没有太多爽感。在肖弘看来,所谓「连续退出创业者」、所谓不断从 0 到 1 的爽感,像是围城——从 0 到 1 抓机会的能力很强、很爽,但是反过来,也担心会不会又需要再来一次。
2024 年,行业人士认为,像 Monica.im 这样带有记忆功能的 AI 助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像 2023 年那样容易。Monica.im 有一个很好的从 0 到 1,但未必能冲击 1 到 N。
而他之所以会困惑,也是因为「团队接下来真的要做更难的事情、天花板更高的事情」,探索能够跨越 1 到 N 的事情。
更早之前,很多关注 Monica.im 的声音都假定这件「更难、天花板更高的事」是指传了很久、但团队迟迟未发布的 AI 浏览器。
现在看,确实,猜错了。
这段更难的探索其实是:放弃已经达到发布状态的AI浏览器、寻找下一个「ChatGPT 时刻」的 AI 产品、找到了通用型 agent 这个目标、做出了最新发布的 Manus.im。
Manus 是什么程度的创新、未来能做到什么水平,现在已经是一聊就炸了的话题。但值得看的,依旧是在「事与愿违」中找到的方向和找到方向的过程。Manus.im 未必就能让这支团队做成 1 到 N 的事情,甚至未必会复刻 Monica.im 的势头,但就像这家公司的名字——「蝴蝶效应」,许多小的动作和决定无意间对未来竟有深远的影响,「Connect the Dots」,明天的路会藏在今天的经历里。
01 Manus 的独特产品体验,源自做「AI 浏览器」的教训
去年中下旬以来,「蝴蝶效应」团队做 AI 浏览器成为行业「半公开」的秘密。正式对外亮相的产品,是引发失控般关注度的 Manus。
如果你亲自上手体验过 Manus,或者看过演示视频,你会感觉到它和聊天机器人或一些类 agent 应用相比,有一个明显的不同:Manus 可以异步、并行执行任务。
当你打开比如豆包、Kimi 或者类 Computer Use 等应用,向它发一个问题,你要等它回复完。否则在它回复或者做任务的过程中跟它说话,上一段回复/任务就中断了,你和它只能是 A-B-A-B 接力式的对话。
但是,在 Manus.im 里,尽管看着还是聊天机器人的产品形态,你却可以提出比如 20 个问题让它同步执行任务。一旁的你可以在电脑上做其他任何事情,看视频、写文档、打游戏等等,都不耽误它工作。一旦这些任务有完成的或者执行过程遇到问题,Manus 可以通知你。如果在执行任务中途,你看到它的思考出现了偏差,也可以随时在对话框补充提示词,它会带着新的上下文接着思考和执行任务。
体验是异步的、可以并行的,确实像有了一支可以帮你干活的真人实习生团队。
事实上,Manus 对异步体验的产品架构设计,源自团队在上一个未公开的产品——AI 浏览器中学到的一课。同时这也是团队投入了很大精力、但在去年 10 月决定终止做浏览器的原因。
The Browser Company 于 2024 年 10 月 25 日宣布停止对 Arc 浏览器的新功能开发,决定将资源转移到一款新浏览器 Dia 上,旨在打造一个更简洁、更易用的 AI 浏览器。|来源:Arc 官网
「在 AI 浏览器里,AI 在不断打断用户。」因为它是为单用户设计的场景,AI 用了,你就用不了了,当 AI 开始工作,你只能看着 AI 工作,很难上手。看着 AI 抢走了你的鼠标、电脑,你不仅不敢抢过来,而且还怕一不小心碰到键盘、鼠标导致它的整个流程崩掉需要再来一次。
这让团队做出两个判断:
-
直接用电脑去做 Computer Use,短时间内不太可行。
-
AI应该用浏览器,但不是在你的浏览器里用,它应该有自己的浏览器,这个浏览器最好在云端,最后把结果反馈给你。
在和腾讯科技张小珺的采访对话中,肖弘提到团队在总结从 Jasper 到 ChatGPT 到 Monica 到 Cursor 到 Devin 的产品形态时,发现「人类程序员」Devin 就很符合这个异步体验的架构。
它不像用 Windsurf 时,有时要让你确认你的电脑要不要装这个库;或者它执行一个命令行操作,让你填 yes or no,因为它可能真会把你的电脑搞坏,或者是某个东西冲突——它让你填「yes」才能到执行下一步,但要甩锅。
所以在 Manus 团队看来,「Chatbot 应该在云上有个电脑,把它写的代码、要通过浏览器查的东西都在那台电脑上执行。因为是虚拟服务器,坏了无所谓,可以再来一台。它甚至可以在当前任务执行完之后释放掉那个服务器。」
值得注意的是,相比 Devin 选择了垂直领域、硬核的工程师,Manus 团队则选择了通用型、消费级的 AI 助手,有 Web,也会有 App。它是一个可以根据指令,调用工具、完成与工作与生活中的各类任务的一款通用型 AI 助手,未来也会以一个消费级可负担得起的价格交付任务结果。
02 Less Structure,More Intelligence
有了明确的思路和目标,下一步就是实现这个想法。Manus 到底是怎么做到的?
在其产品合伙人张涛看来,这需要给大模型配一台电脑,同时也给它配系统权限(接入代码仓库、专业数据查询网站等私有 API),并给予一定的培训。
这样一来,AI 可以自己用这台电脑打开浏览器,做动作去调度工具,再根据工具产生的反馈观察它的动作对真实世界造成的影响,再思考下一步,再做动作,再观察……这是 AI 在探索和调研中完成任务的过程。期间,Manus 也会在你的「调教」下越来越懂你的要求,未来即便你没有清晰定义需求,它也可以根据一个个任务中沉淀下来的知识「揣摩圣意」。
华为天才少年、Logenic AI 创始人李博杰认为 Manus 有一眼不同于其他产品的厉害之处:以极客程序员的方式解决问题。|图片来源:微信截图
Manus 产品的理念,在其团队的产品实践过程中逐渐明确:即 Less Structure、More Intelligence(更少的结构,更多的智能)。
这也是让 Manus 团队产生一个个「A-Ha,Wait!」(惊呆了)的时刻。举个例子,这是今年 1 月在团队发生的一幕:
当让 Manus 试着做 GAIA 测试集上的一个题目:「在一个类似国家地理风格的 Youtube 视频链接里,各种企鹅们来来回回走出又进来画面,让 Manus 数一帧画面里面同时出现最多种企鹅时,是有几种?」
然后,神奇的事情发生了。
Manus 先是打开这个视频链接,接着做的第一个动作是「Press K」,接着挨个截图记录哪一帧出现了哪种企鹅后,最后得出最多的一帧画面有 3 种企鹅。Manus 接下来要回去检查,它的下一个动作是「Press 3」……。最后检查后给出答案就是 3。
作为建造 Manus 背后的人,理应很了解它的能力边界,但对团队来说,真实情况是「总有惊喜发生」。意外的不仅是 Manus 做对了题目,而且,用了多年电脑和 Youtube 的人类朋友可能都不一定清楚,键盘上「K」「3」这些按键是什么?
看着有些恍惚的眼前一幕,团队跟着 Manus 做了一遍,键盘上的「K」是暂停键,可以让 Manus 暂停后挨个截图记录哪一帧出现了哪种企鹅后;「3」也是一个快捷键,从 0 到 9 分别代表进度条的 0% 到 90%,3 是进度条的 30%,可以精确定位到那个视频的那一秒钟,然后告诉人类这个画面有几种企鹅。
「这个过程跟传统意义上的 Chatbot 不一样。第一,它能看 YouTube 的画面,而不是看字幕。第二,我们甚至发现它在用 YouTube 快捷键,非常震惊,它回答出来了这个问题。」肖弘在此前腾讯科技的采访中也提到了这一幕。
突然就发现,Manus 不仅在编程上比人擅长,就连在人们天天使用的 Web、App 上,Manus 的知识量也远超想象,作为一个全知全能的 AI,它可以在任何工具里了解所有途径和手段,然后选择最优的方法。
这让团队再一次感受到了「Less Structure,More intelligence」——尽量减少人工对 AI 的限制,让 AI 通过自己的进化来发挥作用,而不是教它怎么做。
在 Manus 官网的最底部,悄悄呈现了 Manus 背后最重要的发现:「Less Structure,More intelligence」。|截图来源:Manus
这是「蝴蝶效应」联合创始人、首席科学家 Peak 在 Manus 产品上线当天,对 Manus 产品背后最重要的第一性原理——「Less Structure,More intelligence」作出的阐述和延展思考:
当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实,那么 Computer Use、Deep Research、Coding Agent 等概念就从产品特性变为了自然涌现的能力。
回归第一性原理也让我们对产品形态有了全新的思考: AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器;
AI 搜索不是从索引召回再总结,而是让 AI 以用户的权限去获取信息;
操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机;
编写代码不是最终目的,而是解决各种问题的通用媒介;
生成网站的难点不是搭建框架,而是让内容言之有物;
Attention 不是 all you need,解放用户的 attention 才能重新定义 DAU;
一次次「Less Structure,More intelligence」的发现与实践,Manus 产生了超出期待的效果,包括在 GAIA benchmark 中的 pass@1 分数超过了 OpenAI Deep Research 在 cons@64 下的成绩;同时,在内部测试中,Manus 也能够直接覆盖 Y Combinator W25 中 76% 的专用 agent 产品的场景。
03「Agent 可能是『对齐』的问题,而不是基础模型能力的问题」
现在,这些洞察的含金量正在更大的范围内引起讨论:
Hugging Face 创始人、CEO Clement Delangue 在 X 平台提出 Peak 的发现值得思考:智能体的能力不是卡在基座模型上,而是像 GPT-3 与 InstructGPT(ChatGPT)的差别一样,是对齐的问题。一些开源基础模型被简单训练成「无论问题的复杂程度如何,都能在一个轮次中回答完所有问题」,但这是聊天机器人场景中的要求,只需要对智能体的路径做一些后训练,就能立即带来巨大的不同。|截图来源:X
Manus 并未引入 MCP(《模型上下文协议》),而是让 AI 能够自己写代码去调用 API,来胜任各种各样长尾任务。|截图来源:X
在过去几天对 Manus 的讨论中,听到最多的一个问题是:「通用的AIAgent」行不行得通,边界在哪里?
在 Peak 看来,因为人与世界的交互其实非常标准,有眼睛、手、耳朵,如果把 action space(行动空间)定义好,就应该能把一个 agent 嵌入到一个本来由人来进行的一个环节中。
既然人能够使用各种工具来完成垂直领域很深的操作,那么如果一个 agent 本身具有足够好的知识,经过了适当的培训,又有很好的一个与世界交互的界面,它应该能像人一样工作,甚至可以让这个 agent 用某个 SaaS 产品。比如在 Manus.im 官网呈现的一个找房子的案例,其实就是让 AI 用一个房地产领域专用的 SaaS 产品工作。
他认为,应该定义清楚的是 agent 使用工具的边界,而不是它为哪群人服务。Manus 不是在模拟一个干具体事的一个人,不是比如按照研发、产品经理等划分的角色智能体;而是在模拟一个能干事的人、是模拟一个实习生是怎么工作的。
Manus 的多智能体系统(Multi-agent system),指的是规划(Planning)和执行(Execution)的分离。
在执行器(Executor)上,Manus 采用了在编程、以及长程规划和逐步解决问题的能力暂时领先的 Claude,也在用 Qwen 的一系列模型做后训练。
昨天,Manus 也与阿里通义千问达成战略合作,致力于在国产模型和算力平台上实现 Manus 的全部功能。|图片来源:Manus
在规划器(Planner)的部分,Manus 则做了很多工作。
由于目前市面上的货架 API 或者说模型,本质上是为聊天机器人的场景做对齐的,在训练的时候,无论用户提了一个多么复杂的问题,其训练的优化目标都是在一个回复里把用户的问题回答清楚,但这其实跟 agent 所需要的 planning 完全相反。
所以如果把市面上现有的模型直接用在 agent 场景,并没有「对齐」,这个模型永远会急功近利地在一轮对话内给出一个「稀里糊涂」的结果,就像很多 bullet point 总结。
「对齐方式会应该不一样,我们团队认为,需要不同数据去专门做对齐」,肖弘说。
去年 10 月,Peak 在知乎也记录过一个尝试复现 OpenAI o1 兴趣项目——Steiner 开源模型的进展与失败,实际上这个项目恰是在做 Manus 规划器部分 step by step planning(一步步规划)的预研。
总体上,Manus 是在模拟一个做事的人,这是团队对 Manus 作为通用型 AI 助手的产品定义。至于对其边界的思考,团队大概率也仍在探索中,需要更多的用户使用案例。
在 Manus 发布前放出的腾讯科技采访中,肖弘其实已经提到了对 Manus 通用性所在的初步思考,「一个很核心问题,或者说产品经理很重要的一个职责,是控制好用户预期。假定它能干世界上所有事,比如:我要怎么赚 100 万美金?这本来就不是应该由一个 Agent 去执行的事情。但如果我们能够给出更多更具体的例子,让大家的预期更合理,大家会用起来更顺畅。」
04「壳有壳的用」,最懂壳的团队
2 月 27 号凌晨,Manus 产品合伙人张涛和首席科学家季逸超(Peak)看到 Manus.im 打榜成绩出来的一瞬间,两位都落泪了。Manus 在 GAIA Benchmark 上的成绩超过 OpenAI 的 Deep Research,而且以 OpenAI 打榜时 1/10 左右的成本(2 美元/任务)做到了这个意外的成绩。
图片来源:Manus.im
几十人的团队,在 agent 达成全行业共识的竞争态势之时,成为第一波做出通用 agent 产品的团队之一,在产品工程、前端交互体验上,也有独特性。
做成事情的正反馈,胜过所有。对创业团队来说,没有比这更好的激励了。但在这之前,Manus 是怎么发生的?为什么是这个团队做出来的?
「今天的模型能力是能够完成一些复杂、多步才能搞定的任务。只是没有这样的产品,所以大家感受不到。」肖弘在此前腾讯科技的采访中提到的洞察可以用来理解这一问题。
同时,「能有机会尝试做 Agent 的产品的团队,并不多。因为,需要很多复合能力。他要搞过 Chatbot,搞过一点 AI 编程相关,搞过浏览器相关,因为要调用浏览器,而且对 LLM 的边界有不错感知——今天发展到什么水平,接下来会发展到什么样的水平。这些能力首先同时拥有的公司没那么多,而且有这些能力的公司,可能手头正在干一个很具体业务。我们恰好有些同学刚好有时间一起把这些事做出来。」
「恰好」。
-
在恰好的时间发现模型能力达到了可以做 agent 的程度,而不一定非要等一个像 Operator 一样的端到端大模型出来;
-
也恰好发现了问题出在对齐上;
-
也恰好做过聊天机器人延展出来的所有功能和 AI 浏览器;
-
同时因为一直在所谓「套壳」做大模型应用产品所以对 LLM 有敏锐的感知;
「蝴蝶效应」团队达成了在当下做出这样一款通用 agent 的全部要素,所以现在有了完成度相对行业比较高的通用 agent。
在被问及要做 Manus 的决定性瞬间是什么时,Peak 还原了更多的细节,他表示,「创业其实没有『干净的』pivot」,这一切是连贯的、没有明确界限的。
「在做一款产品的时候,也会频繁关注外界的情况。」当时有几件事,一是做浏览器的时候,做过端侧模型,后来发现浏览器需要的场景非常非常宽,有不同的 feature,做的过程发现了基座模型变强的速度在加快,强到它跟 agent 之间的差距可能是一个 alignment 问题。尽管可能外界觉得好像大语言模型已经要逐渐收敛、撞墙。
同期,外界也在发生变化。去年年初 Cursor 开始火,然后是 Windsurf 和 Devin。这背后对应同一个脉络,agent 在编程领域火了,火的途径逐级递进。Cursor 是程序员的一个 copilot,提升编程效率,从 Windsurf 开始逐渐有些自动化的流程进来,让你在本机有更强的自动化能力,Devin 又达到了自动化新高度。
VC 的动向也是一致的,比如在去年和前年,YC 投了两类公司,一是云端的 Browser,比如 Browser base;第二类是类似于 e2b 这种轻量级的 AI Sandbox 虚拟机这些东西。
这说明「模型的基建在迅速成熟,Infra 的基建也在迅速成熟,再加上看见外界产品逐渐有更多的接受度,我们就觉得这是一个值得 all in 的方向。这是一个非常渐进的、平滑的过程,再加上做浏览器时的积累比如 chromium 那些基建可以无缝迁移过来,这也是为什么我们敢在云端搞浏览器」。
总结来说,在所谓「套壳」中对需求和模型的敏锐感知和经验积累,共同造就了 Manus。Monica 的很多场景需要做模型后训练,同时在AI浏览器的实践中强化了最重要的一课「less structure、more intelligence」,发现模型能力达到了做 agent,问题在于对齐。接着就是 Manus 飞速进化的 3 个月。
此前,「蝴蝶效应」团队一度被质疑「套壳」的价值何在,其在不自研大模型的情况下,通过整合现有大模型做出了 Monica,把聊天、搜索、阅读、写作、翻译等功能整合在一起,也通过一个个接 API 的方式集成了很多任务执行的场景,去年底用户量达千万。
现在,当豆包、夸克、元宝都大力推广各自的 Monica 类产品,当一个小团队又把现有技术利用起来做出第一个通用消费级 agent 时,是时候该重新理解「壳」了。
「套壳」以及「壳」究竟是什么?
在肖弘看来,所有突破都是模型带来的,基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点,以一个用户可感知的方式展示出来,把模型创新能力封装成用户最能感知的样子。
从这个定义出发,DeepSeek App(包括思维链的展示)是 DeepSeek-R1 的壳,Cursor 是 Anthropic Sonnet 3.5 的壳,Perplexity 是 GPT-4 的壳,ChatGPT 是 InstructGPT 的壳。
随着模型能力在快速进化,「那个壳」也需要进化。每一代模型能力进化之后,甚至不一定是原厂,是一个第三方厂商把它的用户可感知价值给呈现出来。就像 Cursor 把 Claude 3.5 Sonnet 的用户可感知的价值。
3 月 5 日,在 Monica.im 发布两周年的时间点,为什么是这几十个人做出了超过各类 Deep Research 和 OpenAI Operator 的产品体验,答案就在对壳的理解和实践里。
如何做出新的、可以做 agent 的模型下最好的壳?
作为 Manus 的建造者,张涛认为,「从后台去看它整个的架构,我们看到每个地方都有大量的未完成的工作要去做,而那些地方每一个地方都是决胜的小白导航关键,都是让产品面都不一样的地方。」
在团队看来,最重要的优势是创新速度(pace of Innovation),无论是应用还是模型,现在都到了一个相对饱和的状态,真正到最后的核心能力唯有一个,就是跑得快,尽管「数据飞轮」「网络效应」这些东西还未被验证有没有。
「在一个全新的领域里,一切未定,一切未知,最重要的就是创新速度,拼的是在各种各样的方向上探索、试错,快速找到正确的路径。」而 Manus 团队从管理理念、组织架构、产业流程上,足够灵活。当新机会出现时,能在有限的资源里能够贯通整个公司从上下所有的资源,并且极高的决策速度,并适应犯错的反馈。
从左至右依次是「蝴蝶效应」首席科学家 Peak、CEO 肖弘、产品合伙人张涛|图片来源:网络
对于 Manus 的预期,肖弘认为「哪怕有窗口期你也值得试一试。」过去一年,他的思考也在发生剧烈变化,比如现在的他认为「当意识到自己提前的时候,更激进,超级激进。今天复盘,觉得 23 年 Monica 不够激进。」「如果你知道你在创新,你在领先,你就应该激进。」
不知道 Manus 能不能给肖弘和他的团队带来从 1 到 N 的体验与跨越,但这个最懂「壳」的团队相信心手合一地创造、也相信创造带来的蝴蝶效应——Manus 来源于 MIT 的一个 motto:Mens at manus,强调心手合一。不能光学,还得做,对现实世界产生 impact,才是真正的知识。
未来,随着 Manus 背后更多的沉淀开源出来,更广范围的蝴蝶效应也会进一步释放。
文章来源于互联网:完整复盘:Manus 是怎么诞生的?