首页 > 资讯

马化腾点赞的Agent, 正是“挂羊头卖狗肉”的AI泡沫本身

你是不是也在做Agent，却总觉得“功能多但不精”？这篇文章讲透通用Agent的五大缺陷，从幻觉难题到场景壁垒，再到资本驱动的泡沫逻辑，帮你看清“挂羊头卖狗肉”的现状，也提供一套垂直Agent的构建思路，适合收藏反复拆读。

最近看了一篇关于Agent比较中肯但略显悲观的文章：《几乎都在挂羊头卖狗肉，AIAgent的泡沫现在到底有多大？》

这篇文章价值较高，整理了多位行业一线实践者对通用Agent的认知。

正如原文所述，他们以Manus的新产品WideResearch和公司跑路、撤资事件为引，深入探讨了国内外Agent泡沫乱象的现实、背后原因以及未来生存规则。

在与多位偏实践导向的技术专家交流后，我发现他们对AI的认知相当一致。以下是我对其中一些关键观点的进一步解读和拆解。

一、类Manus产品崛起之因

在深入探讨之前，我们需要清醒认识到：今年Agent的大火，首先应该是模型能力取得了大幅增强，其次才是在这基础之上的tool-use上取得了关键突破。

大模型解决规划与调度问题，Manus类AI产品能爆发的核心原因就是模型能力大幅增强；

工具链解决多模态问题，包括最近很火的MCP、ComputerUse其实都算是AI多模态能力的延伸，要的就是解决AI各种“不行”的问题，这里包括了听觉、视觉、触觉等；

所谓的记忆和反馈迭代全部是数据工程的事情，之前一直叫RAG，可能最近还多了个称呼上下文工程。数据工程做得好，也可以有效降低模型幻觉。

记忆体系之前不可行，现在可行的核心原因是模型上下文大大扩展，从现在来看破百万是早晚的事。

综上，Agent能行的原因来源于模型能力增强。

在此之下才工具链的繁华：“从编程到browser-use，再到computer-use，以及随着MCP通用接口普及率的提升，Agent的tooluse能力得到增强，能够更高效地从外部获取信息，以及与外部系统进行交互。”

下图会更清晰展示，今年Agent的爆发是由于工具链叠加AI：

只不过，值得一提的是通用Agent使用browser-use、computer-use还是有一些无奈之举，因为很多网站并不提供API。

XX-use未必是最优解

理想情况是让Agent调用受控、可测、可审计的函数（MCP），ComputerUse作为兜底能力。

比如我们之前做的简单实现：《Coze+Claude实现Manus》。

这里就没有使用ComputerUse，一来是场景足够单一，二来是就是想验证下AICode这种方式（Claude）。

大家可以想象下，当AI编程再强大一点、理解能力更强一点，整个Agent架构可能就闭环了，这可能也是为什么很多巨头都在关注这块的原因：

掌控了AI编程能力，就掌控了智能体能力扩展的“开关”。这不再是做一个应用，而是在打造一个能够生长应用的平台。

这符合OpenAI、Google等巨头“模型吃掉一切”的终极路线图，只不过这里面的安全性问题和实现难度较高，还有很长的路要走…

然后就是很多消极的声音了：

二、消极的声音

虽然有些不公平，但Manus成了通用Agent的代表，也是主要输出对象…

王显：Manus前阵子刚推出的新功能WideResearch，我觉得非常不具备竞争力，对提高产品竞争力没有什么用。

他进一步的观点就更激烈了：Manus自始至今，从产品角度而言，思路是完全失败的。

在他看来，早期采用浅而宽的策略获客可以理解，但长期无法抵御模型厂商的下沉和垂直厂商的渗透。

大家的观点是比较一致的全部集中在能否解决问题：用户遇到真正复杂的问题时，这个通用Agent还是帮不上忙；当一个Agent宣称能做所有事情时，它往往在任何一个领域都做不到最好；…

上述的观点有些过于激烈，因为通用Agent肯定是一个大的发展方向，只不过暂时表现还不佳罢了。

其中有一句话是尤其关键的：Manus仍然没有解决场景壁垒的问题。

它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成，也没有与高价值业务场景的绑定，也就是任何人都能做。所以，它更偏向工程能力的延伸，而不是在构建场景护城河。

任何人能做就代表实现成本不高，但成本并不高是相对的，就算是垂直领域Agent也会遭遇以下问题：

精准的意图识别：用户的需求是莫名其妙的。智能体必须理解用户的“言外之意”，这是用户体验的一道槛。需要极其精细的提示工程和大量的对话数据进行调优；

强大的工具生态：智能体的能力边界由其能调用的工具决定。一个“Manus”能否真正解决问题，取决于它能否高效使用各种服务（如订票、查邮件、控智能家居、分析数据等）。自建工具链成本高昂，因此与第三方服务的集成能力至关重要；

深厚的领域知识：在垂直领域，通用知识远远不够。需要将行业的SOP（标准作业程序）、私有的数据库、专家的经验注入到智能体中。这部分工作是“脏活累活”，没有捷径，但正是构建护城河的关键；

这也是为什么红杉这么推崇OpenEvidence的原因：

AI应用的竞争已经从技术能力的竞争，转向了产品定义、用户体验打磨、生态整合与垂直行业知识深度的竞争，早期的红利属于在垂直领域做得无比深入的团队。

所以，通用Agent尚不成熟，为什么大家各自追捧？

三、期待与资本同在

王显更是认为这场通用Agent泡沫的兴起是创业公司和资本共谋的产物：

“Manus根本不是在做产品，而是在走资本路线，通过不断推高市场知名度以获得更高融资。至于创始人是拿到融资后真正深入场景做产品还是卷钱跑路，只有创始人自己才知道。产品非常失败，但营销可以说非常成功。”

张森森表示，“国内很多Agent产品功能繁多，但基本都是快速堆叠，痛点不聚焦。”

“比如有大量集成了写文案、做PPT、查资料、生成图片等功能的产品，不乏大厂参与其中。它们都有通用Agent的特点，功能多但不精。写代码准确率不高，数据分析缺少可解释性，设计产出质量参差不齐。初次使用可能觉得新鲜，但要长期依赖则难以实现。很少有明确与工作流、KPI绑定的可交付结果。”

……

正如各位大佬所言，通用Agent尚不成熟，为什么大家各自追捧呢？

我这里给个真实案例：

前两个月，我一好基友是某公司的高管，他们开发了一个类Manus产品，正在他私下跟我吐槽毫无壁垒、一个月就搞定、幻觉很多的时候，他们老板却表示直接AllIn！

原因无他，马化腾给他们产品点赞了！你觉得怎么样不重要，资本觉得怎么样很重要，并且正因为成本低，创业公司就更高兴了…

另一方面，我这边AI训练营有个学员刚融资一个亿，他们做的是垂直领域的Agent创业，而就是在那个小的领域，很多Manus遇到的问题，他们几乎全遇到了：“他们的宣传能力与实际能力并不匹配，并非能力完全无用，而是存在明显落差；”“成功演示的往往是任务中那20%的标准化部分，而真正构成工作核心的，是那80%的、充满‘长尾异常’的复杂现实。”

从这些角度来说，原文章真的很良心…

总而言之，这里我看到的结论是：通用Agent作为既得利益者，他们是绝不会说自己不行的，资本参与者对于他们暂时行不行不大关注，反正他们是最为了解AI的一批人，相较而言，他们比其他人容易成功

接下来开始探讨Agent缺陷的根本原因

四、Agent缺陷的根本原因

这部分的论述我特别认同郭炜的观点：（很多Agent公司）没有真正深入到用户场景中去做。

只不过原因这里我有更多的感受：当前国内创业生存环境极差，以我这边创业为例：3个月拿下了电信审批资质，APP终于可以上线；6个月了算法备案还没下来，所以AI模块一直没上…

不得不说国内创业环境真的很差，这变相加剧了我们对投资的渴望，这会导致我们明知通用Agent不行，但也会投其所好的做一个，很不好意思来说：

我们11月产品里面也会有个Agent，并且我们并不其他他解决太多问题，但在20%我们要求的场景，我们会要求他很好！

这里也不是技术有什么，我们做什么，而是资本关注什么，我们不得不做什么，如果没有基本的资金，那么我们马上就会死…

所以，与其从技术层面找Agent缺陷的根本原因，不如从环境层面看问题：国内创业者因各种原因都太急躁了，根本没办法沉下心来做数据工程！

我之前在公司做AI项目负责人的时候，一周要汇报三次；我的基友已经是CEO了，但每周都要面对几个投资人的“关切”，而这些都是压力…

如果你要问我Agent缺陷的根本原因在哪，我会说需要在每个垂直领域打透，专家Agent出来后，通用Agent带一个意图识别就好。

而这一切从技术实现上来说并不难，主要难在行业KnowHow的梳理和知识结构的沉淀，而一般公司（很多资金流健康的公司也慌）哪有那个耐心资金去耗啊！

我一个管理数字分身的Agent，折腾了一年多，中间因为生存问题断断续续几次了…

综上，Agent的根本缺陷在工程在资本在决心。

五、五大鸿沟

原文犀利地指出了通用Agent“挂羊头卖狗肉”的现状，我们结合自身情况将其根本缺陷归结于工程、资本与决心。但这三大症结的背后，由于实际艰难环境息息相关…

原文太长，我们就不一一拆解了，但有几个点是很重要的：

一、MCP因上下文缺失（知识语境缺少）导致的耗损

不存在一个“万能Agent”硬扛所有，而是通过A2A协议，让多个精通各自领域的垂直Agent协作完成复杂任务。

二、无法根除的“幻觉”难题

通用Agent在用户侧遇冷还有一个原因是他缺少模型的可观测性，在严肃的生产环境中，对应用的准确率要求极高，95%都是不可接受的数字，必须达到99%。

也正是这个原因AIWorkflow才在企业场景中大行其是，后续“Workflow（工作流）+Agent”的混合模式会是一种选择，用确定的流程框架，约束不确定的AI决策。

三、过度炒作的多智能体

现阶段单智能体已经可以很多问题，多智能体这种东西，大家听听就好了，不要盲目增加复杂度…

其他如什么上下文长度和模型能力，大家了解下就好…

六、结语

这里有一个问题：既然通用Agent现在不靠谱，那么有没有靠谱的垂直Agent？

作为过去AI医疗从业者来说，被头部VC押注并在医生群体里快速破圈的OpenEvidence似乎很受看好。

原因也很简单：他把“智能体”拆解为“行业问题→数据语义→确定性交付”这条最基本的链路，用工程化思维来构建产品。这里用说人话的方式来做下拆解，看看他到底哪里作对了：

一、锁定单一人群

OpenEvidence只服务持有执业资质的医生，不做“万能助手”。

这一步看似放弃了广阔市场，实则精准砍掉了80%的歧义输入和长尾需求，换来高密度的可验证问题场景。

而且这类数据是越来越有用的反馈。

二、强来源与全链路可溯源

OpenEvidence在可溯源，高质量溯源这块做得非常好！

他每个回答都必须带有引用，且来源严格限定于《新英格兰医学杂志》(NEJM)、《美国医学会杂志》(JAMA)等经过同行评审的权威医学证据。

这种设计将模型的“幻觉”压缩到了医生可接受的专业范围内。

三、产品化“证据链”，而非聊天机器人

OpenEvidence的另一个核心在于他基于高质量数据生成的可溯源CoT。

这一特性的核心不是“聊出来”的答案，而是结构化呈现“证据+临床要点”的工作流产品，服务于床旁快速决策这一明确场景。

高质量的数据+像专家医生一样的思考方式，大幅度降低了幻觉的可能。四、以工程确定性换取智能边界

从内容合作、证据管线到模型与工作流的全程可观测，持续把“软性智能”嵌进“硬性流程”。

正如团队一再强调的，其核心是“临床证据→结构化→可追溯”的工程秩序。

总结一句话就是：他们在数据工程基础上建立了完善的飞轮系统，这让他们产品越做越好了。

这种慢慢积累数据持续打磨的方式看上去很笨，实际上却已经跟一般Agent拉开了差距。

综上，与其说OpenEvidence是一个垂直Agent“会聊天的医生”，不如说他是一个“证据工作流”产品。

它用高度确定性的工作流，兜住了大模型的不确定性，这与我们在前文强调的“Workflow+Agent”路线完全一致。

当然，这只是一种做法，也许后面其他Agent有更好的做法呢？