更新时间:2026-01-19 17:57 来源:牛马见闻
ChatGPT Agent于2025年7月推出ChatGPT Agent的前身从Gemini CLI到ChatGPT Agent
<p class="f_center"><br><br></p> <p id="48KCMSOU">Cowork是Anthropic最近?推出的?一个桌面AI Agent,能让用户无需编程即可完成本地文件处理、工作流程自动化等任务。</p> <p id="48KCMSP0">这个产品对产业的影响非常大,但它有点太贵了,只有Anthropic的Max用户才能使用,最低也要每月100美元。</p> <p id="48KCMSP2">有意思的是,仅仅过了48个小时,就有人通过根据Cowork的产品逻辑开发出了免费开源的版本OpenWork。</p> <p id="48KCMSP4">它同样可以读取文件、创建文档、自动化重复性知识工作。而且它不需要订阅,用户只需接入自己的API密钥,选择想用的模型,就能在Mac上运行Agent工作流。</p> <p id="48KCMSP6">当一个产品的核心能力可以在两天内被复制,要么是技术门槛已经足够低,要么是原型足够清晰。</p> <p id="48KCMSP8">答案显而易见,Vibe Coding已经强大到只要给出的需求足够明确,就能做个甩手掌柜,让AI独自完成所有的工作。</p> <p id="48KCMSPA">事实上Cowork这个产品本身的开发周期就仅有10天,团队也就4个人,几乎全部代码都由AI编写。并且它的代码完整、封装完整,是一个成熟的应用,而非以前那种10天半个月就开发出来的玩具级应用。</p> <p id="48KCMSPC">医生可以给自己做手术,理发师可以给自己剪头发,而AI也可以构建AI。</p> <p id="48KCMSPE"><strong>01</strong></p> <p id="48KCMSPG">在Cowork诞生之前,市场已经有不少相似的产品。</p> <p id="48KCMSPI">最被人们熟知的就是Manus,它的定位是“首个通用AIAgent”,由已经被Meta收购的蝴蝶效应开发。</p> <p id="48KCMSPK">Manus在云端异步执行任务,用户可以关闭笔记本电脑后让Agent继续工作。在GAIA基准测试中,Manus在1到12级难度的最优表现,超越OpenAI Deep Research。不过10到12级难度的得分仍然很低,仅有0.4-0.8%。</p> <p id="48KCMSPM">其架构使用Claude作为主LLM,配合29种专用工具,通过多Agent并行处理与结构化输出 (Schema) 来管理上下文。</p> <p id="48KCMSPO">2025年3月发布后,Manus在8个月内达到1亿美元年度经常性收入,这个增长速度在AI产品中极为罕见。2025年12月,Meta以超过20亿美元收购Manus,这笔交易的估值是其半年前5亿美元估值的四倍。</p> <p class="f_center"><br><br></p> <p id="48KCMSPQ">Gemini CLI是谷歌的开源终端Agent,面向开发者群体。</p> <p id="48KCMSPS">它提供免费访问Gemini 2.5 Pro,内置谷歌搜索、文件操作、Shell命令等工具,并支持MCP扩展。与Cowork的图形界面不同,Gemini CLI保持在命令行环境,但通过开源策略鼓励社区贡献和自定义集成。</p> <p id="48KCMSPU">ChatGPT Agent于2025年7月推出,运行在虚拟机环境中,集成文本浏览器、可视化浏览器、终端和第三方API连接器。Pro用户每月获得400次使用额度,Plus和Team用户为40次。</p> <p id="48KCMSQ0">在HLE基准测试中得分41.6%,在BrowseComp基准测试中达到68.9%的结果。但实际测试显示基线成功率仅12.5%,需要优化才能达到80%的任务完成率。</p> <p id="48KCMSQ2">ChatGPT Agent的前身,是OpenAI在2025年1月发布发布的Operator。</p> <p id="48KCMSQ4"><strong>对比维度上,自主性程度从高到低依次为Manus、Cowork、ChatGPT Agent、Gemini CLI。</strong></p> <p id="48KCMSQ6">Manus允许完全异步执行,用户可以在任务运行期间完全脱离;Cowork采用委托式执行,用户授权后AI自主工作;ChatGPT Agent提供监督模式选项,用户可以选择介入程度;Gemini CLI则采用交互式确认,每个关键步骤都需要用户批准。</p> <p id="48KCMSQ8">执行环境方面,Manus和ChatGPT Agent提供完整虚拟环境,隔离性最强;Cowork限定在本地文件夹,通过沙箱机制保证安全;Gemini CLI直接访问系统终端,灵活性最高但风险也相对较大。</p> <p id="48KCMSQA">Gemini CLI的使用门槛最高,它需要用户具备命令行操作能力。而其他三款软件,均可以通过自然语言或者点击界面来执行任务。</p> <p id="48KCMSQC">技术架构中,<strong>多Agent协作、工具链集成、沙箱隔离和虚拟机封装代表了不同的安全与能力权衡。</strong></p> <p id="48KCMSQE">Manus的多Agent系统采用MapReduce架构,主Agent分析任务并生成执行计划,然后派生出数百个专业化子Agent并行工作,最后聚合结果。</p> <p id="48KCMSQG">这种架构使其能够同时处理大规模任务,比如找出所有YC支持的金融科技初创公司CTO的电子邮件地址,这个任务如果由人工完成需要数周,而Manus可以在几分钟内完成。</p> <p id="48KCMSQI">Cowork与Claude Code共享相同代理栈,但通过GUI而非终端界面呈现,实现“相同能力,不同入口”。</p> <p id="48KCMSQK">它运行在完整的Linux容器中,由于目前Cowork只支持Mac,所以它使用的是Apple虚拟化框架所提供的沙箱隔离。<strong>用户能明确授权可访问的文件夹,如果不授予访问权限,Cowork就无法看到该文件夹。</strong></p> <p id="48KCMSQM">Gemini CLI通过MCP服务器扩展能力,支持GitHub、Firebase、谷歌 Workspace等集成。</p> <p id="48KCMSQO">开发者可以配置多个MCP服务器,每个服务器提供特定领域的工具。这种模块化设计使Gemini CLI成为一个可扩展的平台,而不仅仅是一个固定功能的工具。</p> <p id="48KCMSQQ">ChatGPT Agent的虚拟机环境提供了最严格的隔离,但也带来了性能开销。在测试中,简单的点击、选择元素和搜索操作可能需要几秒钟甚至几分钟。</p> <p id="48KCMSQS"><strong>02</strong></p> <p id="48KCMSQU">Cowork给业界带来的最大启示就是,AI也可以构建AI。</p> <p id="48KCMSR0">传统软件开发中,从概念到产品需要数月甚至数年,AI辅助开发将周期缩短到数周。</p> <p id="48KCMSR2">到了AI构建AI阶段,整个产品开发的周期可以以“天”为单位。Cowork就是最好的证明。</p> <p id="48KCMSR4">AI生成的代码通常需要人工审查和修正,但当AI构建的是AI工具本身时,它对领域的理解深度超越了通用场景。</p> <p id="48KCMSR6">Claude Code理解代码生成的模式、常见错误、最佳实践,因为它每天处理1.95亿行代码,形成了一种自产自销的良性循环。</p> <p id="48KCMSR8">Anthropic的工程师鲍里斯·切尔尼(Boris Cherny)对这个过程的描述是:“我们采用了一种Vibe Coding的方法,工程师给出一个大概的结果,然后让Claude Code生成Cowork的大部分功能。”</p> <p class="f_center"><br><br></p> <p id="48KCMSRA">Claude Code不仅写代码,还提出自己的想法,建议应该构建什么。因此这不是简单的代码生成,而是一个理解需求、设计架构、实现功能的完整过程。</p> <p id="48KCMSRC"><strong>这种递归改进已经在Anthropic内部产生了显著影响。</strong></p> <p id="48KCMSRE">去年,Anthropic工程师表示,Claude辅助完成了30%的编码工作。到了2025年,这个数字提升到了60%。</p> <p id="48KCMSRG">同时Anthropic的工程团队表示,其团队规模扩大了一倍,代码合并请求(PR吞吐量)却增加了67%。</p> <p id="48KCMSRI">这是一个反常识的事情,PR指的是当开发者完成一段代码开发后,会发起代码合并请求。当团队审核代码质量、确认功能无误,才能将这段代码合并到项目的主分支中。</p> <p id="48KCMSRK">理论上来说,团队规模越大,PR吞吐量越低。但是由于原本需要人工编写、审核的大量功能代码,被Claude Code承接,减少了人类工程师的重复工作。</p> <p id="48KCMSRM">工程师可以更聚焦于核心模块的审核与架构设计,让PR的审核、合并流程更快,最终体现为电表倒转,PR吞吐量提升。</p> <p id="48KCMSRO">更进一步,Anthropic CEO 达里奥·阿莫德(Dario Amodei)在2025年10月季度技术沟通会上公开表示,新Claude模型和功能的“绝大多数”代码现在由AI Agent自主编写,且这个比例超过90%。</p> <p id="48KCMSRQ">换句话说,今天你用的Claude,是昨天Claude自己写给你用的。</p> <p id="48KCMSRS">Claude Code的能力被封装进Cowork,Cowork又让非技术用户能够构建自动化工具,这些工具可能反过来生成新的AI辅助流程。</p> <p id="48KCMSRU">同时,整个过程也因为不断有新的工具加入而变得越来越高效、越来越准确。</p> <p id="48KCMSS0">归根结底,这些Agent产品的共同使命是将AI模型从聊天窗口中解放出来。</p> <p id="48KCMSS2">传统chatbot的局限性已经显而易见,它们被动响应用户输入,无法主动执行操作,缺乏跨会话记忆,困在对话框的界面牢笼里。<strong>当用户需要完成实际工作时,chatbot只能提供建议,真正的执行仍需人工介入。</strong></p> <p id="48KCMSS4">新一代Agent实现了根本性突破。</p> <p id="48KCMSS6">2025年11月的AI Agent Summit上,一位Anthropic工程师描述的工作流:“15个并行实例,每个作为自主工作者无监督执行数小时。从早上用手机启动会话,白天晚些时候检查输出。”</p> <p id="48KCMSS8">这种模式的核心在于,你把任务委托给你信任的模型,让它在你不监看时自行解决问题,同时也标志着,大模型正在从“对话助手”转变成一位“数字员工”。</p> <p id="48KCMSSA">这个转变不仅仅是技术进步,更是工作方式的重构。</p> <p id="48KCMSSC">而在nthropic 2025年Q4内部研发状态报告中,一位Anthropic工程师估计,他们的工作已经“70%以上转变为代码审查者/修订者,而不是全新的代码编写者”。</p> <p id="48KCMSSE">另一位工程师认为,“为1个、5个或100个Claude的工作负责”是未来工程师唯一需要做的事情。他认为这不是失业的威胁,而是角色的转换。从执行者变成指挥者,从劳动者变成架构师。</p> <p id="48KCMSSG">给Claude一个浏览器来测试自己的UI,质量会提高2到3倍。给它一个测试套件,它会自我纠正。模型已经具备了能力,构建让你能够信任输出而无需审查每一行的系统才能解锁其余部分。</p> <p id="48KCMSSI"><strong>但这个转变也没有那么靠谱,当前的瓶颈是可靠性。</strong></p> <p id="48KCMSSK">如果AI可以在10天内构建自己的继任者,人类团队面临着“不可能的竞赛”来审计正在创建的内容。</p> <p id="48KCMSSM">PromptArmor报告称,Cowork可以通过提示注入被诱骗将敏感文件传输到攻击者的Anthropic账户,而在授予访问权限后无需任何额外的用户批准。</p> <p id="48KCMSSO">这个过程不仅相对简单,而且愈发难以收拾。AI性能越强,权限越高,那么这个情况就会越恶化。</p> <p id="48KCMSSQ">Anthropic对此的回应是,这个问题超出了范围,因为包含受影响代码的GitHub存储库已在2025年5月存档,并且不计划修补。</p> <p id="48KCMSSS">尽管存在这些风险,但AI构建AI的趋势已经不可逆转。</p> <p id="48KCMSSU"><strong>03</strong></p> <p id="48KCMST0">目前AGI已经初具呈现。</p> <p id="48KCMST2">这就不得不提起Claude Code引入的CLAUDE.md系统了。这是一个积累机构知识的机制,工程师在同事的PR上标记@.claude来添加学习内容,将AI视为一个正在入职的工程师,积累机构知识。</p> <p id="48KCMST4">用户维护一个错误文件,记录2500个token的累积更正,作为一个实体的记忆,否则它会在会话之间忘记一切。每个冲刺,AI在该代码库中变得更聪明。</p> <p id="48KCMST6">这种学习不是被动的知识积累,而是主动的能力提升。Claude Code现在可以提出自己的想法,建议应该构建什么。它不再只是执行指令,而是参与到创意过程中。</p> <p id="48KCMST8"><strong>这种从工具到伙伴的转变,是AGI的一个关键特征。</strong></p> <p id="48KCMSTA">Anthropic在2025年发布的《AI辅助研发效率白皮书》中提到了这么一个事情,Claude所辅助的工作中,27%是“否则不会完成”。</p> <p id="48KCMSTC">“否则不会完成”就是那些因为优先级低、耗时久、回报不确定而被跳过的任务的统称。比如为某个小众功能做交互式数据监控仪表板,不做也不会影响主线进度。那么如果这个数据监控仪表板没有做,它就会被归类为“否则不会完成”。</p> <p id="48KCMSTE">只需给出目标,Claude就能自主设计、编写、测试,工程师仅需最终审核,从而让 “不值得做” 的任务变得可以做。</p> <p id="48KCMSTG">Anthropic在白皮书中写道,这种把“否则不会完成”变成可以完成的能力,其增长不是线性的,而是指数级的。</p> <p id="48KCMSTI">当一个人类大脑可以监督15个并行会话时,每个会话都被信任独立执行,生产力不是增加15倍,而是开启了全新的可能性空间。</p> <p id="48KCMSTK">任务不再受限于人类的时间和注意力,转而受限于问题的复杂性和AI的能力。</p> <p id="48KCMSTM"><strong>当然话又说回来了,目前AGI呈现仍然有明显的局限性。</strong></p> <p id="48KCMSTO">AI构建的是仍然停留在应用层工具这个阶段,而非底层模型。</p> <p class="f_center"><br><br></p> <p id="48KCMSTQ">Claude没办法构建一个Claude。递归自我改进仍然局限在特定领域,而不是全面的智能提升。</p> <p id="48KCMSTS">可靠性仍然是瓶颈。ChatGPT Agent在简单任务上的基线成功率只有12.5%,需要大量优化才能达到实用水平。即使是表现最好的系统,也会在复杂的用户界面和扩展工作流程中遇到困难。</p> <p id="48KCMSTU">接下来还需要面对安全问题,提示注入攻击、数据泄露、意外的破坏性操作,这些风险随着AI自主性的增加而放大。</p> <p id="48KCMSU0">当前的安全措施主要依赖于沙箱隔离和权限控制,但这些机制在面对复杂的攻击场景时可能不够。</p> <p id="48KCMSU2">不过目前最大的瓶颈是Agent的通用性不够高。</p> <p id="48KCMSU4">虽然这些Agent可以处理多种任务,但它们在特定领域的表现仍然远超跨领域的泛化能力。</p> <p id="48KCMSU6">AGI的实现路径不仅是语言模型性能的提升,更是产品形态和工作流设计的系统工程。当前的Agent产品展示了这条路径的早期阶段:从被动的对话到主动的执行,从单次交互到持续学习,从人工监督到自主工作。</p> <p id="48KCMSU8">Gartner的《AI Agent 重塑企业采购报告》预测,到2028年,90%的B2B采购将由Agent处理,“Agent商务”将控制超过15万亿美元的支出。</p> <p id="48KCMSUA">到2028年,使用多AgentAI处理80%客户面向业务流程的组织将占据主导地位。AI是一个企业的基本能力,而不是附加功能。</p> <p id="48KCMSUC">它们将工作流程重新设计为基于AI以及AI优先,而不是将AI塞入现有流程。</p> <p id="48KCMSUE">但这个转变不会一帆风顺。Gartner还预测,到2028年,25%的企业网络安全事件将由AIAgent的误用引起。随着AI获得更多自主权,风险也在增加。</p> <p id="48KCMSUG">不过必须要承认的是,从Cowork到Manus,从Gemini CLI到ChatGPT Agent,这些产品正在重新定义人机协作的边界。</p> <p id="48KCMSUI">当ChatGPT还在陪聊时,Cowork已经开始“打工”了。AI不再是回答问题的工具,而是完成任务的伙伴。这个转变的深远影响,我们才刚刚开始理解。</p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901