AI手搓的Cowork“李鬼”版跟“李逵”一样能打！还免)费？

更新时间：2026-01-19 17:57 来源：牛马见闻

55岁赴北京读博台湾画家林章湖开启艺术新生

这一仗必须赢！马斯克死磕芯片“9个月一更”，用出货量“淹没”英伟达

全国几乎每个村都好几个长达几十年的垃圾堆,全国几乎每个村都好几个长达几十年的垃圾堆场

又一里程碑，19岁的米利已经在英超出场50次,米利托欧冠进球瞬间

未一黑到底也是赢家！国乒19岁小将世排连升22位单站双亚不算差

ChatGPT Agent于2025年7月推出�ChatGPT Agent的前身�从Gemini CLI到ChatGPT Agent�

Cowork是Anthropic最近?推出的？一个桌面AI Agent，能让用户无需编程即可完成本地文件处理、工作流程自动化等任务。 这个产品对产业的影响非常大，但它有点太贵了，只有Anthropic的Max用户才能使用，最低也要每月100美元。 有意思的是，仅仅过了48个小时，就有人通过根据Cowork的产品逻辑开发出了免费开源的版本OpenWork。 它同样可以读取文件、创建文档、自动化重复性知识工作。而且它不需要订阅，用户只需接入自己的API密钥，选择想用的模型，就能在Mac上运行Agent工作流。 当一个产品的核心能力可以在两天内被复制，要么是技术门槛已经足够低，要么是原型足够清晰。 答案显而易见，Vibe Coding已经强大到只要给出的需求足够明确，就能做个甩手掌柜，让AI独自完成所有的工作。 事实上Cowork这个产品本身的开发周期就仅有10天，团队也就4个人，几乎全部代码都由AI编写。并且它的代码完整、封装完整，是一个成熟的应用，而非以前那种10天半个月就开发出来的玩具级应用。 医生可以给自己做手术，理发师可以给自己剪头发，而AI也可以构建AI。 01 在Cowork诞生之前，市场已经有不少相似的产品。 最被人们熟知的就是Manus，它的定位是“首个通用AIAgent”，由已经被Meta收购的蝴蝶效应开发。 Manus在云端异步执行任务，用户可以关闭笔记本电脑后让Agent继续工作。在GAIA基准测试中，Manus在1到12级难度的最优表现，超越OpenAI Deep Research。不过10到12级难度的得分仍然很低，仅有0.4-0.8%。 其架构使用Claude作为主LLM，配合29种专用工具，通过多Agent并行处理与结构化输出 (Schema) 来管理上下文。 2025年3月发布后，Manus在8个月内达到1亿美元年度经常性收入，这个增长速度在AI产品中极为罕见。2025年12月，Meta以超过20亿美元收购Manus，这笔交易的估值是其半年前5亿美元估值的四倍。 Gemini CLI是谷歌的开源终端Agent，面向开发者群体。 它提供免费访问Gemini 2.5 Pro，内置谷歌搜索、文件操作、Shell命令等工具，并支持MCP扩展。与Cowork的图形界面不同，Gemini CLI保持在命令行环境，但通过开源策略鼓励社区贡献和自定义集成。 ChatGPT Agent于2025年7月推出，运行在虚拟机环境中，集成文本浏览器、可视化浏览器、终端和第三方API连接器。Pro用户每月获得400次使用额度，Plus和Team用户为40次。 在HLE基准测试中得分41.6%，在BrowseComp基准测试中达到68.9%的结果。但实际测试显示基线成功率仅12.5%，需要优化才能达到80%的任务完成率。 ChatGPT Agent的前身，是OpenAI在2025年1月发布发布的Operator。 对比维度上，自主性程度从高到低依次为Manus、Cowork、ChatGPT Agent、Gemini CLI。 Manus允许完全异步执行，用户可以在任务运行期间完全脱离；Cowork采用委托式执行，用户授权后AI自主工作；ChatGPT Agent提供监督模式选项，用户可以选择介入程度；Gemini CLI则采用交互式确认，每个关键步骤都需要用户批准。 执行环境方面，Manus和ChatGPT Agent提供完整虚拟环境，隔离性最强；Cowork限定在本地文件夹，通过沙箱机制保证安全；Gemini CLI直接访问系统终端，灵活性最高但风险也相对较大。 Gemini CLI的使用门槛最高，它需要用户具备命令行操作能力。而其他三款软件，均可以通过自然语言或者点击界面来执行任务。 技术架构中，多Agent协作、工具链集成、沙箱隔离和虚拟机封装代表了不同的安全与能力权衡。 Manus的多Agent系统采用MapReduce架构，主Agent分析任务并生成执行计划，然后派生出数百个专业化子Agent并行工作，最后聚合结果。 这种架构使其能够同时处理大规模任务，比如找出所有YC支持的金融科技初创公司CTO的电子邮件地址，这个任务如果由人工完成需要数周，而Manus可以在几分钟内完成。 Cowork与Claude Code共享相同代理栈，但通过GUI而非终端界面呈现，实现“相同能力，不同入口”。 它运行在完整的Linux容器中，由于目前Cowork只支持Mac，所以它使用的是Apple虚拟化框架所提供的沙箱隔离。用户能明确授权可访问的文件夹，如果不授予访问权限，Cowork就无法看到该文件夹。 Gemini CLI通过MCP服务器扩展能力，支持GitHub、Firebase、谷歌 Workspace等集成。 开发者可以配置多个MCP服务器，每个服务器提供特定领域的工具。这种模块化设计使Gemini CLI成为一个可扩展的平台，而不仅仅是一个固定功能的工具。 ChatGPT Agent的虚拟机环境提供了最严格的隔离，但也带来了性能开销。在测试中，简单的点击、选择元素和搜索操作可能需要几秒钟甚至几分钟。 02 Cowork给业界带来的最大启示就是，AI也可以构建AI。 传统软件开发中，从概念到产品需要数月甚至数年，AI辅助开发将周期缩短到数周。 到了AI构建AI阶段，整个产品开发的周期可以以“天”为单位。Cowork就是最好的证明。 AI生成的代码通常需要人工审查和修正，但当AI构建的是AI工具本身时，它对领域的理解深度超越了通用场景。 Claude Code理解代码生成的模式、常见错误、最佳实践，因为它每天处理1.95亿行代码，形成了一种自产自销的良性循环。 Anthropic的工程师鲍里斯·切尔尼（Boris Cherny）对这个过程的描述是：“我们采用了一种Vibe Coding的方法，工程师给出一个大概的结果，然后让Claude Code生成Cowork的大部分功能。” Claude Code不仅写代码，还提出自己的想法，建议应该构建什么。因此这不是简单的代码生成，而是一个理解需求、设计架构、实现功能的完整过程。 这种递归改进已经在Anthropic内部产生了显著影响。 去年，Anthropic工程师表示，Claude辅助完成了30%的编码工作。到了2025年，这个数字提升到了60%。 同时Anthropic的工程团队表示，其团队规模扩大了一倍，代码合并请求（PR吞吐量）却增加了67%。 这是一个反常识的事情，PR指的是当开发者完成一段代码开发后，会发起代码合并请求。当团队审核代码质量、确认功能无误，才能将这段代码合并到项目的主分支中。 理论上来说，团队规模越大，PR吞吐量越低。但是由于原本需要人工编写、审核的大量功能代码，被Claude Code承接，减少了人类工程师的重复工作。 工程师可以更聚焦于核心模块的审核与架构设计，让PR的审核、合并流程更快，最终体现为电表倒转，PR吞吐量提升。 更进一步，Anthropic CEO 达里奥·阿莫德（Dario Amodei）在2025年10月季度技术沟通会上公开表示，新Claude模型和功能的“绝大多数”代码现在由AI Agent自主编写，且这个比例超过90%。 换句话说，今天你用的Claude，是昨天Claude自己写给你用的。 Claude Code的能力被封装进Cowork，Cowork又让非技术用户能够构建自动化工具，这些工具可能反过来生成新的AI辅助流程。 同时，整个过程也因为不断有新的工具加入而变得越来越高效、越来越准确。 归根结底，这些Agent产品的共同使命是将AI模型从聊天窗口中解放出来。 传统chatbot的局限性已经显而易见，它们被动响应用户输入，无法主动执行操作，缺乏跨会话记忆，困在对话框的界面牢笼里。当用户需要完成实际工作时，chatbot只能提供建议，真正的执行仍需人工介入。 新一代Agent实现了根本性突破。 2025年11月的AI Agent Summit上，一位Anthropic工程师描述的工作流：“15个并行实例，每个作为自主工作者无监督执行数小时。从早上用手机启动会话，白天晚些时候检查输出。” 这种模式的核心在于，你把任务委托给你信任的模型，让它在你不监看时自行解决问题，同时也标志着，大模型正在从“对话助手”转变成一位“数字员工”。 这个转变不仅仅是技术进步，更是工作方式的重构。 而在nthropic 2025年Q4内部研发状态报告中，一位Anthropic工程师估计，他们的工作已经“70%以上转变为代码审查者/修订者，而不是全新的代码编写者”。 另一位工程师认为，“为1个、5个或100个Claude的工作负责”是未来工程师唯一需要做的事情。他认为这不是失业的威胁，而是角色的转换。从执行者变成指挥者，从劳动者变成架构师。 给Claude一个浏览器来测试自己的UI，质量会提高2到3倍。给它一个测试套件，它会自我纠正。模型已经具备了能力，构建让你能够信任输出而无需审查每一行的系统才能解锁其余部分。 但这个转变也没有那么靠谱，当前的瓶颈是可靠性。 如果AI可以在10天内构建自己的继任者，人类团队面临着“不可能的竞赛”来审计正在创建的内容。 PromptArmor报告称，Cowork可以通过提示注入被诱骗将敏感文件传输到攻击者的Anthropic账户，而在授予访问权限后无需任何额外的用户批准。 这个过程不仅相对简单，而且愈发难以收拾。AI性能越强，权限越高，那么这个情况就会越恶化。 Anthropic对此的回应是，这个问题超出了范围，因为包含受影响代码的GitHub存储库已在2025年5月存档，并且不计划修补。 尽管存在这些风险，但AI构建AI的趋势已经不可逆转。 03 目前AGI已经初具呈现。 这就不得不提起Claude Code引入的CLAUDE.md系统了。这是一个积累机构知识的机制，工程师在同事的PR上标记@.claude来添加学习内容，将AI视为一个正在入职的工程师，积累机构知识。 用户维护一个错误文件，记录2500个token的累积更正，作为一个实体的记忆，否则它会在会话之间忘记一切。每个冲刺，AI在该代码库中变得更聪明。 这种学习不是被动的知识积累，而是主动的能力提升。Claude Code现在可以提出自己的想法，建议应该构建什么。它不再只是执行指令，而是参与到创意过程中。 这种从工具到伙伴的转变，是AGI的一个关键特征。 Anthropic在2025年发布的《AI辅助研发效率白皮书》中提到了这么一个事情，Claude所辅助的工作中，27%是“否则不会完成”。 “否则不会完成”就是那些因为优先级低、耗时久、回报不确定而被跳过的任务的统称。比如为某个小众功能做交互式数据监控仪表板，不做也不会影响主线进度。那么如果这个数据监控仪表板没有做，它就会被归类为“否则不会完成”。 只需给出目标，Claude就能自主设计、编写、测试，工程师仅需最终审核，从而让 “不值得做” 的任务变得可以做。 Anthropic在白皮书中写道，这种把“否则不会完成”变成可以完成的能力，其增长不是线性的，而是指数级的。 当一个人类大脑可以监督15个并行会话时，每个会话都被信任独立执行，生产力不是增加15倍，而是开启了全新的可能性空间。 任务不再受限于人类的时间和注意力，转而受限于问题的复杂性和AI的能力。 当然话又说回来了，目前AGI呈现仍然有明显的局限性。 AI构建的是仍然停留在应用层工具这个阶段，而非底层模型。 Claude没办法构建一个Claude。递归自我改进仍然局限在特定领域，而不是全面的智能提升。 可靠性仍然是瓶颈。ChatGPT Agent在简单任务上的基线成功率只有12.5%，需要大量优化才能达到实用水平。即使是表现最好的系统，也会在复杂的用户界面和扩展工作流程中遇到困难。 接下来还需要面对安全问题，提示注入攻击、数据泄露、意外的破坏性操作，这些风险随着AI自主性的增加而放大。 当前的安全措施主要依赖于沙箱隔离和权限控制，但这些机制在面对复杂的攻击场景时可能不够。 不过目前最大的瓶颈是Agent的通用性不够高。 虽然这些Agent可以处理多种任务，但它们在特定领域的表现仍然远超跨领域的泛化能力。 AGI的实现路径不仅是语言模型性能的提升，更是产品形态和工作流设计的系统工程。当前的Agent产品展示了这条路径的早期阶段：从被动的对话到主动的执行，从单次交互到持续学习，从人工监督到自主工作。 Gartner的《AI Agent 重塑企业采购报告》预测，到2028年，90%的B2B采购将由Agent处理，“Agent商务”将控制超过15万亿美元的支出。 到2028年，使用多AgentAI处理80%客户面向业务流程的组织将占据主导地位。AI是一个企业的基本能力，而不是附加功能。 它们将工作流程重新设计为基于AI以及AI优先，而不是将AI塞入现有流程。 但这个转变不会一帆风顺。Gartner还预测，到2028年，25%的企业网络安全事件将由AIAgent的误用引起。随着AI获得更多自主权，风险也在增加。 不过必须要承认的是，从Cowork到Manus，从Gemini CLI到ChatGPT Agent，这些产品正在重新定义人机协作的边界。 当ChatGPT还在陪聊时，Cowork已经开始“打工”了。AI不再是回答问题的工具，而是完成任务的伙伴。这个转变的深远影响，我们才刚刚开始理解。

编辑：菲利普·詹姆斯·布兰农