刚刚,春节(杀手锏“源神”登场!

  更新时间:2026-02-17 01:25   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

问Qwen3.但Qwen3.以Qwen3.

<p class="f_center"><br><strong>智东西<br></strong><strong>作[者 王涵<br></strong><strong>编辑 漠影</strong><br></p> <p id="4ASVFKH9">智东西2月16日报道,刚刚?,<strong>Qwen3.5正式发布并开源</strong>,在多模态理解、复杂推理、编程、Agent智能体等几大能力领先同级开源模型,多项基准媲美甚至超越GPT-5.2、Gemini 3 pro等闭源第一梯队。</p> <p class="f_center"><br></p> <p id="4ASVFKHB">Qwen3.5-Plus总参数为<strong>3970亿</strong>,<strong>激活参数仅170亿</strong>,性能超过万亿参数的Qwen3-Max模型,部署显存占用降低<strong>60%</strong>,推理效率大幅提升,最大吞吐量可提升至<strong>19倍</strong>。</p> <p id="4ASVFKHC">Qwen3.5上线后,我们马不停蹄地问了它一道大模型的“脑筋急转弯”:我要去洗车,洗车的地方离家就100米,我是开车去呢,还是走着去呢?</p> <p id="4ASVFKHD">对于这道题,网友们测试了国内国外各类大模型,鲜有模型答对。而Qwen3.5不仅识别出了题目中的逻辑陷阱,还用很幽默和轻松的语气回答了正确的答案,并且给出了“开车慢行,确保安全”的温馨提示。</p> <p class="f_center"><br></p> <p id="4ASVFKHF">回看Qwen3.5的思考过程,它遵循着分析需求、识别核心陷阱、制定答案、起草答案、内部比较、最后打磨、思考其他可能、确定答案等一些列步骤,在其中还会像真人一样“鼓励自己”,坚定自己的回答。</p> <p class="f_center"><br></p> <p id="4ASVFKHH">价格上,Qwen3.5-Plus的API价格是最低每百万Token<strong>0.8元</strong>。同等性能下,这个价格仅相当于Gemini-3-pro的<strong>1/18</strong>。</p> <p id="4ASVFKHI">从Qwen2.5、Qwen3到Qwen3.5,过去两年千问不断迭代开源,每一代产品、每一个尺寸都在为行业制定新的天花板标准,<strong>“最强开源=千问”</strong>几乎快成为共识。</p> <p id="4ASVFKHJ"><strong>但这一次,Qwen3.5的意义不止于“又刷新了一次榜单”。</strong></p> <p>一、让草图“一键变”网页,千问进化成原生多模态大模型</p> <p id="4ASVFKHK">在解读Qwen3.5背后的技术之前,我们先来看看Qwen3.5在实际应用场景下的表现如何。智东西拿到抢先体验资格,率先对该模型的<strong>多模态理解、推理、以及代码生成能力</strong>进行了体验。</p> <p id="4ASVFKHL">我们上传了一张礼品购买App的前端页面手绘草图,要求Qwen3.5根据草图生成红白配色的简约风前端页面,并输出可以直接用的HTML代码。</p> <p class="f_center"><br></p> <p id="4ASVFKHN">几乎没有思考时间,Qwen3.5先是识别出了草图中的基本框架和文字信息,在红白配色的模糊指令下,自主选择了饱和度没有那么高的红色。生成的代码简洁可用,页面也与草图几乎一模一样。</p> <p id="4ASVFKHO">还有一处小细节是,我们上传的草图是英文,而Qwen3.5根据上下文的问答和提问的语言,判断出用户应该是中文用户,自动将页面语言调整为了中文。</p> <p class="f_center"><br></p> <p id="4ASVFKHQ">在复杂场景与OCR能力方面,我随手拍了一张含有多个物体和背景的照片,问Qwen3.5:今天的天气怎么样?这张图片中都有什么?</p> <p class="f_center"><br></p> <p id="4ASVFKHS">可以看到模型可以在理解画面的同时,准确提取模糊的文字信息。这张图片是背光,文字在阴影内有些模糊不清,但Qwen3.5很准确地识别出了图片中的布洛芬颗粒冲剂、保湿霜以及酸奶的品牌,还贴心地附上了功效。</p> <p id="4ASVFKHT">结合外面晴朗的天气,Qwen3.5综合判断用户正在家休息养生,并且给出了“希望天气好心情也好,早日恢复活力!”的祝福。</p> <p class="f_center"><br></p> <p id="4ASVFKHV">最后,我们来看看Qwen3.5在艺术理解上面的能力。我们给Qwen3.5看一张西班牙画家萨尔瓦多·达利的《记忆的永恒》,看看模型能不能识别出这幅画的风格派别和背景。</p> <p class="f_center"><br></p> <p id="4ASVFKI1">Qwen3.5提取出了这幅画中的特点元素“融化的时钟”,准确回答出这幅画的作者是萨尔瓦多·达利,并且将该作者的生平信息以及这幅画的画面材质、创作时间、尺寸、收藏地等详细信息都呈现给了用户。此外,该模型还详细介绍了这幅画的主要元素和象征意义以及艺术地位,对美学和抽象概念的理解较强。</p> <p class="f_center"><br></p> <p id="4ASVFKI3">Qwen3.5可与OpenClaw集成,驱动编程任务。通过将OpenClaw作为第三方智能体环境集成,Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力,以及OpenClaw的接口,为用户带来流畅的编码和研究体验。</p> <p id="4ASVFKI4">此外,Qwen3.5能够作为视觉智能体,自主操作手机与电脑完成日常任务。在移动端,该模型已适配更多主流应用,支持自然语言指令驱动操作;在PC端,Qwen3.5能处理跨应用的数据整理、多步骤流程自动化等复杂任务,有效减少重复性人工干预,提升工作效率。</p> <p id="4ASVFKI5">以Qwen3.5为底层模型,Qwen Code支持“vibe coding”,可将自然语言指令转化为代码、实时迭代开发项目,并支持如生成视频等富有创意的任务。</p> <p id="4ASVFKI6">整体体验下来,Qwen3.5在多模态能力方面真是下了狠功夫。这背后其实是千问团队在模型底层架构的重构,<strong>千问正式从“语言模型”进化为“原生多模态大模型”</strong>。</p> <p>二、原生全模态,让模型像人一样学习</p> <p id="4ASVFKI7">业界普遍认为,统一多模态是通往通用人工智能的必经之路。但让大模型真正”张开眼睛”,在统一架构下同时提升语言和视觉能力,实现多模态信息的高效融合与协同生成,并非易事。</p> <p id="4ASVFKI8">当前行业中不少看起来“多模态”的方案,本质上仍是“拼装”——先训好语言模型“学说话”,再外挂视觉或音频模块,模块之间靠适配层勉强对齐。</p> <p id="4ASVFKI9">有的产品甚至只是在统一入口背后,通过工程路由将不同任务分发给不同模型。这些方案都没有实现真正的多模态融合,且不少视觉理解模型会随着视觉能力的增强,出现语言能力”降智”的问题。</p> <p id="4ASVFKIA"><strong>Qwen3.5从一开始就选择了一条鲜有人踏足的路。</strong></p> <p id="4ASVFKIB">从预训练第一天起,该模型就在海量的文本和视觉的混合数据上联合学习,就像人类一样,调用五官来综合接收外界信息。</p> <p id="4ASVFKIC">让视觉与语言在统一的参数空间内深度融合,模型看到一张图就能自然理解其语义,读到一段文字便能在脑中构建对应画面。没有“中间商赚差价”,没有信息折损,<strong>真正具备像人一样的跨模态的直觉理解力</strong>。</p> <p id="4ASVFKID">想要让这种原生融合真正跑起来,就要有一个<strong>“人类大脑”</strong>,模型的训练架构也必须跟着变。在这一点上,行业中的传统做法是让视觉和语言用同一套并行策略,效率损耗严重。</p> <p id="4ASVFKIE">Qwen3.5的做法是各走各的最优路径,再在关键节点上高效汇合。这样做的结果就是哪怕同时喂入文本、图像、视频三种数据,训练速度也几乎不受影响,和只训练纯文本时相当。</p> <p id="4ASVFKIF">同时,Qwen3.5通过<strong>定制化的FP8/FP32精度策略</strong>,使激活内存占用降低约<strong>5</strong><strong>0%</strong>,训练速度提升<strong>10%</strong>。该策略已在强化学习训练与推理全流程统一应用,有效降低了多模态模型规模化部署的成本与复杂度。</p> <p id="4ASVFKIG">在智能体训练上,千问团队还搭建了一套大规模强化学习框架,支持文本、多模态与多轮对话等场景,训练效率提升了<strong>3至5倍</strong>。</p> <p id="4ASVFKIH">原生多模态融合带来的能力不止图像理解,Qwen3.5可对图像做像素级空间定位与代码级精细处理,能理解<strong>2小时</strong>长视频的时序与逻辑关系,可将手绘草图转为可运行前端代码,还能作为视觉智能体自主操作设备、跨应用完成复杂任务。</p> <p>三、四大核心突破,助力模型“以小胜大”</p> <p id="4ASVFKII">过去两年,大模型行业普遍走上“堆参数、拼算力”的“大力出奇迹”路线,模型规模从千亿一路攀升至万亿级别,性能虽有提升,但成本也随之水涨船高。</p> <p id="4ASVFKIJ">部署需要专属集群,推理消耗大量算力,不仅中小企业难以负担,终端设备更是无法运行。技术指标不断突破,可离普惠、实用的目标反而越来越远。Qwen3.5换了一种思路:<strong>不比谁更大,而是比谁更聪明,比谁能用相对更小的模型获得更大的智能。</strong></p> <p id="4ASVFKIK">具体来说,有<strong>四项</strong>核心技术突破共同支撑了这个结果:</p> <p id="4ASVFKIL"><strong>一是混合注意力机制。</strong>传统大模型在处理长文本时,需对每个token与全部上下文进行全量注意力计算,文本长度越长,算力开销就越高,这也是限制长上下文能力的关键瓶颈。</p> <p id="4ASVFKIM">Qwen3.5采用混合注意力机制,可依据信息重要性动态分配注意力资源,实现主次分明,在提升效率的同时保证精度。</p> <p id="4ASVFKIN"><strong>二是极致稀疏MoE架构。</strong>传统稠密模型在每一次推理时都要调动全部参数参与运算,模型规模越大,对应的算力成本也就越高。</p> <p id="4ASVFKIO">而Qwen3.5的MoE架构核心思路则在于,无需同时启用所有参数,只需依据输入内容,按需激活与之最相关的“专家”网络即可。</p> <p id="4ASVFKIP">这样的架构,让Qwen3.5有<strong>397B</strong>的总参数的情况下,激活参数仅需<strong>17B</strong>,相当于仅需不到<strong>5%</strong>的算力,即可调动全部知识储备。</p> <p id="4ASVFKIQ"><strong>三是原生多Token预测。</strong>千问团队让模型在训练阶段就学会了对后续多个位置进行联合预测,推理速度接近翻倍。在长文本生成、代码补全、多轮对话等高频场景中,模型的响应速度接近“秒回”</p> <p id="4ASVFKIR"><strong>四是系统级训练稳定性优化。</strong>2025年千问团队曾发表过一篇注意力门控机制的论文,还斩获了<strong>NeurIPS 2025最佳论文奖</strong>。</p> <p class="f_center"><br></p> <p id="4ASVFKIT">在这篇论文中,千问团队通过在注意力层的输出端加入了一个<strong>“智能开关”</strong>,就像一个水龙头,可以智能调控信息的“流量”。</p> <p id="4ASVFKIU">这样既可以防止有效信息被淹没,也防止无效信息被过度放大,从而提升模型的输出精度和长上下文泛化能力。</p> <p id="4ASVFKIV">类似的深层优化还包括归一化策略和专家路由初始化等,它们各自解决不同环节的稳定性问题,共同确保上述架构创新在大规模训练中真正跑得通、跑得稳。</p> <p id="4ASVFKJ0">在以上技术的加持下,Qwen3.5的新架构让模型在总参数不足400B的情况下,性能却能超越上一代<strong>超万亿</strong>模型的同时,部署显存占用降低<strong>60%</strong>,推理效率大幅提升,还顺手把API价格卷到了Gemini-3-pro的<strong>1/18</strong>。</p> <p id="4ASVFKJ1">当行业还在比拼”谁的跑分更高”时,Qwen3.5已经把竞争带向了下一个问题:<strong>谁的模型更好用、更实用、更多人用得起。</strong></p> <p>结语:Qwen3.5在“好用、实用、用得起”上一马当先</p> <p id="4ASVFKJ2">一马当先,不只是跑得快,更是跑得对、跑得远。</p> <p id="4ASVFKJ3">在多模态方面,Qwen3.5再一次验证了原生多模态是从预训练第一天起就让模型像人类一样,用统一的认知框架理解图文交织的世界。在效率与性能上,Qwen3.5将思考的重点放在“如何让大模型更高效”,“如何才能让大模型好用、实用、用得起”上。</p> <p id="4ASVFKJ4">从识别到理解,从单模态到跨模态推理,Qwen3.5让大模型从对话工具向理解真实世界的基础能力演进。阿里一方面在不断推出SOTA级模型,另一方面,通过开源策略让人人都能免费用,孕育出了一片全新的创新土壤。</p>

编辑:Sandra Prinsloo