作者 |高建冠潮 高恒 2025年即将结束,全球重卡车型的技术焦点已基本回归谷歌。 Gemini 3 Pro横空出世,在多项权威基准测试中超越所有开源机型,刷新了闭源领域的技术高度。一时间,业界再次质疑开源模式是否已经达到极限,扩容方法是否真的碰壁了。开源社区弥漫着一种停滞感。但这一次,DeepSeek并没有决定保持沉默。 12 月 1 日,该公司推出了两款非常成功的车型。一个是DeepSeek-V3.2,在推理性能上对比了GPT-5,另一个是Speciale版本,在数学、逻辑和多轮工具调用方面表现都非常好。这不仅仅是一次激烈的展示,更是一次技术能力的展示,更是对闭源“新天花板”的主动应对,只要当前的c计算资源不占主导地位。这不是简单的模型更新。 DeepSeek 正在寻找后缩放时代的新路径。我们如何利用架构重组来缩小形成前的差距?如何通过“工具思维链”实现高效率、低功耗的代理性能?更重要的是,为什么Agent从辅助功能变成了模型功能迁移的核心引擎?本文重点分析三个关键:DeepSeek是如何克服技术瓶颈的?为什么你们是开源领域第一个大力投资Agent的人?这是否意味着开源模式仍然有办法突破闭源护城河? 1、从追尾到并跑,DeepSeek如何迈向第一关?开源玩家一直被认为能“画”,难“对付”。不过,这一次,DeepSeek-V3.2提供的成绩单不再是跟踪器。根据DeepSeek官方公布的数据,V3.2 在公开推理测试中与 GPT-5 完美对比,仅略逊于 Gemini 3 Pro。不仅在多项关键评测中持续跑赢Kim-K2-Thinking,而且还刷新了国内开源模型推理能力的新纪录。对于数学、逻辑、复杂问答等任务,DeepSeek-V3.2的性能已经接近领先的闭源模型,足以跻身“世界第二梯队”之列。这其中的关键并不能简单地用“继续扩大”大模型来解释。 DeepSeek的先进性核心在于底层架构的重构,特别是稀疏注意力机制(DSA)的引入。在传统的 Transformer 架构中,注意力机制必须计算每个 token 与之前所有 token 之间的关系,其计算复杂度呈二次方增加,在大规模推理中造成很大的成本瓶颈。模型。 DSA推出的“闪电索引器”相当于在这个计算中安装了一个“快速预测器”。我们不再预测一切。 Ken分配所有注意力,但通过极少量的低精度索引标头(可以在FP8中完成)快速过滤顶部令牌对,并且仅对这些顶部位置进行精算计算。这种设计将模型的中心注意力机制从复杂度的平方律级别降低到接近线性的级别,同时即使在像 128K 这样的超长上下文输入的情况下也能保持相对稳定的计算性能。值得注意的是,DeepSeek在引入DSA时并没有选择激进的替代,而是采用了“密集预热和稀疏过渡”的两步训练策略。在模型预训练的初始阶段,保留原始的注意力结构,仅训练索引器来模仿原始分布。然后逐渐被更多的显示所取代在训练后阶段修改结构以实现无缝更改。这种“增量架构进化”不仅提高了V3.2中长上下文推理的效率,而且还保持了准确性。在 Fiction.liveBench 和 AA-LCR 等长写作任务上的测试表明,V3.2 在信息检索、上下文连贯性和压缩表达能力方面的得分有了显着提高。但这并不是给行业带来更大价值的唯一进步。在V3.2中,DeepSeek首次提出了一种名为“Think ToolUsage”的工具使用范式,将模型执行链从“Think→CallTools→Exit”转变为“Think→Call→ContinueThinking→CallAgain”的交错逻辑。这种机制与近年来代理领域倡导的“环环相扣思维”的方向非常吻合。这不仅提高了工具调用的逻辑连续性,还允许模型重复重用内部的中间推理状态一项任务。此功能在现实世界的代理场景中尤其重要。现实世界的任务往往无法一步完成,需要多轮信息获取、验证和策略修改。如果每次调用该工具时您的模型都会陷入“失忆”状态,则意味着您必须从头开始再次按下该工具。 V3.2 的重点是明确地将“推理轨迹”保留为上下文的一部分。工具返回新信息后,继续原来的思维路径,继续向下扩展。这种机制不仅减少了重复令牌的产生,而且还显着减少了状态漂移导致的逻辑中断。最终,DeepSeek 的技术飞跃不是基于积累更大的 FLOP,而是基于“更智能地利用计算能力”。 DSA让计算分配更加高效,交织的思维让工具调用更加稳定。这两个方面共同指向同一个对象我。它使模型变得简单,成为真正的“可持续思维主体”,而不是大规模的语言完善者。这也意味着,规模红利达到顶峰后,未来车型竞争的焦点将逐渐从“参数数量”回归到“组织思维能力”和“能效指标”。 V3.2 被证明是这一转变的早期注释。 2、押宝代理商不是追随趋势,而是瞄准战略拐点。与模型性能的技术进步相比,DeepSeek-V3.2在战略方向上最大的变化是,智能体现在可以:“体力”和“推理能力”并列放置,并在技术文档中明确核心指标。这是迄今为止国家开源模式中很少公开强调的一个方向性调整。在DeepSeek看来,Agent不再是工具调用的附属模块,不是模型功能发布和产业落地之间的桥梁,甚至是未来大型模型平台的前哨站。这个判决并不是脱离现实的技术浪漫。一年来,大型模型产业发生了重大变革。向:企业开始意识到“智能聊天机器人”的边际价值正在下降。具有真正“行动能力”的代理商有望在封闭的商业循环中发挥核心作用。从自动报告和自动报告生成到工单批处理和代码修复,公司愿意为这些“可操作”的代理付费,而不是为更多的人类语音付费。这也解释了为什么 DeepSeek 在 3.2 及更高版本上进行训练。在训练阶段,他们投入了大量资源来构建智能体训练系统,并构建了一系列大规模任务生成管道。据官方透露,该团队已拥有规模超过 1,800 个代理环境,并围绕代理任务设计了大约 85,000 个高度复杂的任务提示。这些任务不是来自手动注释,而是来自环境创建者和轨迹评分。它是通过机制自动生成的,并利用强化学习形成闭环训练。这消除了传统预训练依赖大量对话数据的想法。相反,一旦构建了智能体的任务轨迹,它比传统的“对话完成”具有更好的训练效果。更重要的是,强化学习机制允许我们通过反馈循环优化器不断改进模型的功能,消除预训练阶段单向迭代的限制。相对策略优化)并深度本地化以适应大规模多轮任务训练。在这个过程中,模型不仅需要优化合理性y 的单轮结果,但也平衡了多轮任务中推理的一致性和语言表示的稳定性。为了避免传统强化学习中的“灾难性遗忘”问题,DeepSeek 将推理奖励、语言连贯性分数和任务完成分数整合为多维奖励信号,使模型在训练过程中继续保持代理执行链的完整性。为了支持这种复杂的训练机制,模型还应该同时自动更新你身体的“状态意识”。 V3.2 为架构引入了完整的上下文管理策略。该模型仅在用户发送新消息时重置其思维状态,并且在连续调用该工具期间完全保留其推理轨迹。这意味着模型可以不断积累。厌倦了“思想残留”,该工具在返回新信息后继续推理,而不重新启动其逻辑离子。这种“状态持久化机制”为智能体多轮操作的连续性提供了重要保证,也使得模型能够将更复杂的任务分解为多个阶段。从系统逻辑角度来看,DeepSeek 非常有效。对代理的理解已经从“任务执行补充”演变为“模型操作系统”的组成部分。这不是一个附加组件,而是该模型核心操作结构的一部分。这一系统视角的改变意味着未来大型模型平台的形态将变得更加接近于编程操作系统。模型本身是操作系统内核,代理是用户模式可执行文件,配套工具是可调用模块。掌握了代理层标准,就能掌控人工智能时代平台的话语权。这就是为什么DeepSeek寻求引入统一的“交织思维+工具使用”范式,并提出底层设计语言比如“工具使用思维”。这不仅仅是技术细节上的差异,更是平台心态的体现。对于行业来说,DeepSeek的最新发展标志着一个新的转折点。功能代理质量不再是工程团队的“可选”选项,而是建模路径中的中心分支点。平台层面代理功能的存在已经成为模型长期竞争力的关键指标之一。 3. 开源模型有哪些局限性? DeepSeek 的“锻炼后策略”试图给你答案。尽管V3.2和Speciale在多个基准测试中实现了开源回滚“赶上并行执行”,但DeepSeek在白皮书中也承认,开源模型与闭源系统之间的差距在几个关键方面仍在扩大。尤其是在知识广度、处理高度复杂任务的能力以及工作效率方面在这一代人中,开源系统仍然受到资源、数据和预算的限制。 DeepSeek 选择不隐藏这些限制,而是以非常可行的策略做出回应。如果您无法分配资源,请从“深化培训过程”的方法开始。该策略的核心是独特的“训练后三合一”,结合了专家提取+多轨强化学习+工具思维机制。首先,有专家蒸馏。大多数模型仍然基于混合的一般数据进行训练。不过,DeepSeek 针对 V3.2 调整了 6 个专家模型,涵盖数学、编程、逻辑推理、通用代理、代理编程和代理搜索等核心能力领域。每种任务类型都有一组专用的模型,可以利用自己的数据集和生成的轨迹来提高技能。这些专家不是直接实现的,而是用来生成高质量的训练样本来喂养主模型。这些“特定于任务的模型”产生的数据是统一的通常用于训练通用模型。从技术上讲,这对应于用几个高度偏向的“学习者”来喂养一个全面发展的“全能者”,这不仅避免了多任务训练中技能的稀释,而且还保持了不同任务之间的结构连通性。第二层是强化学习(RL)的扩展和更新。 DeepSeek继续其GRPO(群组相对策略优化)策略,并持续更新其数据和奖励结构。模型不仅要完成任务,还要同时优化语言的质量、推理链的逻辑合理性以及自然使用工具的能力。训练后整个p阶段的算力投入超过训练前预算的10%,这在开源模型系统中极为罕见。更重要的是,强化学习过程不依赖于人类评分,而是使用反馈机制和自动化从任务环境中对评分标准进行评分。这样的设计保证了模型训练不再局限于手动数据调优,可以进入“结构化任务-自动评分-行为优化”的闭环学习路径,形成比聊天数据更稀有但更可复用的模型特征。第三层是工具使用与“思维链”的整合机制。在训练初期,模型往往无法理解“何时调用工具、何时继续思考”,导致推理轨迹断裂、逻辑中断。ida.it 就会完成。为此,DeepSeek为V3.2设计了一套冷启动系统提示,将工具调用示例自然地嵌入到思维轨迹中,让模型逐渐学会跨多个任务“用工具思考”,而不是“第一次思考然后调用工具”。此外,整个上下文状态已被重新设计。思想的内容不会被祈求打断在该工具上,只有新用户进入才会激活清理。该策略显着减少了令牌冗余,并避免了每轮任务都从头开始推理的问题。这些技术设计可能看起来像工程,但实际上它们都指向一个潜在的问题。这是关于开源模型如何在参数数量和训练规模有限的情况下提高“每个令牌单元的智能密度”。 DeepSeek给出的答案是,在“推理链”的关键路径上尽可能压缩资源,使得每轮推理都能以尽可能少的迭代次数传递尽可能多的信息。这不是规模上的胜利,而是方法上的胜利。当然,即便如此,DeepSeek 仍然没有完全弥合开源与闭源之间的知识鸿沟。官方报告还指出,V3.2 的全球知识广度仍然落后于最新的闭源模型。虽然特别莫del 对于复杂的比赛效果很好,但由于代币开销显着增加,它仍然不适合一般的日常使用场景。但如果说Gemini 3 Pro代表了闭源领域对“更大、更快、更强大”追求的延续,那么V3.2和Speciale可能代表了一条通往“更轻、更稳定、更智能”的新道路。尽管业界仍在争论缩放法则的前景,但 DeepSeek 具有更强大的推理组织、更少的资源消耗和更高效的训练参数的潜力。通过 Dime,我们正在重塑开源模式的竞争秩序。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:以上内容(包括照片和图片,如有视频)由网易号用户上传发布仅提供信息存储服务的社交媒体平台。
立即登录,参与每日大赛,探索暗黑猎奇的无限可能!