从训练模型转向训练Agent。

林俊旸离职后发布技术思考文章:Agentic思维将取代推理能力

2026-03-30 20:28:12发布     来源:多知    作者:关注教育的多知  

  多知3月30日消息,原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)近日在社交平台上发布了一篇题为《From “Reasoning“ Thinking to”Agentic“ Thinking(从推理式思考到智能体思考)》的文章长文。

  公开信息显示,林俊旸出生于1993年,他2019年从北京大学语言学与应用语言学硕士毕业后便加入阿里。系阿里巴巴达摩院高级算法专家、阿里通义千问系列大模型技术负责人,主导开发了全球领先的开源大模型。他的研究领域包括自然语言处理和多模态表示学习,研究兴趣集中于大规模语言模型和多模态大模型,曾在多个顶级会议发表多篇论文。

  林俊旸在通义千问的技术贡献引人关注,如他主导开发Qwen3.0等模型性能超越Llama2-70B、首创多模态Agent框架,增强视觉/语音理解能力、推动构建中文社区最大开源模型生态体系等。

  这是林俊旸自本月初从阿里辞职之后公开发布的第一篇长文。在这篇文章中,林俊旸系统性地复盘了推理模型阶段的特征,并探讨了AI未来的发展方向:从训练模型转向训练Agent。

  在他看来,未来的 AI,不只是更聪明,而是更有用。真正的竞争,不在谁更会“想”,而在谁更能“做”。

  

  以下为《From “Reasoning“ Thinking to”Agentic“ Thinking》这篇文章的核心观点:

  第一,范式转移:从“推理式思考”到“Agentic Thinking”。

  模型发展的第一阶段(以o1和R1为代表)解决了“让模型思考”的问题,即通过强化学习让模型在数学、代码等确定性领域进行长链式推理。

  而现在,我们正进入第二阶段:Agentic Thinking。其核心不再是“为了得到答案而思考”,而是“为了采取行动而思考”。模型需要与环境交互,根据反馈持续更新计划,完成长期任务。

  第二,融合模式(Thinking + Instruct)的困境:理想丰满,现实骨感。

  虽然业界(如Qwen3、Claude)尝试将“思考模式”与“指令模式”融合到一个模型中,理想是: 一个模型同时支持快答和深度思考;同时,自动决定需要多少推理。

  但实践发现两者在数据分布和行为目标上存在根本冲突。

  Instruct 模型, 快、短、稳、低成本;而Thinking 模型,慢、深、探索、多token。

  强行融合有可能会导致模型在两种模式下都表现平庸。

  因此,很多团队在实践中仍选择将两种能力分离,以更好地满足不同场景(如高吞吐量的商业任务 vs. 高难度的推理任务)的需求。

  关键不在“合不合”,而在:是否是自然连续的推理强度谱(spectrum)。

  第三, Agentic Thinking本质:思考是为了行动。

  Agentic Thinking 的核心是从“推理深度”转向“行动有效性”。

  推理式思考评估的是“最终答案的正确性”,例如解定理、写代码;Agentic Thinking 评估的是“在与环境交互中持续取得进展的能力”。

  核心问题从“模型能否思考得足够久?”变为“模型能否以维持有效行动的方式进行思考?”

  Agentic Thinking 必须解决推理模型无需面对的五大问题:

  1)决策时机:决定何时停止思考、开始行动。

  2)工具使用:选择调用哪个工具及顺序。

  3)处理噪音:整合环境中的不完整或嘈杂的观察结果。

  4)错误恢复:在失败后修正计划。

  5)长期连贯性:在多轮交互和工具调用中保持一致的目标

  Agentic Thinking 本质是:是一个通过行动进行推理的模型。

  第四,Agentic RL 的基础设施挑战更大。

  训练Agent所需的强化学习(RL)基础设施远比训练纯推理模型复杂。

  因为,推理RL是静态任务,即有标准答案。

  而Agent RL是动态环境,包含工具、浏览器、代码执行器等动态系统。这带来了新的系统要求:

  1)训练与推理必须解耦:否则会因等待环境反馈而导致GPU利用率低下。

  2)环境本身成为核心能力:环境的稳定性、真实性、抗利用性(防止Agent作弊)变得与模型和数据同等重要。

  第五,真正的难题是“奖励破解( reward hacking)”。

  当Agent获得调用工具(如搜索引擎、代码执行)的能力后,RL训练面临更大的风险——奖励破解。

  Agent可能会利用环境漏洞(如直接搜索答案、利用代码库中的未来信息)来“欺骗”奖励函数,表现出虚假的“智能”。

  因此,未来的研究瓶颈将更多集中在环境设计、评估器鲁棒性和反作弊机制上。

  第六,未来的竞争焦点:从“训练模型”转向“训练Agent”。

  竞争优势的来源正在转移:

  过去,大模型的竞争集中在:参数规模、数据量、训练技巧。

  但进入 Agent 时代后,核心壁垒变成:环境设计(Environment)、工具体系(Tooling)、系统工程(Harness)、多 Agent 协作能力。

  原文参考:

  https://x.com/JustinLin610/status/2037116325210829168