林俊旸离职后发布技术思考文章：Agentic思维将取代推理能力

2026-03-30 20:28:12发布来源：多知作者：关注教育的多知

　　多知3月30日消息，原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)近日在社交平台上发布了一篇题为《From “Reasoning“ Thinking to”Agentic“ Thinking(从推理式思考到智能体思考)》的文章长文。

　　公开信息显示，林俊旸出生于1993年，他2019年从北京大学语言学与应用语言学硕士毕业后便加入阿里。系阿里巴巴达摩院高级算法专家、阿里通义千问系列大模型技术负责人，主导开发了全球领先的开源大模型。他的研究领域包括自然语言处理和多模态表示学习，研究兴趣集中于大规模语言模型和多模态大模型，曾在多个顶级会议发表多篇论文。

　　林俊旸在通义千问的技术贡献引人关注，如他主导开发Qwen3.0等模型性能超越Llama2-70B、首创多模态Agent框架，增强视觉/语音理解能力、推动构建中文社区最大开源模型生态体系等。

　　这是林俊旸自本月初从阿里辞职之后公开发布的第一篇长文。在这篇文章中，林俊旸系统性地复盘了推理模型阶段的特征，并探讨了AI未来的发展方向：从训练模型转向训练Agent。

　　在他看来，未来的 AI，不只是更聪明，而是更有用。真正的竞争，不在谁更会“想”，而在谁更能“做”。

　　以下为《From “Reasoning“ Thinking to”Agentic“ Thinking》这篇文章的核心观点：

　　第一，范式转移：从“推理式思考”到“Agentic Thinking”。

　　模型发展的第一阶段(以o1和R1为代表)解决了“让模型思考”的问题，即通过强化学习让模型在数学、代码等确定性领域进行长链式推理。

　　而现在，我们正进入第二阶段：Agentic Thinking。其核心不再是“为了得到答案而思考”，而是“为了采取行动而思考”。模型需要与环境交互，根据反馈持续更新计划，完成长期任务。

　　第二，融合模式(Thinking + Instruct)的困境：理想丰满，现实骨感。

　　虽然业界(如Qwen3、Claude)尝试将“思考模式”与“指令模式”融合到一个模型中，理想是：一个模型同时支持快答和深度思考;同时，自动决定需要多少推理。

　　但实践发现两者在数据分布和行为目标上存在根本冲突。

　　Instruct 模型，快、短、稳、低成本;而Thinking 模型，慢、深、探索、多token。

　　强行融合有可能会导致模型在两种模式下都表现平庸。

　　因此，很多团队在实践中仍选择将两种能力分离，以更好地满足不同场景(如高吞吐量的商业任务 vs. 高难度的推理任务)的需求。

　　关键不在“合不合”，而在：是否是自然连续的推理强度谱(spectrum)。

　　第三， Agentic Thinking本质：思考是为了行动。

　　Agentic Thinking 的核心是从“推理深度”转向“行动有效性”。

　　推理式思考评估的是“最终答案的正确性”，例如解定理、写代码;Agentic Thinking 评估的是“在与环境交互中持续取得进展的能力”。

　　核心问题从“模型能否思考得足够久?”变为“模型能否以维持有效行动的方式进行思考?”

　　Agentic Thinking 必须解决推理模型无需面对的五大问题：

　　1)决策时机：决定何时停止思考、开始行动。

　　2)工具使用：选择调用哪个工具及顺序。

　　3)处理噪音：整合环境中的不完整或嘈杂的观察结果。

　　4)错误恢复：在失败后修正计划。

　　5)长期连贯性：在多轮交互和工具调用中保持一致的目标

　　Agentic Thinking 本质是：是一个通过行动进行推理的模型。

　　第四，Agentic RL 的基础设施挑战更大。

　　训练Agent所需的强化学习(RL)基础设施远比训练纯推理模型复杂。

　　因为，推理RL是静态任务，即有标准答案。

　　而Agent RL是动态环境，包含工具、浏览器、代码执行器等动态系统。这带来了新的系统要求：

　　1)训练与推理必须解耦：否则会因等待环境反馈而导致GPU利用率低下。

　　2)环境本身成为核心能力：环境的稳定性、真实性、抗利用性(防止Agent作弊)变得与模型和数据同等重要。

　　第五，真正的难题是“奖励破解( reward hacking)”。

　　当Agent获得调用工具(如搜索引擎、代码执行)的能力后，RL训练面临更大的风险——奖励破解。

　　Agent可能会利用环境漏洞(如直接搜索答案、利用代码库中的未来信息)来“欺骗”奖励函数，表现出虚假的“智能”。

　　因此，未来的研究瓶颈将更多集中在环境设计、评估器鲁棒性和反作弊机制上。

　　第六，未来的竞争焦点：从“训练模型”转向“训练Agent”。

　　竞争优势的来源正在转移：

　　过去，大模型的竞争集中在：参数规模、数据量、训练技巧。

　　但进入 Agent 时代后，核心壁垒变成：环境设计(Environment)、工具体系(Tooling)、系统工程(Harness)、多 Agent 协作能力。

　　原文参考：

　　https://x.com/JustinLin610/status/2037116325210829168

商学院

Open Talk

林俊旸离职后发布技术思考文章：Agentic思维将取代推理能力

相关阅读