AI不缺能力,缺的是判断力。

AI辅助阅读还差在哪儿?| 实测

2026-05-10 09:04:07发布     来源:多知    作者:陈巧  

  来源|多知

  作者|陈巧

  编者按:

  本文为投稿,作者陈巧为教育行业资深从业者。当大模型纷纷宣称自己能“赋能教育”时,一个最基础的问题反而被忽略了:AI到底是在帮学生读书,还是在替学生读书?作者用四个大模型、18个任务做了一次实测。她发现,AI不缺能力,缺的是判断力。不知道往哪问,也不知道在哪停。它能给出事无巨细的人物关系图,却不会主动问一个引导思考的问题;它能生成像模像样的选择题,却分不清“事实提取”和“分析判断”该考哪个。问题的关键不是大模型够不够强,而是我们需要教会它,以及教会学生——什么该交给AI,什么必须留给自己。

  01

  上个月教育部发布了《青少年阅读素养框架》,明确提出要“利用人工智能辅助阅读”。

  问题来了,如果一个学生问AI:“请你帮我读书,让我变得更聪明。”它做得到吗?

  这个问题,也许只有实测才能回答。

  于是我用维多利亚·希斯洛普的《岛》为测试书籍,找了四个覆盖国内外的大模型:DeepSeek、千问、豆包和Claude,以青少年的视角提问,从专业老师的角度评价AI的回答。

  02

  在开始测试前,先得解决一个问题:“辅助”的边界在哪里?

  如果直接让AI“用200字替我总结这本书”,这算辅助吗?不算。这是“替代”。当一个判断、一次概括、一种评价应该由阅读者自己完成,却交给了AI,则失去了阅读的意义。

  结合教学经验,我画了一条线:背景知识、人物关系等这类信息类的问题可以让AI帮忙,不会毁掉阅读体验。但评价、感受、判断——“这个人是不是好人”“这本书值不值得读”得自己来。AI的角色是一个对话者,不是一个替身。

  明确界限后,我设计了从浅到深的五个阶段,一共18个任务:从基础背景梳理,到出题检测阅读理解,再到阅读收获整理。

  测试时要求AI:如果问题越界,请直接拒绝。

  本以为能力越强效果越好,但实测结果并不那么简单。在接下来的测试中,我得到了几个意外答案。

  03

  越聪明越专业的AI,就越能给出你想要的答案吗?

  不一定。

  Claude是四个里最“全能”的。问到《岛》的人物关系时,它生成了一张巨大的思维导图,从第一任岛主到女主的曾外祖母,每一个转承关系标得清清楚楚,近乎全知视角。它还擅长深度讨论,比如聊“岛上的隔离意味着什么”,哲学的、人文的意味它都能给到。

  但这种全面解释也是一种信息泄洪,大水漫灌,压得人喘不过气。在看到密密麻麻的回答时,我只有一个想法:太长不看。毕竟很多人缺乏判断力,不知道面对信息轰炸时该抓什么重点。适度输出比全面输出更需要判断力——你得知道该在哪里停。

  但输出太多还不是最大的问题。更大的问题是,AI几乎不主动提问。

  04

  AI如果是一名真人阅读老师,那他一定是个I人:更多的时候只是在倾听,很少主动提问。

  但提问这件事,在阅读中就是教学本身,不是锦上添花。一个好的阅读老师,应该反过来用提问引导学生思考,而不是等着学生来问。还好行业已经在往“提问引擎”发力了:可汗学院已经在让学生答之前先反问,国内的讯飞、学而思也在往这个方向走。

  但认识到,和做到,是两回事。

  像普通学生那样,我给四家AI出了一个模糊指令。原话是:“我刚读完前5章,出5道选择题考考我,看看我读得仔不仔细。”

  除了生成的不值一提的信息提取题,千问、豆包和Claude的问题也涉及了人物分析——以判断的形式藏在选项里。

  千问:

  索菲娅对过去讳莫如深,甚至不想让女儿知道她来自哪里,对吗?

  豆包:

  安娜相对激动、外露情绪;玛丽亚更隐忍、沉默,对吗?

  Claude:

  安娜和玛丽亚姐妹俩从小性格就反差明显,对吗?

  发现没有?“索菲娅讳莫如深”“安娜外露玛丽亚隐忍”——这些本该是学生读完之后自己得出的结论,AI替你分析完了,轻飘飘成为选项。学生只需要判断正误。找原句、做对比、自己概括出“隐忍”这个词——这些思考过程,被跳过了。

  DeepSeek试图出更深入的人物关系题,代价是五道题中有两道跨过了“前5章”的边界,剧透了后文,也没有深入人物本质或作品主题。

  另外三家守住了边界,也把分析深度锁死了。

  不过,当换成更具体的问法“请从人物性格的角度出题”时,画风突变,AI智商上线。

  为什么会有截然不同的表现呢?问题不是出在AI的能力上,因为这不是某一家的失误,是一个结构性问题:它有弹药,不知道往哪开枪。它不会判断这个知识点应该让学生做分析,还是简单筛选。

  因为在AI看来,所有文本信息是等价的。举个例子,“隔离政策从1903年开始”和“病人透过铁丝网看对岸的灯”,这两句话对AI来说都一样。它不知道后者是一个值得让学生揣摩、用心感受的句子。而任何专业的语文老师都知道。

  而且,他们出题的时候,想的是题目背后考查的是什么能力?掌握这个知识点的卡点在哪?……一道好题的选项不是终点,是路径。出一道人物形象分析题,得先提取关键信息、分析背后含义,再调用词语库评价,螺旋上升,每一步都在逼学生动自己的脑子。AI出的题不是。

  更关键的是,人类老师会推倒重来:扫一眼发现“这是送分题”,赶紧舍弃,重出。AI只觉得任务已完成。

  因此,AI缺的不是提问能力,而是主动判断往哪问的能力和品位。一个语文老师最大的专业价值,恰恰藏在这种品味里:知道什么句子值得停下来,知道怎么让学生独立思考,知道什么样的题才算有效。

  写这篇文章的过程中,我拿原始指令给一个做技术的朋友看——“我刚读完前5章,出5道选择题考考我,看看我读得仔不仔细”。他从工程师的角度说了一句话,我起初不太认同,但后来又反复琢磨了几遍:

  “仔不仔细听上去像一个目标,其实是一个未被拆解的词组。在没有定义的情况下,AI默认出事实记忆题,因为那是‘仔细’最直观的体现。你那四个字里,根本没包含‘出分析题’的信息。”

  他还告诉我一个有趣的发现:AI看到“仔不仔细”就自动理解成要出事实细节题,看到“5章”基本能主动避开第6章,看到“考考我”就理解成先答题再公布答案。那条指令能凑合用,有一部分原因是它作为AI恰好配合得好。

  但这种配合不可复制。换一个模型、换一次对话,理解就可能漂移。教育产品要服务千万学生,不能赌每次AI都“懂事”。

  他做工程,我做学科。我们从完全不同的入口走到了同一个地方:一条简单的指令,效果好不好全看AI当时怎么理解。优化后的指令,把要求写清楚了,AI就不容易跑偏。而真正可用的产品,应该把这些要求做成固定规则,AI想跑偏都没机会。用他的话来说:能用固定规则管住的,就别靠AI自觉。

  会提问是底线,知道往哪问才是难题。想让AI一次性生成符合语文学科逻辑的题目,还有一段路要走。

  05

  你喜欢被拒绝的感觉吗?生活中应该很讨厌。但AI辅助阅读时,被拒绝是好事。

  我让AI概括全书时,只有DeepSeek直接拒绝:“这个问题问了就是我在替你阅读。”被AI拒绝,居然觉得很快乐。一个辅助阅读工具如果连“这个问题不该问”都不敢说,它就不是在辅助,而是在鼓励偷懒。

  但这种可靠是偶发的——DeepSeek自己也会不稳(前面出题就剧透过)。你还是得主动引导,给它硬约束。

  其他AI也各有各的边界问题。豆包在无引导时最不稳定,它有时答非所问,有时越界替你判断。但奇怪的是,当你设好角色让它当“刺头学生”时,它可以很尖锐。只是这个“可以”的前提,是你得先推它一把。

  千问的特色在另一个维度:资源附带可点击链接,在触达方面是最流畅的。

  没有一个AI能同时把边界意识、角色互动、上下文记忆、资源触达这几件事都做好。

  微信图片_20260506183936_182_9585.png

  每一个都有闪光点,每一个都缺了些什么。没有完美的模型,只有被正确约束的模型。

  这次的18个任务跑下来,我的感受是:AI可以作为很好的对话伙伴。但前提是你知道怎么问、知道什么不该问。它不会主动教你——但会在你问对问题时,给出超预期的回答。

  06

  从这次测评来看,AI不缺能力,缺的是判断力——知道往哪问、在哪停。通用大模型还当不了阅读老师——得有人把教学判断变成固定规则。

  目前,学科老师缺席指令设计,是常态,也是浪费。技术工程师写不出“苏格拉底式追问”的精髓,但老师可以。他们才该参与定义“好题”的标准。

  定义标准,就是定义边界。守住使用边界、做好引导约束,AI才能从“替你读”变成“帮你读”。毕竟,阅读不是为了让你爽,而是让你变得更诚实——知道自己的局限性,解构你自己。

  AI能做到这些吗?现在还不行,但方向是清晰的。

  这,才是《青少年阅读素养框架》真正期望实现的。

  文件参考:

  教育部 《中国青少年阅读素养框架》标准原文:

  http://www.moe.gov.cn/srcsite/A19/s229/202604/t20260417_1434039.html

  本文作者简介:陈巧,语文老师,教育硕士。持有语文、政治、历史三科教师资格证。线上线下都教过,做过课程,也做过家校产品。相信教育的本质是“发现你自己”,也相信AI能为教育打开更多形态——而不只是更快的答案。

  ☎️作者交流邮箱:491542070@qq.com

  (声明:本文为投稿,仅代表作者观点,不代表多知立场。)