AI辅助阅读还差在哪儿？| 实测

2026-05-10 09:04:07发布来源：多知作者：陈巧

　　来源|多知

　　作者|陈巧

　　编者按：

　　本文为投稿，作者陈巧为教育行业资深从业者。当大模型纷纷宣称自己能“赋能教育”时，一个最基础的问题反而被忽略了：AI到底是在帮学生读书，还是在替学生读书?作者用四个大模型、18个任务做了一次实测。她发现，AI不缺能力，缺的是判断力。不知道往哪问，也不知道在哪停。它能给出事无巨细的人物关系图，却不会主动问一个引导思考的问题;它能生成像模像样的选择题，却分不清“事实提取”和“分析判断”该考哪个。问题的关键不是大模型够不够强，而是我们需要教会它，以及教会学生——什么该交给AI，什么必须留给自己。

　　上个月教育部发布了《青少年阅读素养框架》，明确提出要“利用人工智能辅助阅读”。

　　问题来了，如果一个学生问AI：“请你帮我读书，让我变得更聪明。”它做得到吗?

　　这个问题，也许只有实测才能回答。

　　于是我用维多利亚·希斯洛普的《岛》为测试书籍，找了四个覆盖国内外的大模型：DeepSeek、千问、豆包和Claude，以青少年的视角提问，从专业老师的角度评价AI的回答。

　　在开始测试前，先得解决一个问题：“辅助”的边界在哪里?

　　如果直接让AI“用200字替我总结这本书”，这算辅助吗?不算。这是“替代”。当一个判断、一次概括、一种评价应该由阅读者自己完成，却交给了AI，则失去了阅读的意义。

　　结合教学经验，我画了一条线：背景知识、人物关系等这类信息类的问题可以让AI帮忙，不会毁掉阅读体验。但评价、感受、判断——“这个人是不是好人”“这本书值不值得读”得自己来。AI的角色是一个对话者，不是一个替身。

　　明确界限后，我设计了从浅到深的五个阶段，一共18个任务：从基础背景梳理，到出题检测阅读理解，再到阅读收获整理。

　　测试时要求AI：如果问题越界，请直接拒绝。

　　本以为能力越强效果越好，但实测结果并不那么简单。在接下来的测试中，我得到了几个意外答案。

　　越聪明越专业的AI，就越能给出你想要的答案吗?

　　不一定。

　　Claude是四个里最“全能”的。问到《岛》的人物关系时，它生成了一张巨大的思维导图，从第一任岛主到女主的曾外祖母，每一个转承关系标得清清楚楚，近乎全知视角。它还擅长深度讨论，比如聊“岛上的隔离意味着什么”，哲学的、人文的意味它都能给到。

　　但这种全面解释也是一种信息泄洪，大水漫灌，压得人喘不过气。在看到密密麻麻的回答时，我只有一个想法：太长不看。毕竟很多人缺乏判断力，不知道面对信息轰炸时该抓什么重点。适度输出比全面输出更需要判断力——你得知道该在哪里停。

　　但输出太多还不是最大的问题。更大的问题是，AI几乎不主动提问。

　　AI如果是一名真人阅读老师，那他一定是个I人：更多的时候只是在倾听，很少主动提问。

　　但提问这件事，在阅读中就是教学本身，不是锦上添花。一个好的阅读老师，应该反过来用提问引导学生思考，而不是等着学生来问。还好行业已经在往“提问引擎”发力了：可汗学院已经在让学生答之前先反问，国内的讯飞、学而思也在往这个方向走。

　　但认识到，和做到，是两回事。

　　像普通学生那样，我给四家AI出了一个模糊指令。原话是：“我刚读完前5章，出5道选择题考考我，看看我读得仔不仔细。”

　　除了生成的不值一提的信息提取题，千问、豆包和Claude的问题也涉及了人物分析——以判断的形式藏在选项里。

　　千问：

　　索菲娅对过去讳莫如深，甚至不想让女儿知道她来自哪里，对吗?

　　豆包：

　　安娜相对激动、外露情绪;玛丽亚更隐忍、沉默，对吗?

　　Claude：

　　安娜和玛丽亚姐妹俩从小性格就反差明显，对吗?

　　发现没有?“索菲娅讳莫如深”“安娜外露玛丽亚隐忍”——这些本该是学生读完之后自己得出的结论，AI替你分析完了，轻飘飘成为选项。学生只需要判断正误。找原句、做对比、自己概括出“隐忍”这个词——这些思考过程，被跳过了。

　　DeepSeek试图出更深入的人物关系题，代价是五道题中有两道跨过了“前5章”的边界，剧透了后文，也没有深入人物本质或作品主题。

　　另外三家守住了边界，也把分析深度锁死了。

　　不过，当换成更具体的问法“请从人物性格的角度出题”时，画风突变，AI智商上线。

　　为什么会有截然不同的表现呢?问题不是出在AI的能力上，因为这不是某一家的失误，是一个结构性问题：它有弹药，不知道往哪开枪。它不会判断这个知识点应该让学生做分析，还是简单筛选。

　　因为在AI看来，所有文本信息是等价的。举个例子，“隔离政策从1903年开始”和“病人透过铁丝网看对岸的灯”，这两句话对AI来说都一样。它不知道后者是一个值得让学生揣摩、用心感受的句子。而任何专业的语文老师都知道。

　　而且，他们出题的时候，想的是题目背后考查的是什么能力?掌握这个知识点的卡点在哪?……一道好题的选项不是终点，是路径。出一道人物形象分析题，得先提取关键信息、分析背后含义，再调用词语库评价，螺旋上升，每一步都在逼学生动自己的脑子。AI出的题不是。

　　更关键的是，人类老师会推倒重来：扫一眼发现“这是送分题”，赶紧舍弃，重出。AI只觉得任务已完成。

　　因此，AI缺的不是提问能力，而是主动判断往哪问的能力和品位。一个语文老师最大的专业价值，恰恰藏在这种品味里：知道什么句子值得停下来，知道怎么让学生独立思考，知道什么样的题才算有效。

　　写这篇文章的过程中，我拿原始指令给一个做技术的朋友看——“我刚读完前5章，出5道选择题考考我，看看我读得仔不仔细”。他从工程师的角度说了一句话，我起初不太认同，但后来又反复琢磨了几遍：

　　“仔不仔细听上去像一个目标，其实是一个未被拆解的词组。在没有定义的情况下，AI默认出事实记忆题，因为那是‘仔细’最直观的体现。你那四个字里，根本没包含‘出分析题’的信息。”

　　他还告诉我一个有趣的发现：AI看到“仔不仔细”就自动理解成要出事实细节题，看到“5章”基本能主动避开第6章，看到“考考我”就理解成先答题再公布答案。那条指令能凑合用，有一部分原因是它作为AI恰好配合得好。

　　但这种配合不可复制。换一个模型、换一次对话，理解就可能漂移。教育产品要服务千万学生，不能赌每次AI都“懂事”。

　　他做工程，我做学科。我们从完全不同的入口走到了同一个地方：一条简单的指令，效果好不好全看AI当时怎么理解。优化后的指令，把要求写清楚了，AI就不容易跑偏。而真正可用的产品，应该把这些要求做成固定规则，AI想跑偏都没机会。用他的话来说：能用固定规则管住的，就别靠AI自觉。

　　会提问是底线，知道往哪问才是难题。想让AI一次性生成符合语文学科逻辑的题目，还有一段路要走。

　　你喜欢被拒绝的感觉吗?生活中应该很讨厌。但AI辅助阅读时，被拒绝是好事。

　　我让AI概括全书时，只有DeepSeek直接拒绝：“这个问题问了就是我在替你阅读。”被AI拒绝，居然觉得很快乐。一个辅助阅读工具如果连“这个问题不该问”都不敢说，它就不是在辅助，而是在鼓励偷懒。

　　但这种可靠是偶发的——DeepSeek自己也会不稳(前面出题就剧透过)。你还是得主动引导，给它硬约束。

　　其他AI也各有各的边界问题。豆包在无引导时最不稳定，它有时答非所问，有时越界替你判断。但奇怪的是，当你设好角色让它当“刺头学生”时，它可以很尖锐。只是这个“可以”的前提，是你得先推它一把。

　　千问的特色在另一个维度：资源附带可点击链接，在触达方面是最流畅的。

　　没有一个AI能同时把边界意识、角色互动、上下文记忆、资源触达这几件事都做好。

　　微信图片_20260506183936_182_9585.png

　　每一个都有闪光点，每一个都缺了些什么。没有完美的模型，只有被正确约束的模型。

　　这次的18个任务跑下来，我的感受是：AI可以作为很好的对话伙伴。但前提是你知道怎么问、知道什么不该问。它不会主动教你——但会在你问对问题时，给出超预期的回答。

　　从这次测评来看，AI不缺能力，缺的是判断力——知道往哪问、在哪停。通用大模型还当不了阅读老师——得有人把教学判断变成固定规则。

　　目前，学科老师缺席指令设计，是常态，也是浪费。技术工程师写不出“苏格拉底式追问”的精髓，但老师可以。他们才该参与定义“好题”的标准。

　　定义标准，就是定义边界。守住使用边界、做好引导约束，AI才能从“替你读”变成“帮你读”。毕竟，阅读不是为了让你爽，而是让你变得更诚实——知道自己的局限性，解构你自己。

　　AI能做到这些吗?现在还不行，但方向是清晰的。

　　这，才是《青少年阅读素养框架》真正期望实现的。

　　文件参考：

　　教育部《中国青少年阅读素养框架》标准原文：

　　http://www.moe.gov.cn/srcsite/A19/s229/202604/t20260417_1434039.html

　　本文作者简介：陈巧，语文老师，教育硕士。持有语文、政治、历史三科教师资格证。线上线下都教过，做过课程，也做过家校产品。相信教育的本质是“发现你自己”，也相信AI能为教育打开更多形态——而不只是更快的答案。

　　☎️作者交流邮箱：491542070@qq.com

　　(声明：本文为投稿，仅代表作者观点，不代表多知立场。)

商学院

Open Talk

AI辅助阅读还差在哪儿？| 实测

相关阅读