好未来正在聚焦五大场景重构教育科技。

学而思宣布开放三项核心AI能力,CTO田密:教育大模型终极形态是AI老师

2024-07-08 16:28:48发布     来源:多知    作者:Penny  

  来源|多知

  作者|Penny

  7月6日,在2024世界人工智能大会的分论坛上,学而思CTO田密在《教育大模型,构建未来个性化学习蓝图》的演讲中,对大模型对教育行业的应用和影响以及九章大模型的研发过程和落地产品进行了分享。

  在演讲中,田密认为,在教育中,个性化、高质量和大规模很难同时做到,而大模型是打破教育不可能三角的一缕曙光。

  “随着大模型时代的到来,所有的教育AI技术都值得用大模型重做一遍。好未来正在聚焦五大场景重构教育科技,分别是解题、对话、批改、讲题和推荐。”田密说。

  田密坦陈,今天大模型发展非常迅速,但是还是在非常早期的阶段。

  田密还在演讲中宣布:“学而思将向全行业开放三项最重要的核心AI能力解题、讲题和批改,各界硬件厂商,像AIPC、手机、Pad、汽车等行业都可以合作,我们希望为整个教育的数字化转型贡献需要自己的一份力量。”

  同时,在2024世界人工智能大会上,田密接受了多知的访谈,他说:“教育大模型最终目标是AI老师,即对学生24小时陪伴的老师,AI 老师可以分解为很多能力,他要自己会解题,会讲题,随时随地解答学生问题。”

  “AI老师是终极形态,但整个过程中会可能演变出很多阶段性的产品。”田密说。

  今年9月全国即将全面落实新课标,田密对多知说:“新课标对大模型是利好,因为新课标要求跨学科学习,大模型天然是跨学科的,九章大模型也是一个全科的大语言模型,可以做到融合各科知识去讲解。”

  大模型在教育领域的应用最大的阻碍就在于它的幻觉问题,田密提到,学而思正通过搜索召回增强技术(RAG),比较有效地缓解幻觉问题,不能去消除,但是可以缓解,这使得大模型能够比较有效应用在实际的产品中去。

  RAG也就是用大模型生成之前先搜索召回相关的context拼装到program里面去做提示词工程,输出就会有约束,不会胡说八道,按照指引生成对应上下文回答。

  对于大模型在教育科技的应用,田密对多知说:“我觉得趋势还是逐步过渡,逐渐赋能,然后慢慢提升,潜移默化的一个过程,很难一下子到终局。”

  以下为田密分享全文:

  01

  大模型可以打破教育的不可能三角

  很多人觉得大模型对教育行业会有颠覆性影响,像Sora出来的时候很多人会问你们将来还需要辅导班老师吗?我觉得今天大模型发展非常迅速,但是还没有到彻底替换老师的地步。

  大家知道在教育行业一直有一个所谓的不可能三角理论,就是说个性化、高质量和大规模很难同时做到,以学而思为例,最早推出了学而思培优,小班的方式可以做到高质量和个性化,但是做不到大规模,后来做了学而思网校,大班的方式可以做到大规模和高质量,但是没有做到个性化,一个老师同时给成千上万的孩子授课,再后来我们做了各种AI课,勉强可以做到个性化和大规模,但是教学质量和真人老师还是有很大的差距。

  

  所以我们的目标一直是沿着个性化和大规模前提下做更好的质量,我觉得AI技术发展使得质量提升不断有了可能性,而大模型技术出现更是一缕曙光。

  学而思一直在投入做教育科技研发,我们从2003年成立开始就在积累题库数据,这些都是训练大模型宝贵的原材料;2017年成立了AI Lab,在像语音、图像、NLP方向做了深积累,形成教育全环节解决方案;2019年获批承建科技部智慧教育国家新一代开放创新平台;2023年推出国内教育大模型——九章大模型。

  

  其实在大模型技术出现之前,整个AI技术已经赋能了教育各个环节,像备、教、练、评、管各个环节。比如说备课的时候可以用AI技术帮老师自动组讲义、组卷,授课环节帮老师做授课助手,给孩子做智能答题器,帮助老师做智能提醒和个性化的学情画像等等。比如说练习阶段做自适应练习还有中文作业批改还有整页批改,评环节做口语评测等等,管的环节对老师生活质量进行各个分级评估,还有包括解决方案等等。

  教育行业已经基于AI做了很多应用,但是我认为随着大模型时代的到来,所有的教育AI技术都值得用大模型重做一遍。因为大家知道当年人工智能是从系统开始诞生的,主要靠规则,再到后来的机器学习,主要以汲取做大规模数据训练为代表,然后再到2012年深度学习所有算法转向深度的神经网络,取得了很好的结果,再到今天大模型,今天大模型的话核心基础是Transformer和Attention都是2017年谷歌提出了,到今年大约七年之后终于有了大爆发。

  

  大模型这种本身也是AI技术,它和传统的深度学习技术有什么本质差异呢?我觉得有三点,对于教育行业来说:

  第一,大模型更加通用了,大家知道过去做AI服务需要上百个小模型,工作量非常大,现在一个大模型可以搞定所有任务,训练成本极大地降低,训练效率很大提升,通用性得到很大保障。

  第二,大模型有了通用大模型作为基座,过去教育大模型只能学会教育相关的语料,今天让通用大模型作为基座,学到更多世界知识和教育知识相融合之后会变得更加聪明,情商更高。

  第三,大模型生成式可以做多轮交互方式,使得人机交互或者师生交互更加容易、便捷、自然,Attention机制随着语义理解也更加Robust(鲁棒,即系统强壮)。

  所以今天教育技术都可以使用大模型技术全部重做一遍。

  02

  教育大模型是如何训练出来的?

  教育大模型到底怎么训练出来的,训练模型方式和通用大模型没有什么本质差别。

  我以九章大模型数据大模型为例来讲它怎么训练的,可以发现,大模型跟人类孩子一样学知识的方式、手段和人类也是很相似的,比如说我们把训练过程分为三个阶段:

  1.预训练(Pre-training)。它和孩子学习是什么呢?一个孩子看大量的书去学,自己看学,学到基本知识和理论框架。

  2.有监督微调(Supervised Fine-Tuning)。相当于请了一个老师给孩子讲解标准的解题套路,孩子知道说这个题目该怎么解,向老师学习。

  3.强化学习(Reinforcement learning)。这个相当于孩子不断做多轮练习,每练习一次大模型对它进行批改和反馈,相当于不断进阶提升。

  

  经过三段训练之后,大模型像孩子一样学会了一个学科,比如说数学。

  其中最关键的是什么?是数据。你有什么样的数据才能训练什么模型,所以在不同训练阶段都需要不同的数据。比如预训练需要海量的题库、讲义、教辅书,有监督微调(SFT)阶段需要海量步骤清晰的解题数据,强化学习阶段需要用奖励模型做结果进行反馈。

  我们名称叫做九章大模型,本身布局不仅仅是数学,是全学科的大模型,但是大模型和人类一样,文科生和理科生是有区别的,我们发现很难在一个大模型里头同时学好数学、语文和英语,最终我们是用多专家模型方式,有专门的数学模型、语模型、英语模型等等,最终以MoE方式组合起来做全科的服务。

  值得一提的是大模型今天应用最大的阻碍就在于它的幻觉问题,到今天通过搜索召回增强技术(RAG),可以比较有效地缓解幻觉问题,不能去消除,但是可以缓解,使得大模型能够比较有效应用在实际的产品中去。

  

  RAG也就是用大模型生成之前先搜索召回相关的context拼装到program里面去做提示词工程,输出就会有约束,不会胡说八道,按照你的指引生成对应上下文回答。比如,把学生的学习画像放进去,就可以生成个性化的回答,这是今天大模型要落地应用的关键点。

  03

  聚焦五大场景重构教育科技

  我前面说大模型它教育AI所有场景都用教育大模型做一遍,直到今天到底学而思在哪些场景下已经用大模型重构了教育科技呢?目前我们分为五大场景,分别是解题、对话、批改、讲题和推荐。

  解题即给一个题目实时解出来,我们做题库生产也可以做拍搜,如果拍不到的话实施大模型解题作为兜底。

  第二个对话很容易理解,比较常见的对话能力。

  第三批改,中文、英文作业批改,比如数学题批改,现在有大模型之后我们数学批改可以细致到步骤级别,知道你答案是否对,还知道你错在哪一步。

  第四个是AI大模型讲题能力,很有用,AI一对一老师有了实现的可能性。

  最后是推荐能力,过去我们有很多地方使用了“推荐”,但是现在大模型前提下可以做到步骤级,使得制定标签更加精准、推荐效果更加好。

  逐步看一下几个过程,第一是自动解题,左边这是一个网站,是非常专业的对数学能进行评测的网站,目前我们九章大模型在榜单里排名第一,但是它的总分只有80多分,离100分还有比较大的差距。

  

  右边就是我们网站官网,这是一张高中的函数题,不知道大家还有多少人能做出来,大模型会自动解,它会先分析一下题目,是考什么地方、考什么知识点再做一步步详解,可以观测到我们对公式处理非常到位,可以做流式的渲染。

  最终解完之后还有“点睛”,知道这个题考点是什么,考察什么,为什么?因为我们学而思老师都喜欢做“点睛”,所以大模型也学会了这一点。

  第二是口语对话练习,这一系列比较常见,在我们ABC英语角里头有这样的功能,让孩子像在游戏中学习的过程。我们会对学生的回答进行口语评测,对流利度和发音进行评测。

  第三个例子是批改,批改其实是非常刚需功能,对于老师和家长都一样,比如说孩子做完之后到底做得好不好,比如说左边是我们语文的中文作文批改,会先对字词做判断,到底有没有错别字和用法错误,对段落进行批改,对文章进行批改,对内容进行建议最后还有润色方法,这是AI批改的五步法。右边是英文作文也是一样,分为三步,首先做批改,再做建议,还有最后润色。

  

  这是数学的批改,数学批改比英文、语文更难,因为数学题是相对更难解的,过去只能批改填空题、选择题,到今天的话,大数据发展的话,我们批改这种大题,也就是主观题,涉及到步骤批改,大家可以看到演示,这是已经上到学期上了,实际过程。职业对准确进行拍批,它会对每道题进行批改,错误题标出来进行个性化讲解。这工作非常有用,在于说学习机上有一个精准学,需要对孩子进行诊断,但是孩子并不希望在学校再做一遍题目,可以把校内试卷拿过来扫描一下,拍一下直接做冷启动,更好做精准学。

  批改功能已经上线到学而思学习机上了,大家有兴趣可以体验一下。

  再往下是刚刚说的讲题功能,讲题是大模型带来的全新能力,在大模型之前很难做到这一点,今年我们推出一个叫九章随时问小程序,APP版也可以下载了,大家可以微信上搜索九章随时问可以体验小程序,它是数学AI老师,不是直接给孩子答案,而是一步步讲解,任何不懂过程中可以随时打断它做追问,可以问问题。也是拍照,自动识别题目进行讲解,它会做各种设问引导孩子回答,可以直接语音输出不用敲字了,不懂的话可以直接提问为什么要进行平方呢?如果你问了不相关的东西它会把你拉回来。最后总结要点,还会举一反三给你更多拓展问题。

  大家可以看到AI老师像真人老师一样,不想孩子直接拿到答案还是逐步讲解,任何不懂的问题可以做追问、做回答,可以举一反三,大家可以微信搜索九章随时问小程序进行体验。

  最后还有一个应用藏在后面叫推荐,其实精准学或者个性化学习最核心就是做题目推荐。过去我们做诊断,只能精确到题目级别,比如这道题考察的是二次根式的化简求值,一个知识点,但是实际上这个题目我们拆成三个步骤解答,每个步骤会考察更细的知识点,做了第一步、做第二步错法是不一样的,大模型对每个步骤打标签,使得对题目错因判断更加精准,从而使得推荐效果也是更加精准。

  

  比如这个例子,错的第一步可能是对不等式本身不了解,对定义与性质包括对去括号不了解,这是做了更加细致的推荐过程。

  04

  向全行业开放“解题、讲题和批改”三大核心AI能力

  到今天学而思我们借着WAIC现场,也宣布我们会把学而思打造的三项最重要的核心AI能力解题、讲题和批改,向全行业做开放,为什么这样做呢?实际上我觉得今天整个AI大模型对教育行业的影响也好、赋能也好还是非常早期的阶段。

  我觉得基于这样的AI能力,到底能打造出什么样好的AI产品在培训机构、公立校、家内的学习场景下到底有什么好的产品和效果出现,都还是很早期的阶段,所以今天我们希望把核心能力开放给行业的所有参与者,包括像各界硬件厂商,像AIPC、手机、Pad、汽车,都可以和我们谈合作,包括我们的一些公立学校2B2C应用,希望把大模型应用能力真正用到教育行业方面,也为整个教育的数字化转型贡献需要自己的一份力量。

  最后我觉得教育大模型还是有一个终极梦想,很多人担心AI大模型会不会颠覆教育行业,会不会让AI老师真正代替真人老师,我答案是不会的。我们认为大模型会给每个老师配备一个AI助教,每个孩子配备一个AI学伴,但是老师有很多固定工作,比如说备课、作业批改,这些重复工作都可以用AI大模型替代它,老师可以把精力更加集中在对孩子的关爱上、唤醒激发鼓舞上,孩子配备AI学伴,24小时在线陪伴他学习成长,他有任何问题都可以向AI学伴进行询问,因为他没有任何压力,孩子不用担心问的问题很愚蠢,也不用担心AI讲几遍才能听明白,也不担心孩子问的问题是不是超纲或者有些跨学科的问题, AI都可以搞定这个事情。

  让孩子会更加保持对学习的乐趣,对学习的自信心,我觉得这才是教育行业为大模型赋能的终极意义所在。

  今天我的演讲到这儿,谢谢大家!

  相关阅读:

  大模型重构学习机:学而思学习机全面披露“小思”AI功能

  学而思推出数学答疑原生AI工具九章随时问,“AI将重新定义教育行业”

  学而思迭代其首款学习机:配备10大AI神器,支持新课标内容

  暴走WAIC:跟AI+教育有关的,都在这儿↑

  END

  本文作者:Penny