先找到大模型落地场景,再去针对性解决。

对话|有道硬件业务负责人吴迎晖:将推硬件新品,大模型“千人千面”依赖于场景

2023-09-07 14:32:18发布     来源:多知网    作者:冯玮  

  来源|多知网

  作者|冯玮

  图片来源|网易有道

  一整个夏天,有道不断地释出属于自己的“好消息”。

  子曰开始成型,大模型落地到六个场景,虚拟人口语教练、词典笔与听力宝新品面市,Q2营收12亿元同比增长26.2%……

  网易有道CEO周枫曾在8月初发布会现场强调,此前发布的六个应用(LLM翻译、虚拟人口语教练、AI作文指导、语法精讲、AIBox以及文档问答)在智能硬件上的落地将在今年的8-9月全部准备完成。

  至此有道正进入第二个阶段——增加更多手段去满足用户需求,相关业务全面加速。

  大模型、AIGC等技术的发展,为有道的“全面加速”勾勒出想象空间,智能硬件身处其中,在技术落地的过程中一马当先,成为绝对的试验田。

  但即便不同于在线营销服务业务、学习服务业务的增长,二季度智能硬件收入为2.2亿元,上年同期为2.4亿元。有道依旧坚信凭借AI技术的落地,将为硬件业务带来新的可能。

  怎么做?

  多知独家对话网易有道高级副总裁、智能硬件业务负责人吴迎晖,在他看来:

  区别于市面上的熏听产品,“有道在听力宝上想提供的价值是让用户学会自己想学的东西,但熏听还是更泛一些;第二,熏听更强调低幼内容本身,这个长期也不见得一定是我们的优势,不成为劣势就好。”

  对于听力宝的下个阶段,有道想要实现的是“不管给什么材料,或者家长从哪里找到的听力材料放到听力宝里面,听力宝都会分析并给出材料难度水平。”

  词典笔新品的惊喜是“新的芯片从开始立项时候的目标是把Transformer模型直接运用在上面,这个目标应该说基本达成。我们做的过程中认为功耗也很重要,把这件事情也放进去做了,确实也做成了。”

  数学的陷阱,大模型有时并不能很快搞懂;后者落地到英语场景也并不意味着顺风顺水。

  一个具体功能在不同人手上会有不同的结果,“千人千面”将更容易在场景上实现……

  以下为部分对话内容,多知编辑整理。

  01

  堆叠内容的学习机,并不能解决学习问题

  多知:大模型落地学习机这件事您怎么看?

  吴迎晖:我觉得是难的,大模型可以改作文、练口语了,但是事实上大家对于学习机的期望是掌握知识,这个过程中大模型的作用能够有多少还很难讲。

  在现阶段来说,大模型很容易被当成之前的AI一样成为还不错的卖点,但做学习产品最后还是离不开教研、内容的。

  

  多知:当下的学习机市场有哪些特点?

  吴迎晖:看不太懂。

  学习机市场肯定是进化到了新的状态,区别于前两年,今年大家明显开始竞争内容和课程,我们很难确定这个竞争最终终点会在哪里。

  这个竞争对长期的结果会是什么,我们也没有想好。

  多知:有道的学习机会朝着什么方向努力?

  吴迎晖:我们也会想这件事情,有道做这件事情的一个普遍方向是希望找到某个领域的独特创新切入点,以及找到硬件、AI、内容结合起来做场景的机会。

  这对于我们来说是更舒服的。

  我们今年也会有新产品出来。

  有道有自己的在线内容作为积累,希望能在学习机上找到自己的优势,就像在词典笔、听力宝上的发力是利用英语优势一样的逻辑。

  多知:如果用户对于学习机的期待是提分的话,内容变多肯定是不能完全起到作用把?

  吴迎晖:对,答案目前是否定的。

  其实当大家拼命往里面装越来越多内容的时候,背后的逻辑是这些内容变得越来越不值钱,或者说塞进去的东西,也没有认真去编排它的体系,也没有认真考虑它的学习路径和方法是什么。

  学习不是内容越多越好,学习是最适合我的内容是最好的内容,只是装内容不能解决学习的问题,这也是我认为当前这个状态不是特别好的一个原因。

  好像想往里面装内容,内容越来越多,没有触及到问题本质。

  02

  先找到大模型落地场景,再去针对性解决

  多知:大模型落地到教育场景的时候, 面对语数英等不同学科,会有各自的水土不服,有道怎么看这个状态?

  吴迎晖:以前大家比较乐观,觉得大模型能力很强,适应性很强。

  大家乐观的时候觉得数学都可以得到解决,我们也去看了数学问题,会发现数学问题在里面有些特别具体的问题是比较难解决的。

  可能80%的题目可以解决,但会有一些题目类型对大模型特别难,我们自己内部称为“陷阱”,是数学给大模型设下的陷阱。

  之前有一个例子,说小明有10支铅笔,小红有5支铅笔,小明给了小红3支铅笔,问他们一共有多少支,其实他给了他3支铅笔这件事情没有任何意义,但是这个部分给大模型设置了陷阱。

  大模型会在交换事情上折腾半天,这就是典型的水土不服,遇到这个问题之后它就很麻烦。

  

  多知:英语和大模型的融合会更容易吧?

  吴迎晖:当教育公司真正去做大模型落地教育的时候,不同学科会遇到很多很多类似的问题,有道做英语语法这件事情的时候,相对来说算是大模型匹配度较高的了,因为语法这件事情它的种类数目没有那么多,是可数的,看起来可行性很高,但实际做的时候也有不少问题。

  你得设计比较多的知识点让学生真正地学会,看起来大模型是可以讲语法知识点,但一落地就发现很多语法知识点实际在中文和英文里面不见得一定匹配。

  过程中会有特别多的具体问题,导致它落地英语学科时与期待的依旧有很大鸿沟。

  再比如工具这个属性,学习本身有很大的时间是花在重复上,重复去学,重复理解,重复练习,这个过程本身和工具关系不大、和内容有关。

  所以考虑教育这件事情时需要去仔细寻找这里面落地场景是哪几个,有针对性地去解决问题,别奢求大模型能解决一切。

  多知:大模型暂时不能解决一切问题,又如何实现千人千面?

  吴迎晖:千人千面看你怎么理解了,当一个产品本身能够覆盖的场景化足够多的时候,每一个人遇到的场景不一样,都能够解决的话就可以。

  像语法精讲功能,如果是简单老师给你讲解,他能够覆盖的场景是非常有限的,但是如果是一个具体功能,在不同人手上就有不同结果出来,你可能是中学生、高中生,句子难度不一样,结果就不一样,我们认为千人千面更多是场景上面。

  03

  语音AI团队的尝试,都将落地于听力宝

  多知:听力宝目前的用户群在哪个阶段?

  吴迎晖:主要在小学到初中。

  听力机类的产品在这两年开始热闹起来,其中大部分主要面向低幼,以熏听类的需求为主。

  有道恰恰相反,我们选择的是面向偏大一点的孩子,产品设计本身也更专业化和工具化,很多用户对有道的认知就是这个方向,我们自己的定位也是如此,还是服务于学习这件事本身。

  多知:考虑熏听这个方向么?

  吴迎晖:目前不考虑,我们会在硬件上提供熏听的能力,这件事情100块钱的听力机就能搞定,但是我们现在卖1000块钱,这就没法弄了,想卖1000块钱得有1000块钱的道理。

  核心在于提供的价值在哪儿,有道在听力宝上想提供的价值是让用户学会自己想学的东西,但熏听还是更泛一些;第二,熏听更强调低幼内容本身,这个长期也不见得一定是我们的优势,不成为劣势就好。

  多知:面向小学高年级或是初中学生,社交似乎很重要?有道在去年的听力宝升级中也加入了学习小组这个功能。

  吴迎晖:对我们确实感受到在硬件产品中让小朋友能感受到伙伴这件事很有意思,也是我们在这次的新品中保留下的一个功能。

  现在最受学生欢迎的是PK比拼、挑战升级等等,这个方向包含了群体性社交性的特质,大家一起学是一个不错的尝试。

  但整体我们不会做得很着急或者很重,过程要慢慢沉淀,一方面是沉淀用户,另一方面是做学习营本身就比较难,核心在于内容,我们这次上线了一个KET相关内容,之后也会做更多,K2也会很快上线,像托福这样的内容也会慢慢融入。

  多知:这次有什么新增功能是聚焦于小初学生特点的么?

  吴迎晖:这次新增还是比较多的,比较大的变化是把OS整个做到了听力宝上,应用也已经做到了互通,包括喜马拉雅、网易云音乐都上去了。

  OS本身也在持续的进化,且这些变化是在不断发生的,可能两个月前我们还不能在OS上面输入中文,现在已经有中文输入法了,

  另外一个变化在于大模型带来的自然表达的能力,我们把口语做了比较大的增强,听和说都是在这些基础能力支配下有了升级,听里面也有说,有句子去跟读、纠音这些。

  比如,我们日常听到的那些听力资源和真实的日常生活交流状态是有非常大的参差和鸿沟,鸿沟表现在哪里?我和AI团队聊过,核心就是韵律、词的连读,句子连读,节奏等等。

  听力宝升级后,我们教小孩子发音过程中就把连读做进去,词汇和词汇之间的连读什么地方会标注出来,这样可以发音更准确。

  多知:有没有一些功能是本来想做但暂时放弃或即将实现的?

  吴迎晖:我们最初设计一代产品的时候有比较多的想法,当时是希望把整个训练过程做完整,比如当时我们希望AI团队能够满足不论给什么英语材料,听力宝都可以告诉用户它的分级是多少。

  确实最后发现这件事情挺难的,所以这个功能没上,但是这个功能未来一定会有——不管给什么材料,或者家长从哪里找到的听力材料放到听力宝里面,听力宝都会分析并给出材料难度水平。

  这个行业有很多难度分级,我们也有自己的分级体系,我们会把实际分级能力做出来,它会分析听力材料语言复杂度、听力本身对话的复杂度、语音本身口音等等都会放在一块。

  我们希望做成从内容的获取到最终完成练习这件事情,都能变得畅通无阻。

  我们常常看到家长在给孩子做听力的过程中常常是连最基础最简单的第一步都难以解决——应该听什么?

  当家长不知道该听什么、怎么听的时候就会听别人的,别人说听新概念就听新概念,但新概念真的适合自己的孩子么?我们希望听力宝这样的产品去解决这些问题,虽然这次还没来得及搞定,但很快就能了。

  我们自己语音AI团队最近一年时间还是做了很多事情的,所有这些事情最后都会反映在听力宝上面。

  04

  “词典笔自身的门槛已经很高”

  多知:词典笔有没有一开始想做的功能但暂时没上线的?

  吴迎晖:词典笔和听力宝这两个产品还是有区分的,当然词典笔也有很多想加进去的,不过暂时不能透露,会有的。

  多知:词典笔这个品类似乎已经很久没有令人兴奋的功能或者新的形态。

  吴迎晖:词典笔从出来那一刻开始,自身门槛就已经很高了,这也导致它确实难住了很多参与者——比较大的问题在于其核心的翻译场景,想做到好用这件事并不容易。

  这些年有很多参与者以各种各样的办法去尝试了,但创新却很难:因为想在核心场景之外去做创新这件事情是极难的,所以当这个产品本身没有新的能力去拓展它的场景的时候,大家可能会看到的是没有那么快。

  对于我们来说,我们在这件事情上会关注核心场景的创新机会在哪里?

  像这次我们用了新的芯片,芯片在待机功耗方面做得非常好,不用关机了,这是很大的变化;之前都是要关机的,因为即使处于待机状态下电流还是比较大。

  但是其实有一个我们没有和大家说的,新的芯片从开始立项时候的目标是把Transformer模型直接运用在上面,这个目标应该说基本达成。

  这个意思是什么,现在像语音识别、TTS以及翻译都已经出现模型了,这些引擎都可以直接运用到NPO上,带来的好处是性能肯定会好,有了更高的性能就会有更大的模型做更好的东西,这是我们做芯片的初衷,这个功耗是意外之喜。

  我们做的过程中认为功耗也很重要,把这件事情也放进去做了,确实也做成了。所以我们依旧会觉得说,当你从这个方面来考虑创新的话,还是有一些东西是可以做的。

  这次词典笔在翻译能力的准确性上能够持续有提升,也得益于这个变化。

  多知:大模型落地会给词典笔市场带来新的阶段竞争么?

  吴迎晖:一定程度上我觉得大模型会带来很多能力上的变化,比如我们的口语教练就是实实在在的变化,这和以前是不一样的。

  另外一个角度,大模型从基础基座大模型到真正产品落地的困难依旧是比较高的,不是有了大模型就立即可以解决所有问题。具体产品落地有很多工作要做,我们实际做了像语法类似这样的口语之后就觉得还是挺好的。

  我个人倾向于大模型确实会给词典笔学习工具带来比较大的变化。词典笔的升级中,有些事情看起来没有那么大,但是解决起来很难,如果运气特别好把这个问题搞定,对用户就是有用的。

  像口语这样的东西这次解决了就很惊艳,但是后面还有很长的路要走,有一些东西没有解决,比如动力在哪里?

  学习是一个反复练习的过程,如果你没有办法做到让用户能够持续练习的话,这件事情就还没有完。

  多知:说到学习动力,还有什么途径可以解决它么?

  吴迎晖:我觉得和家长一起可能是解决这个问题的方法,能够有针对性地做好规划,能够最终和家长一起实施,可能是解决方案的一部分。

  也有一些产品会提到游戏化的设计去推动,其实这只是学习过程中挺小的部分,游戏化也是伪命题,它有游戏好玩吗?没有。

  让学习变得更好玩是好的事情,但是并没有根本性解决这个问题。

  多知:带动家长也并不容易吧?

  吴迎晖:对这个问题很难,但是如果你真的考虑学习这件事情,应该朝这些方向去想。工具是解决问题的,但想让学生真的学会一件事情,整个事情的难度在变得越来越大,是值得考虑的事情。

  多知:词典笔、听力宝、单词卡、学习机等等,不同产品之间的功能有一些是趋同的,产品与产品之间的边界在哪儿?

  吴迎晖:这个问题我们仔细想过,词典笔目前给它的定义更多是解决问题的工具,像我们做语法精讲,试图解决的是学生遇到的语法、长难句这样的问题。

  用什么工具解决这些问题,以及在问题解决后,再向前一步去做实际具体题目的推荐解析、举一反三这样的。

  听力宝和词典笔的边界就是你会不会去实际做练习,比如非常深入地花半个小时在上面做练习题,这件事情我们词典笔屏幕还是有比较大的限制。

  听力宝这样的屏幕上面可以做一些轻度练习,所以听力宝上面做了学习营这个设计,轻度是什么样的程度,比如10道题PK,这是寓教于乐的感受,时间也不会太长,这是很适合的。

  再重度的,类似于接近平板边界的深度学习,和词典笔差的就会比较远,但是在解决问题那一刻还是比较好的。

  多知:有道也做了自己的单词卡片机,在看轻型产品的机会么?

  吴迎晖:单词卡片机还好,我觉得它是能做好的,背单词这件事情是有它道理的,有背词法,有提供什么样的内容,每个部分你要真的深入去做的话还是挺难的。

  我们也做背单词做了好多年,我们没有觉得把这个事情做得非常透非常深入的,这件事情很难。另外角度来说,背单词价值部分没有想象的那么大。

  多知:这个市场接下来是什么样的走势?

  吴迎晖:我有时候会觉得,当用户对一件事情非常认真,特别想强调它效果的时候,他会对手上的设备非常认真,他会对它要求很高,这点来说卡片机满足的不是完整的背单词,他满足的是碎片时间学点单词的需求,还有另外一个需求,就是备考。

  如果想区分它的话,这两类需求都在,看你要去满足什么,比如托福考试背单词肯定会用这个,因为我每次坐下来要背半个小时,这个时候我对于面前这个设备希望比较认真的记录下来我的过程和需求。

  END

  本文作者:冯玮