下半年将是垂类产品的成熟期。

对话周枫 | ChatGPT下的颠覆、革命与场景

2023-06-05 10:40:12发布     来源:多知网    作者:冯玮  

  来源|多知网

  作者|冯玮

  图片来源|网易有道

  “我们正在面临的是技术层面的颠覆。”

  “要快、 要赶时间。”

  与多知网谈及AI落地教育场景时,网易有道CEO周枫坦言其正在选择“两条腿走路”:一面加速研发“子曰”大模型、一面促成应用场景模型的落地。

  在国内,目前已经形成了三个不同的发展派别,包括以百度、华为、360等为代表的通用大模型派,以有道、京东云、同花顺等为代表的垂类模型派,以及以王慧文、李开复、王小川等为代表的ChatGPT创业派,三方都希望实现GPT从技术到产品、场景的商业化落地。

  区别于以上,有道“子曰”是“大模型+小样板”在教育领域的一次与众不同的尝试。

  相比通用模型,“子曰”在教育领域内的数据更全面,意味着围绕教育场景的交互可能性也有足够大的想象空间。

  周枫对多知透露,有道将尽快落地六个应用场景:口语教练、作文与阅读教练、各科习题答疑、编程学习答疑、对话助手、知识工作助手。

  场景为先、场景拉动——周枫强调有道并不会选择让所有概念汇合于一个模型中,相反地,“模型落地到不同场景上才是最重要的事情。”

  有道也的确是这样做的。自2023财年Q1以来,其已在多个业务场景加速推进AI技术落地,包括如有道翻译中的AIBox功能,有道词典笔中的“开口说”功能,以及有道的围棋课程中基于生成式人工智能的AI语音复盘。

  AIBox推出的不到一个月的时间内,已经被使用了近100万次。

  对于有道来说,这无疑是一个良好的势头。

  “生成式人工智能是一个革命性的技术,有道打算将这个技术发展为竞争优势”,在分析师电话会议上,周枫如是说道。

  大模型落地教育场景,怎么做?如何做?在自我重构与自我革命中,有道正经历着什么?

  带着这些疑问,多知与周枫进行了对话。

  

  以下为与周枫对话原文,多知编辑整理

  01

  第一个印象:“震撼”

  多知:第一次感受到ChatGPT的时候,什么感受?

  周枫:还是非常震撼的。

  当时我跟算法团队的同事来来回回地用,一起测试它的能力极限。从教育科技企业的角度来看,ChatGPT的出现很有可能在个性化教学和因材施教层面带来颠覆性的变化。

  我是一月份把所有的论文全部读了一遍,从GPT-2开始全部读了一遍。

  在读论文的时候也整理出很多东西,比如大家现在常常提到的语言模型,其实这不是最近才有的,这类的大语言模型已经有了4、5年了,最早当然是谷歌的那些模型,当然就有bert的模型存在,是两条不同技术路线。

  Bert是encoder-decoder模型,decoder只有解码器的路线,所以bert其实是一个编码解码器的路线,大家以前会觉得bert是主流路线,那个论文我其实很早就读到了。

  但后来大家发现open AI把这个事做成了,所有人就面临一个“选择”,也就是技术路线的颠覆,原来看的东西可能得重新看了。

  多知:您提到“颠覆”这个词,它厉害在哪?

  周枫:做人工智能的人都知道,最容易的事情最难。

  我自己的公众号曾写过三点,大语言模型至少具有三项根本性新能力,这些新能力在学术界已经被广泛讨论,甚至被视为常识,但是在产业界和产品团队中却缺乏足够的关注。

  这三个能力分别为涌现能力(emergent abilities)、作为基座模型支持多元应用的能力、支持对话作为统一入口的能力。

  所谓涌现能力最关键一点就是常识推理,什么叫做常识推理,就是“美国第一任总理是谁,宋朝都城是哪里,比亚迪公司是在哪里成立的”……各种莫名其妙的常识性的问题。

  ChatGPT的厉害之处在于它的常识推理能力很强。

  你会觉得这听起来很容易,以前的AI就是查一个表不就行了吗,实际上不是这样的。

  多知:是的,很多人对这个技术的第一反应是类似于过往的语料库或搜索引擎。

  周枫:完全不是这样,如果人工智能常识能力强,一定程度上搜索产品的模式肯定不是十条结果,应该是直接就把答案搁那儿就完了,为什么需要十条结果呢?至少也应该是两、三条结果。

  就是因为它给你的内容是有用的,但它其实并不准确地知道你问的那个东西的答案是什么,这个问题对机器来说非常难。所以我用ChatGPT的时候,第一个反应就是这非常了不起。

  以前的AI可以这样理解,就是我们会用那个模态来区分AI的技术,那以前就是三大模态:视觉、声音、语言,基本上是最主流的三大AI技术方向。

  而现在就会综合一些, 比如做视频:从声音过渡到了文字、文字又很自然过渡到了视频,这是所谓的多模态。总体的意思就是,大模型要把这些东西串在一起。

  多知:教育会因此得到怎样的改变?

  周枫:助力因材施教还是最核心的主题。

  这其实是一个很老的话题,可以追溯到1984年美国教育学家布鲁姆的研究。他当时想研究班级制的这种教学模式有什么革新空间,因为谁都知道班级制教学模型是最可行的,但又有很多问题,比如不同学生学习进度不一样,一个老师对30个学生,甚至有的时候50个、70个学生,老师工作负荷非常重。他的研究结论就是,如果老师不只有这么少,一个老师可以去面对面指导一个学生,就能够提高学生的学业成绩两个标准差,比如从不及格到及格,及格到良好,良好到优秀,或者大概15分的量级,这非常了不起。

  当然这是不可行的,因为像我们国家1.5亿中小学生,实际上大概只有差不多一千万名老师。那么此路不通,他就研究在师生比相同的情况下可以有什么办法。他发现可以使用掌握式学习,就是通过让孩子做练习发现他是否掌握了,如果他没有掌握就接着学,不要往前学,通过这种方式可以让学生的成绩提高零点几个标准差,这也是非常了不起的成就。

  我觉得现在去回顾1984年的成果非常重要,因为如果大模型能够使我们有这样的人工智能助教帮到更多学生,会非常了不起。

  我觉得技术手段永远是辅助,但有大模型之后辅助能力会更强。

  多知:那有道想做什么?

  周枫:我们现在是两条腿走路,一个最主要的是抓应用场景模型,另一个我们的大模型“子曰”也在研发当中。

  我们会尽快率先落地六个应用场景:口语教练、作文与阅读教练、各科习题答疑、编程学习答疑、对话助手、知识工作助手。我们就是奔着场景去做,像口语教练、作文和阅读教练、棋类都是一个个场景。

  多知:会感到焦虑么?或者眼下比较大的考验是什么?

  周枫:要快、 要赶时间。

  ChatGPT是11月份推出的,基本上后面两周技术圈就在密集讨论,大众没有注意到,春节后大众这边一下就“爆掉了”,成了全社会热议的话题。我们判断,不懂这项技术就没有办法吃这碗饭了。

  后来在1月初的公司年度战略会,我们花了很长的时间专门让公司AI研究院院长来讲GPT的产品,大家做了比较充分的讨论,那时候我们一些应用场景的工作就已经开始了。

  应用场景模型方面,今年下半年行业内就会有相对成熟的产品,现在看到比较多的还是发布会,以及内测型产品,我们认为下半年实际用户量就会上升,到底哪些产品用户量大就看各家公司做的情况。

  新的技术上来,如果你慢了其实就很被动,过程中要克服团队的惯性,另外我们上半年会推出一些场景、我们认为场景是很重要的。

  多知:想要克服的团队惯性是指?

  周枫:有一个东西可以先透露下,我们在把有道的翻译引擎变成LLM——这是一个革命性的改变。

  本质来说,当有新技术的时候如果不去做自我革命性的事情,很可能业务就会慢慢消失,其实我们也干过好几次这样的事。

  比如最开始从统计机器翻译到神经网络机器翻译,后来从神经网络机器翻译升级到transformer的时候都是这样。因为新技术有很多的问题,比如说现在这个大模型最大的问题就是特别贵,对计算资源要求非常高,差十倍或者更多,团队需要去想办法解决这个问题。

  我们认为翻译引擎需要升级,即翻译需要变成基于大模型的技术。

  现在用的这一代翻译引擎是2017年上线的,团队已经维护了六年时间、算上研发已经八年时间,现在把这个彻底换掉、丢掉,对大家来说还是很大的挑战。

  我们会在今年内开始进入更换的流程。

  02

  场景为王

  多知:在讨论一些公司战略性的布局的时候,当时做了哪些思考?有过纠结吗?

  周枫:肯定纠结,这个东西每天都在变,而且变化速度非常快。

  ChatGPT出来之后很快就推了GPT-4,一下子能力又提高了非常多,新能力能干什么,它未来还会有什么变化……这些问题到现在应该说还是有很多未知的。

  当然我们有很好的基础,有transformer的这些技术积累,但是产品路线应该怎么设计?是不是应该把所有的精力都放在搭建模型上?这是最主要的问题。

  再比如像除了模型本身之外,应该多干一些什么别的事情,如何跟我们的硬件业务,跟我们的辅导老师之间产生什么互动,这都是不一样的。

  到底应该在云端上跑,还是在设备上跑……

  这些都是问题,每天都有非常多的问题。

  最后我们的结论就是“场景为先”。

  多知:场景为先?

  周枫:场景为先、场景拉动的意思就是说,你不需要一上来就把所有的东西都集中在一个模型上,这是一个可以搭配起来的事。

  大模型能够作为基座模型来支持很多下游任务,这个术语讲法是下游任务,这是它非常重要的优势,我们一定会把这个优势应用的非常好。

  我们现在还是觉得因材施教是一个主题,怎么因材施教?寻找场景,训练模型,设计商业模式,怎么去推广以及怎么跟人配合,这有非常多的事情。

  针对场景做本来就是各个垂直领域的公司要做的事,当然国内现在特殊情况没有特别成熟可以用的模型,这使得我们需要多做的事。

  但不管将来我们是跟成熟大模型去做非常深入的合作也好,还是说我们用整个子曰的模型也好,其实我们是开放的、有灵活性的。

  但这六个场景,会是我们今年的主要内容。

  多知:子曰这个名字是怎么来的?有令您印象深刻的故事么?

  周枫:有道的教育大模型取名“子曰”,是因为孔子是我国教育先贤,也是因材施教思想的奠基者。“夫子教人,各因其材”,子曰的愿景就是用人工智能助力因材施教,又是一个与“对话”(语言)相关的技术,故名“子曰”。

  我记得当时这个名字也有反对票,说孔子不会说英文,也挺有意思的。其实到最后,用户在乎的还是产品而不是名字,如果产品不行,名字起的再好也不成。

  多知:子曰是否有实际落地的场景?

  周枫:就是前面提到的这六个场景,其实可以认为这些都是子曰的。在上半年我们还是在做场景落地的事情,后面会跟大家系统介绍子曰的能力。

  多知:为什么选AI口语老师作为子曰大模型最先落地的应用?

  周枫:中国人学外语最大的困难是什么?我们的困难不是词汇,也不是语法,是没有语言环境,语言这个东西是非常难以创建的,这是为什么说把孩子丢欧洲待半年,他肯定把当地语言学的很好,就是因为有语言环境,没有语言环境,那你再怎么教他,他也学不好。

  以前唯一创造语言环境的办法就是外教,但外教最大的问题是什么呢,资源太少了。

  说白了只有非常少数的学生能够有一个好的语言环境,那其实技术革新不就是解决这个问题吗?我们看到我们英语教学中间一直没有解决的问题,现在有机会把它解决好。

  多知:对目前的落地速度满意么?

  周枫:还可以,今年的条件还是不错的。

  各方都还比较给力吧,比如从环境上我们其实可以看到一些数据,只要提到了AI的,今年就特别受欢迎。另外我们更多的资源肯定会集中在AIGC和大模型上面,这个出发点也是结合我们业务原有的优势,没有必要去做180度的转弯。

  新的模型、新的技术来了之后我们一定要抓住的,因为如果抓不住掉队了,可能从此就是一个跟随的角色。

  大模型的核心能力第一个是逻辑推理,第二个是比较容易做通用模型,原来很多个单独的模型现在可以合并,第三个核心能力是支持非常强的自然交互。我们原来也有一些技术优势,我们就要好好利用这个优势。

  多知:大模型的搭建是否有重新组建研发团队?

  周枫:我们在transformer这边有比较多的积累,使得有道在面向教育新的AI技术革新时的工作能够做好。

  现在在一步一步往前推进,最重要的还是先从场景落地着手,因为只有把场景落地做好了,才明白到底要什么东西。

  03

  下半年将是垂类产品成熟期

  多知:AI的融入跟一个真人的补习老师相比有多少差距?

  周枫:大家对于现在大模型的能力评价是一个大学刚毕业的人的水平。

  意味着这是一个常识很丰富的一个人,很多事他都知道,而且是一个成年人,他不是一个小孩,他表达能力是很强的,他也是能够体会到跟别人交流中间别人的需求这些。

  这是所谓大模型对齐的技术。

  它知道你要什么,你跟它聊一些本来就有争议的话题,它会知道要比较模糊地回答你,它自己会留有余地,当然如果跟它聊一些非常明确的话题,那它也一定给你很清晰的内容做回应。

  从这个角度上而言,大家的评价基本差不多,是大学毕业生的水平。

  多知:能不能算得上一位专家?

  周枫:还不能,局限性现在还是很明显,它无法深入到一个需要很多专业知识的领域,量化推理尤其不行。最经典的例子是40位数加法,GPT-4的40位数加40位数,永远是对的,这个意思是它懂数学,不是背答案,因为如果两位数加两位数对了,也不说明什么,机器可以背答案。这听起来还不错是吧?但如果是40位数加35位数,它有一半是答错的。这是比较经典的例子,意思是它有数学能力,但能力不全面。

  这就意味着它现在还是能力不全面的人,一些地方有短板。

  多知:他的身份可能更适合哪种专业或职业?

  周枫:它的知识能力是很强的,但所谓专家其实很多时候要有洞察,它在很多领域里头其实做还不到有洞察。

  它可能更像一个知识面很丰富的人,但聊着聊着你发现这个深度有限,前后可能还会有一点矛盾。

  多知:听起来是一个可以让教育更“普惠”的东西。

  周枫:同意,能推动因材施教,或者说是一个能大幅提升效率和生产力的工具、技术。只要把它应用好,不管是教育还是其它行业,应该都是一个挺正面的事,提高效率。

  多知:一个老话题,大模型是否真的“偏科”?比如落地文科更容易?

  周枫:从现在大模型的技术现状来看,首先就是从综合能力上它是一个革命性的变化,相比以前的能力强了非常多,大家实际用应该也有体会,的确综合能力非常强。

  那如果把它落到教育上,那其实像语言学习、英语学习这样的,它就会能干很多事,而且能力局限性比较小,当然我们也看像语文这样的学科其实也很强。

  你可以认为文科可能是当前阶段大模型更强的一个领域。

  那理科大家比较关注的是所谓量化推理,就是做应用题的能力。以前模型可能十分之一做对,或者说最多五分之一对就很了不起了,现在可能一半对。但这在一定程度上是不够的。这是为什么大家往往认为大模型数学还不太行。

  多知:听起来好像文科的确占了些优势。

  周枫:对,其实文科相对属于高容错场景,它讲什么你也没有办法反驳它,只要它自己讲的言之有理就好。但它的厉害之处就是能够做到言之有理。

  这就回到了我们的选择上——挑场景很重要。

  因为如果想指望一个无限强大的技术,或者说去想象这个技术能变得多强,或者我发现它还差10%,我就投入公司所有的力量去优化那10%,可能那10%就是最难,你想等那个技术,可能等两年也等不来……这是很难的。

  那刚好教育这个领域又比较多元、场景非常多,所以我们选择的是找场景。

  我们在语言学习上有大量的用户,另外语言学习跟大模型能力又非常匹配,所以对于我们来说是一个比较自然的选择。

  多知:能否结合有道已经落地的场景,展开解读下大模型在文科内容上的可能性?

  周枫:教育这个领域其实非常务实,我们从2015年开始做教育,到现在也有8年的时间了。

  我们感受到的是,教育这件事是没有一个办法可以解决所有问题的,它非常复杂:每个孩子都不一样,每个学科都不一样,每个地域都不一样。

  比较有经验的团队会在这个里面找到共性需求,这样才能作出成功的产品和业务出来。

  不管我们的数字内容服务,还是我们教育硬件产品也好,还是我们APP的互联网产品也好,其实都是这么来的,就是不断在一个非常复杂的需求环境之下找共性需求。

  现在新一代AI技术来了之后,首先场景就会比原来变得更复杂,这是它非常大的区别,即便上是一代能力比较局限的时候,我们其实已经可以做出好产品。

  最典型的例子就是词典笔,词典笔是比较窄场景之下用户非常满意的产品。它能识别文字,能翻译,能用语音把它念出来……

  按照大模型的能力你会认为这是很局限的技术,但即便如此,最后这个产品把需求切准了之后这是非常受欢迎的。

  所以这是为什么我们对于大模型的技术现在还是非常看好的。你有了这么多的更综合能力之后,那产品应该更好才对。

  多知:通用大模型出现后,教育领域做垂类模型的意义还有么?

  周枫:如果可以找到很强很强的具体场景,你把它做深入、做透之后,你就可以占住这个地方。 如果说做半天发现这个东西做不通,做来做去还不如不要做,当然统一的模型就赢了,我觉得这两个都有可能。

  但我们坚信的是,做教育领域的优化是非常有价值的。

  至于最后这个价值是不是能大到超越通用模型可能的规模优势,还是需要一点时间验证。至少我们可以看到一些迹象,垂类模型有它很大的优势。

  多知:您对未来这个方向的格局是否会有一个判断,大概是什么样子的?

  周枫:现在在国内没有特别完美的大模型的产品,大家都还在迭代,因为大家的时间很短,Open AI 之前也花了很久的时间。

  比较成熟的产品尤其是应用到垂类,我觉得今年下半年可以期待一下。

  END

  本文作者:冯玮