GPT-4在各种专业和学术基准上接近人类。

“GPT-4将开辟教育新领域”,多邻国、可汗学院是这样应用的

2023-03-15 13:04:05发布     来源:多知网    作者:王上  

  来源|多知网

  作者|王上

  图片来源|OpenAI官网

  美东时间3月14日,ChatGPT开发企业OpenAI发布了GPT-4,它支持图片和文本输入,在各种专业和学术基准上达到“人类水平”。

  目前,GPT-4仅可以在付费版ChatGPT Plus上使用,OpenAI为开发人员提供API(应用程序编程接口)以构建应用和服务。有用户体验后提到,从ChatGPT(GPT-3.5)到GPT-4,可以说是从一个高中生达到了研究生的水平。

  此前,多知网报道过ChatGPT不擅长解答数理化等问题,而今,不到2个月的时间,GPT-4对各种标准化考试可以轻松拿捏。这对教育行业来说意义重大。

  当前,诸如Duolingo(多邻国)、Khan Academy(可汗学院)等企业已经使用了GPT-4。

  多邻国提到,GPT-4提供比以往任何时候都更有效和更吸引人的学习体验,这会提高学习效果。此外,GPT-4的便利性简化了整个工作的流程。

  可汗学院首席学习官Kristen DiCerbo认为,GPT-4正在开辟教育的新领域,它是革命性的。

  01

  深度学习的里程碑!GPT-4在各种专业和学术基准上接近人类

  3月14日,OpenAI在其官网上发布了推出GPT-4的公告。公告称,OpenAI已正式推出GPT-4,这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型多模态模型,尽管在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。

  例如,GPT-4通过了模拟的律师考试,分数约为全部应试者的前10%。而相比之下,GPT-3.5的分数大约是后10%。“我们团队花了6个月时间,利用对抗性测试项目以及基于ChatGPT的相关经验,反复对GPT-4进行调整。结果是,GPT-4在事实性(factuality)、可引导性(steerability)和拒绝超范围解答(非合规)问题方面取得了有史以来最好的结果(尽管它还不够完美)。”

  

  (GPT-4多种基准考试测试的成绩)

  据OpenAI介绍,GPT-4参加了多种基准考试测试,包括美国律师资格考试 Uniform Bar Exam、法学院入学考试 LSAT、“美国高考” SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高88%的应试者。

  OpenAI官网上介绍,在简单聊天时,也许感受不到GPT-3.5和GPT-4之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。

  

  OpenAI工程师在视频中介绍,比如简单写一个想法框架,拍照发到 GPT-4上告诉它要做一个网站, GPT-4可以生成网站代码。

  OpenAI表示, GPT-4产生的错误答案更少,将更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。

  02

  GPT-4开辟教育新领域

  OpenAI官网给出了多邻国、By My Eyes、摩根士丹利、Khan Academy(可汗学院)等的6个使用GPT-4的案例。微软也表示,新必应搜索引擎正在运行GPT-4。

  多邻国和可汗学院都是教育产品,可以说,加入GPT-4后大大改变了内部流程,提升了效率,也提升了用户体验。

  1、多邻国将GPT-4加入对话环节:提升用户体验,提升了效率。

  多邻国是一个以游戏化方式学习语言的软件,每个月有超过5000万学习者使用其学习第二语言。通过简洁的用户界面和有趣且有竞争力的排行榜,涵盖100多种课程,支持40种语言。学习者可以通过在手机上轻拍和滑动,从简单的词汇练习过渡到复杂的句子结构。

  如果一个学习者想要超越基本的熟练程度,了解语法规则是很有帮助的。但真正精通一门语言需要对话,比如学习英语,最好是与以英语为母语的人对话,这不是每个人都能做到的。

  “人工智能一直是我们战略的重要组成部分,”多邻国首席产品经理埃德温·博奇(Edwin Bodge)说。“我们一直在用它进行个性化课程和多邻国英语测试。但在学习者的学习过程中,我们希望填补一些空白:对话练习,以及对错误的上下文反馈。”

  

  (多邻国的法语对话练习)

  “我们希望将人工智能功能深度集成到应用程序中,并利用在我们的学习者喜欢的多邻国的游戏化方面。”埃德温·博奇(Edwin Bodge)说道。

  在语言学习中有一种最好的做法,叫做“内隐学习(implicit learning)”,通过在一系列语境中反复使用词汇和语法来学习,不知不觉中获得某种知识。换句话说,通过实践比记忆规则更有效。这让多邻国进行了一次有趣的尝试。

  多邻国的许多学习者都想学习明确的规则,多邻国则试图用预先写好的语法提示和人工智能来教他们。即使使用GPT-3,实现也很困难。教语法需要对错误有明确的理解,以及知道学习者犯错误的原因。解释一个不正确的术语可能会错误地教授概念,或者让用户感到困惑和不满。

  多邻国首席工程师比尔·彼得森(Bill Peterson)说:“GPT-4让我们对‘解释我的答案(Explain my Answer)’中人工智能回答的准确性更有信心。”

  有了这些新功能,学习者可以点击“解释我的答案(Explain my Answer)”,GPT-4将给出初步回应。学习者可以回到课程,或得到进一步的解释,GPT-4可以动态更新。多邻国将根据学习者在回到课堂前需要学习的深度来衡量GPT-4的反应质量。

  多邻国认为,GPT-4提供比以往任何时候都更有效和更吸引人的学习体验,这应该会提高学习效果。此外,GPT-4的便利性简化了整个工作的流程。

  “一天之内,我们就做出了一个原型,这让我们确信这是我们想要进一步探索的东西。它能让我们很快地从0到95%。然后剩余的5%,我们可以手动调整数据。”彼得森说道。

  现在,多邻国的团队更专注于测试和打磨数据集。

  2、可汗学院加入GPT-4:化身学生的虚拟导师,和老师的课堂助手

  可汗学院是一家教育性非营利组织,其利用视频进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学视频超过2000段。

  但是,每个学生都是独一无二的,他们对概念和技能的把握也是千差万别。有些人可以轻松掌握一个主题,而有些人则需要循序渐进地提升。尤其是疫情期间,让这种差距加剧。

  

  (可汗学院的应用案例)

  可汗学院的首席学习官Kristen DiCerbo说:“考虑到每个人的不同需求,让他们不断进步是一项挑战。他们都处于不同的水平,有不同的差距。他们都需要不同的东西来前进。这是我们长期以来一直试图解决的问题。”

  今天,可汗学院宣布将使用GPT-4为其人工智能助手“Khanmigo”提供技术支撑,Khanmigo既可以作为学生的虚拟导师,也可以作为教师的课堂助手。这家非营利组织于2022年开始测试OpenAI语言模型的最新版本,最初将向有限数量的参与者提供Khanmigo试点项目,不过公众也可以加入候补名单。

  Kristen DiCerbo说:“我们认为GPT-4正在开辟教育的新领域。很久以来,很多人都梦想着这种技术。它是革命性的,我们计划进一步测试,以探索它是否能有效地用于学习和教学。”

  可汗学院将Khanmigo作为探索人工智能的试点,早期参与者将反馈错误,特别是在数学问题上,将标记出来进行纠正。

  GPT-4的主要功能之一是能够理解自由形式的问题和提示。这种像人一样来回走动的能力,可能为可汗学院提供了最关键的能力:向每个学生提出个性化的问题,以促进更深层次的学习。

  Kristen DiCerbo说:“我们和所有教育技术公司都在努力解决的一个问题是,如何让学生深入思考他们正在学习的内容。比如,‘你为什么那样回答?你为什么这么认为?会发生什么?’所以我们要确保学生不仅仅是理解如何做题,还要真正理解题目背后的概念。”

  可汗学院的早期测试表明,GPT-4可能很快就能帮助学生将相关性学习内容结合起来。

  “这些都是我们深入思考的问题,然后GPT-4出现了,”可汗学院工程总监Shawn Jansepar说。“我们认为这项技术是一种潜在的方式,可以在未来几年加速我们的路线图,在我们的平台上构建更多类似导师的能力,同时还提供我们以前梦想过的功能。没有一个真正强大的大语言模型,这些想法是不可行的,但现在我们认为我们可以取得真正的进展。”

  为教师调整GPT-4也是可汗学院的首要任务,当前,他们正在测试教师使用GPT-4的方法,比如编写课堂提示或创建教学材料。

  可汗学院相关负责人说:“更令人兴奋的是,它有可能帮助教师快速、轻松地为每个学生量身定制学习。我们认为教师可以使用GPT-4来了解他们班上每个学生在任何一天在可汗学院的表现。我们将在不久的将来测试这一功能。”

  相关阅读:

  倪闽景:面对ChatGPT,传统教育已被逼入墙角?

  用ChatGPT搞学习?还是别了吧

  ChatGPT月活用户破亿,开始探索商业化推出付费版

  Coursera CEO:ChatGPT或引发新一轮技能再培训浪潮

  北京经信局:支持头部企业打造对标ChatGPT的大模型

  END

  本文作者:王上