“追赶OpenAI首先需要一套科学系统的大模型评测体系。”

刚刚:讯飞星火交卷,“大模型学习机”有什么不一样?

2023-05-06 18:05:47发布     来源:多知网    作者:冯玮  

  来源|多知网

  作者|冯玮

  图片来源|科大讯飞

  刚刚,科大讯飞举行了星火认知大模型成果发布会。

  科大讯飞董事长刘庆峰介绍,讯飞星火认知大模型是科大讯飞自主研发的基于深度学习算法的认知智能大模型,其具备跨领域多任务上类人的理解和生成能力,可以模拟人类大脑对自然语言的理解和生成过程,实现对语音、图像、文本等多种信息形态的理解和处理。

  基于此,此次科大讯飞整理出通用人工智能的七大维度能力:文本生成、逻辑推理、语言理解、数学能力、代码能力、知识问答、多模态能力。

  科大讯飞演示了星火认知大模型的写发言稿、邮件、营销方案、英文写作效果,结果相当出色,可实现语音一句话生成,还能中英文互译,甚至能用小红书的文风来写作。

  作为星火落地教育场景的尝试,科大讯飞推出了首款搭载大模型的AI学习机T20系列。

  01

  星火背后的“7个维度”

  刘庆峰在发布会上解读,2022年年底起认知大模型的技术在全球引起了人工智能全新浪潮——各行各业都在拥抱巨大的变革和巨大的机会,传统意义上通过重时长、人力的商业模式将被根本性的颠覆。

  “这一次人工智能在历史上的意义,不亚于PC或者互联网的诞生。”

  此次认知大模型主要特点在于:通过多种类型的数据送到一个统一的认知智能的大模型中去学习和训练,最终可以在通用领域给大家非常惊喜的能力表现。

  各种类型的文本来源也是多样的,可以是文字、语音、图像或者视频等多种风格:“关键问题是通过这样一个统一的单模型学习之后,我们就会发现我们的系统会具备了像人类一样的触类旁通,在多领域的智慧涌现的令人惊喜的表现”,刘庆峰说道。

  

  据了解,基于ChatGPT一开始发布的48个任务方向和科大讯飞人工智能开放平台上实名认证开发者团队对人工智能在未来的各种应用领域的需求,科大讯飞最终提出当前通用人工智能特别令人关注的7个维度。

  即:文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力7个方面。

  刘庆峰强调,“任意的设备都可以像人一样能听会说、能理解会思考,将极大推动万物互联、大家公认的IT产业发展的第六次浪潮”;“同时也会带来终端数量和产业规模10倍以上的提升”……

  刘庆峰在现场就几个传统行业进行了迭代分析,其中:

  “在传统的手工编程行业,新的技术升级将会大幅提升现在软件产业的研发和生产效率,也会使得今天只要有创意有想象的每个人都可以在数字经济时代提出他的设想,不用再会编程,也不用要有资源去组合一个编程的团队,后台的大模型会直接帮他的程序实现,然后运行,然后进行商业推广。”

  “像自媒体,今天每个人都会成为作家,每个人都会进行商业模式创新一样,在未来在信息产业在数字经济中,人人都可能会创业,它的创意和灵感将会更多地变成产业的福利,我觉得会带来整个产业生态的重大的变革和重塑”刘庆峰说道。

  这一次认知大模型本质上是一次对话式的通用智慧的涌现,刘庆峰认为语音和语言的核心能力是一个基础条件:

  “科大讯飞是中国的国家队,在2014年我们就推出了讯飞超脑计划,明确提出要让机器像人一样具备能理解会思考的能力。在去年的1月份,我们的年度大会上就正式宣布了讯飞超脑2030计划,我们就是要让未来的讯飞超脑2030计划中间懂知识会学习。”

  

  据了解,2022年12月15日,科大讯飞正式启动认知智能大模型的专项攻关,官方称其为“1+N专项攻关”。

  1:为通用的认知智能的大模型。

  N:是把大模型在各个领域的落地,包括教育、办公、汽车、人机交互以及医疗等众多领域,也是科大讯飞此次发布通用模型和行业产品的一个非常重要的试点。

  随着认知大模型在全球引发的关注和产业浪潮,非常多的科研机构和企业单位都在开始进行认知大模型的研究和产业化的相关工作,有些公司已经推出了阶段性的成果。

  基于此,刘庆峰坦言:“如果我们要让这次智慧涌现的认知智能是真的解决社会刚需,而不是简单的做一个PR去做宣传的话,我们就要建立一套实实在在的脚踏实地又科学系统的评测体系。”

  “用这一套科学系统的评测体系来告诉我们我们的技术到底到了什么程度了,下一个发展应该往哪边走,告诉我们到底我们距离实用是不是已经达标了,还是应该还有哪些工作要去做”——刘庆峰强调,无论是对OpenAI致敬学习、又或是想快速赶超并超越的时候,首先需要一套科学系统的评测体系。

  

  基于此,科大讯飞对“科学系统的评测体系”的落地也在2022年12月15日同时启动。

  据了解,科大讯飞此前和中国科技大学共同承建的认知智能的全国重点实验室,牵头设计通用人工智能的7个重要的方向,和一整套的细化测试方法与基本模块方向。

  同时,科大讯飞与中国科学院人工智能产学研创新联盟以及长三角人工智能产业链联盟,一个侧重在产学研源头技术,一个侧重的产业链的应用落地。

  02

  现场展示:星火交卷

  “现在我们给出了7大类,一共481个细分的任务类型来来进行我们对整个通用认知智能大模型的评测,今天我们就会围绕着这7个主要方向给大家来展示我们讯飞星火大模型到底已经达到什么程度,以及它下一步的落地情况。”刘庆峰解读并在现场演示了几个实时对话案例。

  

  多风格多任务的长文本的生产能力,刘庆峰解读,讯飞星火可以写发言稿、写邮件、写新闻通稿、营销方案等,拥有各方面的文本生成能力。

  用星火给大家写一个欢迎稿:

  

  用星火给小朋友们讲故事,可以由家长随机选几个词由星火重新编辑:

  

  让星火以小红书的风格写一篇翻译机4.0新品的品宣文案,强化“小姐姐们必备神器”:

  

  在语言理解能力中,刘庆峰强调星火关注多层次跨语种的语言能力。

  其中包含如中英文各个层次每个单词和语法时态等等的检查,甚至是能够到情感分析到后台的深度理解。

  “英文的这样一个语法句式以及关键单词的纠错能力,我们已经做在业界最强了,所以它不仅可以赋能,在我们讯飞的学习产品中,我想对每一个现在的商务人士或者工作人员对海外做交流这个功能都是非常有用的。”

  星火对英文语法纠错:

  

  星火对中文模棱两可的汉语进行理解和解读,例如:

  俗话说,男子汉大丈夫要宁死不屈;但俗话又说男子汉大丈夫要能屈能伸,这两种意思如何理解?差别在什么地方?

  

  如果有个小伙子和他女朋友吵架了,他应该是宁死不屈还是能屈能伸?

  

  对“一分钟”的理解和使用,也各有不同:

  

  “因为语言理解是将来我们的认知大模型,就要用各种插件和工具最核心的一项能力。这个能力中根据我们刚才说的测试体系中,481项测试维度中有119项详细任务跟语言理解有关。根据我们现在测试结果,我也非常自豪的告诉大家,在国内可测的现有系统中我们是明显遥遥领先的,那么跟切断GDP相比还有细微的差别,但我们还在持续提升的过程中”,刘庆峰解读。

  在知识问答部分,刘庆峰表示通常把它定义成叫泛领域的开放式的知识问答。

  菠菜和豆腐能不能一起吃: