“让我们的通用人工智能从通用助手变成更懂你的AI助手。”

科大讯飞:大模型进校,批改作业进入AI时代

2024-06-28 08:58:52发布     来源:多知    作者:冯玮  

  来源|多知

  作者|冯玮

  上个月,星火大模型推出刚满一周年。

  经历了从无到有的拓荒,科大讯飞董事长刘庆峰认为当前讯飞在做的事情无外乎以下两个方面:国内的大模型底座能力到底怎么样?大模型究竟如何应用落地?

  讯飞的答案也出现在昨天下午,科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用,其中:

  讯飞星火V4.0七个核心能力全面提升、全面对标GPT-4 Turbo、星火APP/Desk升级并发布“个人空间”、首次推出星火智能批阅机、AI学习机升级1对1答疑辅导功能、语音大模型发布74个语种/方言免切换对话……

  

  首次出现的智能批阅机意味着批改作业已真正进入AI时代,而AI学习机中全新的AI 1对1 答疑辅导功能,被官方强调已“实现了超拟人效果”。

  此刻的讯飞,更像是一个缩影。

  大模型软硬结合、端侧落地的赛程,已经开始。

  01

  七个核心能力提升:对标GPT-4 Turbo

  在刘庆峰看来,从去年5月6日的讯飞星火V1.0到此刻的讯飞星火V4.0的发布,星火最令团队自豪的,是讯飞星火大模型基于全国产算力平台训练得出。

  

  据了解,讯飞已与华为联合软硬件一体化,科大讯飞提供了大量的算子库和算法资源,联合在安徽发布了中国首个国产万卡算力集群。

  这是中国第一个能训千亿以上浮点参数大模型的硬件平台。在这个硬件平台上,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。

  基于此,此次的讯飞星火V4.0已经可以对标GPT-4 Turbo。

  具体数据来说,讯飞星火V4.0在文本生成(80.2%)、语言理解(82.3%)、知识问答(85.7%)、逻辑推理(82.2%)、数学能力(86.5%)这五项能力上已经超越了GPT-4.0 Turbo,在代码能力(81.2%)、多模态能力(78.4%)上仍然有进步空间。

  “代码能力是我们非常关注的能力之一,因为它涉及未来的产业信息化和信息产业化的核心,而ChatGPT去年2月份通过谷歌二级程序员测试,当时的GPT-3.5用这个测试集只获得了60多分,GPT-4 Turbo今年1月份测试大概在80分,现在到86分,也在快速迭代和进步。”

  “我们预计在今年8月份,讯飞星火会达到现在86分以上的水平。”刘庆峰表示。

  

  现场的演示中对“复杂指令”、“空间推理”、“多模理解”等进行了展示,刘庆峰在现场同时介绍了星火大模型在学习和获取知识方面以及长文本能力方面的提升。

  例如,讯飞研究院院长刘聪在现场为星火展示了四张图片,并要求星火Desk就这4张图片编写一段儿童故事。

  

  讯飞星火V4.0可以按照图片内容的条理清晰地编写出一段流畅自然的儿童故事。

  故事里包含了图片中的各种元素,生成的故事也有着不错的可读性,让人可以直观清晰地获取到想要了解的内容。

  星火此次还了推出内容溯源功能,当用户向星火提问并得到回答后,还会得到这样回答的原因及参考了什么文献的哪段内容。

  

  在刘聪询问“西游记中,悟空一共被念了几次紧箍咒”的问题,星火就会在给出答案的同时、罗列对应文本的摘要以及原著中的对应内容。

  “这样当我们没有时间看全文的时候,只要去核实它的溯源就行了,这使得大模型的’幻觉’得到极大的降低。”刘庆峰强调。

  而在大模型落地到教育场景来看,此次有两个重要的更新。

  02

  批改作业进入AI时代

  “我们一方面提升大模型底座能力,一方面进一步提升多模态能力,尤其是面向教育复杂场景的图文识别效果,使我们能够给学校的老师和孩子们做得更多。”

  刘庆峰介绍了其进校最新产品“星火智能批阅机”。

  据介绍,智能批阅机具有智能批改、学情分析、个性作业三个特质。可以帮助老师进行批改减负、减少对学生学情的统计的分析,方便老师在作业讲评时进行分层辅导等等。

  “这个批阅机可以自动批改,把老师批改消耗的精力释放出来,让老师只看那些他应该看的错误点,批阅机通过批改自动地找出全班学习情况,给出分析,给出每个孩子学习路径的规划,而且能够软硬件一体化。”刘庆峰解读。

  现场演示环节,刘聪介绍整个机型包含了扫描、打印、触屏操作等等配置。

  

  老师拿到学生作业后放到扫描机进行整体逐张扫描,一分钟可以扫描90份作业,适合老师在课间快速操作。

  扫描后屏幕上会显示已批阅和批阅中、以及不同学科的内容。