“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

商汤发布多模态多任务通用大模型“书生2.5”

2023-03-15 11:44:46发布     来源:多知网    作者:哆啦  

  多知网3月15日消息,商汤科技日前发布多模态多任务通用大模型“书生(INTERN)2.5”。

  据介绍,“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

  商汤科技表示,“书生2.5”拥有30亿参数,“是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型”。

  “书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

  “书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

  “书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供精准的感知和理解能力支持。例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。此外,其也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。

屏幕快照 2023-03-15 上午11.46.29.png 

屏幕快照 2023-03-15 上午11.35.02.png 

  “书生2.5”同时具备AIGC“以文生图”的能力,还可根据文本快速检索出视觉内容。

  自3月14日起,“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源。(多知网 哆啦)