谷歌Gemini 的出现或将打破现有大模型格局。

原生多模态AI大模型或更适合教育,谷歌称Gemini数学、物理等方面超越人类专家

2023-12-08 13:21:54发布     来源:Gemini    作者:王上  

  来源|多知网

  作者|王上

  图片来源|Gemini

  12月6日,谷歌宣布将推出其认为规模最大、功能最强大的人工智能模型Gemini(双子座),试图超越OpenAI。尤其是Gemini的演示视频在全网刷屏,引发热议。不过,评论两极分化。

  即便如此,谷歌母公司Alphabet股价周四大涨超过5%,报收每股136.93美元。

  谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一份新闻稿中表示:“这是令人难以置信的势头,然而,我们才刚刚开始触及可能性的表面。这个新时代的模型代表了我们作为一家公司所做出的科学努力之一。”

  谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上表示,这是第一个在解决数学、物理、历史、法律、医学和伦理等某些基准方面超越人类专家的人工智能模型。

  谷歌称Gemini是多模态的,即可以同时识别视频、图像、文本和语音。不过, Gemini 暂时只会以文本、语音或代码形式回复。

  根据视频演示,Gemini与ChatGPT最大的不同是,可以在线上和线下进行多模态的交互。在此之前,各大模型的多模态并未完全实现。

  DeepMind创始人、Google DeepMind首席执行官Demis Hassabis接受《连线》杂志采访时提到,Gemin是“原生多模态”,而其他大模型是“近似多模态”。意思是“Gemini从一开始就是多模态的训练,而其他模型是视频、图像、文本和语音等单独的模型,然后拼装到一起。”

 

  在视频演示中,工作人员在纸上画了一只蓝色的鸭子,Gemini马上能识别出是一只鸭子,但它很快说这只鸭子的颜色不真实,然后,它还给出了“鸭子”在全球的不同发音,包含英语、法语、中文等语言的发音。Gemini还展示了在杯子转换游戏中追踪球,识别手影戏手势,重新排列行星素描等。