为什么更适合学生体质?

小白兔来了:BB机?电子宠?轻型硬件的007?

2024-01-12 17:45:47发布     来源:多知网    作者:冯玮  

  来源|多知网

  作者|冯玮

  图片来源|Rabbit公司

  10年前,科幻电影《Her》描述了未来某刻,人机恋爱从甜蜜到破碎的崩溃故事。

  10年后,人工智能井喷发展,不少科幻片的情节开始成为现实——一如《Her》中,主人公手里那个名片夹大小、有摄像头、超薄、可以放在衬衫口袋里的智能手机,有相似形态的新品出现在CES2024开展首日。

  昨天,Rabbit 公司推出了名为Rabbit R1的AI设备:一个通体明亮的橙红色,体积与便签纸相当,重量115克、可以轻松揣进口袋的“掌机”,成为了CES第一个准爆款。

  所谓“爆”,有几个原因:

  1、低调上场——Rabbit在CES本没有搭建公开展台,现场发布会到场人数也是寥寥,但它的直播视频放出后,立刻引爆科技、AI圈的关注和探讨。

  2、剑指手机——这款设备可以在脱离手机、不打开任何软件的前提下,完成不同场景的各种指令,现场演示的包括叫车、放歌、订餐、订酒店,甚至直接帮用户 PS 修图或者 Midjourney 上生成图片。

  3、大模型落地——其自研的Rabbit OS底层是“大型动作模型”(LAM),类似通用控制器;独有的训练模式,用户可以教设备如何执行某项操作,人机互为教练。

  4、超低价——199美元门槛低,现已开始预售,这也比之前热度久久不退的AI Pin发售时间要早。Rabbit R1美国订单计划在今年3月底发货,国际订单则更晚,但当天已经预定出1万套。

  5、过往“最狂创业者”之一——曾经的明星智能硬件公司渡鸦创始人吕聘,以Rabbit的创始人兼首席执行官Jesse再次回归。

  ……

  在一张网传的吕聘朋友圈中,他感慨到:“七年一轮回,重返 CES。七年前,raven H 被《华尔街日报》评为 CES 2018 最佳产品;七年后的 Rabbit R1 秀色可餐,是一款值得细细体验的产品。”

  据公开报道,吕骋在过去两个月内获得了三笔融资,其中包括来自OpenAI的首位投资人、知名风险投资家Vinod Khosla的两轮投资,金额约在两千多万美元,以及韩国互联网巨头Kakao的数百万美元投资。

  三笔融资总额约3000万美元。

  所以,这个自带Hight light出场、又深得资本关注的小兔子到底做得怎么样?

  它又为什么国内外不少声音称其为适合教育场景和青少年的新玩具?

  01

  AI掌机:轻型硬件的007?

  Rabbit虽然面市更早,但却并不是第一个官宣用AI大模型技术加持便携设备的品牌。

  2023年11月,Humane 以699元美金推出了 Ai Pin,并多次强调这将是“iphone 的替代品”。据介绍Ai Pin内置了 OpenAI 的 GPT 模型,用户可以通过触摸板和投影与设备互动。

  Ai Pin正式发布前,就已被《时代》杂志评为“2023 年最佳发明之一”,并获得了来自 Sam Altman,Salesforce 和微软等硅谷巨头超过2亿美元的投资。

  原计划将在今年3月份陆续发货的Ai Pin却在近期频频传出负面信息,包括Humane最近解雇了 4% 的员工,高层变动等等。

  但无论是Ai Pin还是Rabbit,它们的出现本身都为便携设备市场带来了新的形态和探讨——AI时代下的AI硬件,也该有点儿新样子了。

  Rabbit R1外观由被誉为“音乐设备界苹果”的知名瑞典设计公司Teenage Engineering设计,机身通体橙色,它也继承了渡鸦首款智能音箱 Raven H 的设计元素。

  整体机身尺寸为3’’ x 3’’ x 0.5’’,圆角方形,重115克,搭配2.88 英寸触摸屏,支持360° 旋转的AI摄像头。

  这个摄像头也被称为Rabbit Eye,在不使用的时候可以将摄像头移动到上面或下面,这也意味着它可以成为一个更私密的摄像头,也支持自拍和后置摄像以及视频通话。

  侧边保留了最经典的交互载体——滑动滚轮和按钮。其中滑轮可以执行选择、导览等操作,钮作为快捷键可以直接唤出“小兔子”语音助手。

  Rabbit R1内核为联发科Helio P35芯片,运行的大模型操作系统是其自主研发的Rabbit OS。

  当然,它也可以成为一台极简的、没有什么娱乐应用的智能手机——它可以插入4G LTE SIM 卡,用于进行网络连接;但官方介绍中强调,这款设备不是要取代手机,无法拿来来观看电影或玩游戏。

  为什么要做得这么极简?

  一项美国的调查数据显示,平均每部手机安装了80个不同的APP,而每天都会使用的APP平均为 9 个。

  冗余的APP对消费者和开发者的影响是存在的。

  例如,面对同一个需求如订票、外卖等,需要多个同类APP进行对比筛选,也不得不来回切换应用。面对一个流程较多的事情时则需要打开多个应用,例如出门旅行所涉及到的票务、酒店、玩乐、租车或公共交通等。

  在开发端,重复开发和争取用户停留时长的设计也在使得开发端的压力变重,即,谋取更多的用户使用时间以换取更高的流量价值,而不是更有效率地帮助用户实现任务意图。

  在Rabbit看来,大型行为模型 LAM有希望为这个现象带来改变……

  02

  极简、确认、兔子洞

  Rabbit研发团队的目标之一是“创造出世界上最简单的计算机,人人不需要学习就可以直接使用它。”

  简单、不需要学习、直接使用,R1如何实现?

  首先在于底层操作系统。

  Rabbit的专有操作系统Rabbit OS主要基于“大型行为模型”(Large Action Mode,简称LAM)——脱胎于LLM,但更加突出Action。

  区别于LLM学习语言数据、知道用户在“说什么”不同,LAM这种新型的基础模型学习的是动作过程。

  也就是说,传统的语音助手相对擅长处理简单的任务执行,比如开灯、看天气、看数据,但R1的主观能动性更强,基本可以“做主”。

  吕聘在现场,以听音乐、打车、规划行程等角度进行了演示。

  第一步是登陆个人账户,Rabbit同样有一个属于自己的管理平台,名为Rabbit Hole,如同在《爱丽丝梦游仙境》中,爱丽丝跟随白兔掉进“兔子洞”,尽情体验。

  用户可以在这里登录自己的Uber、Spotify、Doordash和亚马逊等各类账户,授权OS在R1通过连接的账户执行操作。

  吕聘特别强调:

  “我们的基础搭建在于交互应用程序,我们不会创建虚假用户或垃圾邮件用户, 我们不会入侵他们的基础设施,我们也不会储存您的任何第三方数据。”

  “相反地,我们会让用户直接登录页面,不保存用户名和密码, 也不会追踪数据。”

  现场展示了播放Kraftwerk的pocket calculator、播放同专辑的另一首歌、分享这首歌的歌词是谁写的,以及哪个乐队采样了这首歌。

  同时,R1还分享了对这首歌的想法。

  通过R1打车,除了可以直接预定从公司到家庭的路线,R1还可以基于“我有六个人三个行李,请帮我找一辆适合我们所有人的车”,推荐相应的打车类型。

  点餐部分,R1的挑战在于除了点一款12英寸的披萨外,还要基于销量最好的订单数据推荐口味。

  整个流程十分丝滑,也只用了几秒钟而已。

  “现在我只需要等我的披萨就好了”,吕聘笑着说道。

  可以回应问题、可以解决问题的R1究竟与小爱、小度、Siri等等的智能设备有何不同?

  同样以叫车为例,Siri叫车是使用官方的Uber API发送相关信息并得到回应,可以理解为是设备与设备之间的信息对接,这对语音助手所能对接的应用数量与质量要求很高,当能访问的API已经过时,必然也会导致连接失败。

  这也是我们常常遇到的。

  语音助手听不懂,或语音助手做不到。

  Rabbit的逻辑是机器模型接受了训练,所以它可以像人一样自主点击链接、进入界面完成整个流程,用户要做的只是“确认”、“确认”。

  单项任务外,R1还能分析用户的完整意图,同时调动多个APP完成复杂操作。

  吕聘给出的指令是:“我想带我的家人去伦敦旅行,两个大人和一个12岁的孩子,计划在1月30日到2月6日之间,我们喜欢便宜的直飞航班、分组座位,需要一辆很酷的SUV和一家有WiFi的酒店。”

  R1快速规划好一切后,吕聘“我只需要点确认、确认、确认,仅此而已。”

  整个流程中,R1制定了详细的规划,包括将探索伦敦的标志性地标,参观博物馆,在当地的餐馆享受美食,体验充满活力的本土分为,导航细节等等,同时可以帮助吕聘预定任何想要参与的活动票据。

  在吕聘表达整个流程太过密集繁琐,需要简单版本时,R1也很快生成。

  与此同时,通过摄像头的识别,R1还可以基于现有食材和用户需求制定对应菜谱——吕聘要低热量美食,R1给出了通过西蓝花、卷心菜、鸡蛋做出的“绿色田园蛋包饭”及制作流程。

  同时,R1还可以处理文件,可以根据要求给excel表格加一栏内容,编辑好后将文件发至邮箱。用户可以查收下载或直接在电脑回复邮件,以此做进一步的修改……

  这些功能外,发布会现场吕聘还介绍了R1的另外一个能力。

  03

  会共同进步的小机器

  “我们也正在实验一种教学模式,一如我可以教我的朋友如何玩滑板一样;我可以向R1展示,R1也可以教会别人。”

  相比于 ChatGPT 等大模型产品,Rabbit OS 有专用的应用载体,有更深入的学习用户使用应用程序的习惯、意图,进而帮助用户简化执行流程——这意味着任何用户、无论技术背景如何,都可以教R1学会一个新技能。

  这项功能在官网的介绍视频里演示了超过三分钟:

  “点击Wild My Own Servers,由于这只是一般的图像生成,我将转到MidJourney文本频道,然后我将使用图像命令和提示符。”

  “在这里我放了一只可爱的小野狗,大眼睛,动画、卡通、虚幻、8K等关键词,让我们等一下,等引擎开始生成图像。”

  “完成后,让我们单击图像以获取链接,然后我会向Rabbit OS解释如何使用这只Rabbit,同时注释它,以便我后面可以生成任何东西。”

  “现在让我们回到我们的门户网站提交需求,门户需要几秒钟来完成处理,就是这样,就是这么简单。”

  因为有大模型的支撑,生成的是某种智能化的模版,而不是设定死的机械动作。

  Rabbit发布后,国内外的不少评论都提到这或许是一个适合学生场景的产品,为什么?我们做了几点猜想:

  1、无游戏、防沉迷,但可以提供多元的工具和最直接的反馈回应,家长放心,学生省时间,没有比这个更好用的工具了。

  2、一如儿童手表大概率是小朋友们的第一台专属智能设备,具有联络功能的便携设备也有极大机会成为小学高年级、初中阶段的青少年专属设备。

  3、娱乐性能比较单一,但可以听歌,国内某面向青少市场的听力机产品,其使用时长前三的软件之一就是听歌,这也符合青少年的娱乐需求。

  4、具备综合工具属性的卡片机市场依旧有较大空间,尤其是搭载了大模型的卡片机,便携、智能、可互动,单价低的话也很容易触及到不同城市的学生群体。

  ……

  如果学生们的很多需求,甚至校讯通都打通交给这个“小玩具”去自动处理,也不是不行。

  每个时代的青少年都曾有独属于他们的赛博玩具:电子宠物、小霸王、随身听、MP3……时至此刻,“数字原住民”们的新掌机好像终于开始展现出AI的气质与魅力。

  那些科幻电影中的场景,真的离我们越来越近了。

  04

  25分钟演讲全文

  以下为Rabbit的创始人兼首席执行官Jesse的现场实录,多知编辑整理了25分钟的全部内容,关于这个小产品的样貌,或许还有些细节值得再慢慢思考:

  大家好,我是Rabbit的创始人兼首席执行官Jesse。

  很开心站在这里向你介绍我们一直在努力的两件事:革命性的全新基础模型,以及由它提供支持的开创性消费类移动设备。

  我们的使命是创造最简单的设备,如此直观的东西,你不需要学习如何使用它。实现这一目标的最好方法是脱离来自基于应用程序的操作系统,一如目前由智能手机使用的那样。

  相反地,我们设想了一种以自然语言为中心的方法,我们正在构建的产品,我们称之为伴侣,应该能够交谈、理解,更重要的是为你把事情做好。

  人机界面的未来应该更直观。

  在我们开始之前,先让我们看一下现有的、每天都在用的移动设备——你口袋里的智能手机。

  无论是苹果还是安卓手机,这些产品已经在市面上出现了很多年,我们或许早已对它们有些厌倦。

  但这些厌倦不一定来自于硬件设备,而更有可能来自于软件内部,基于应用的操作系统——想搭车去公司,用这个软件;想买东西,用另一个软件。每次你想做某件事的时候,你需要搜索和浏览多个页面去找到对应的软件,每次都要点击很多次。

  添加到购物车-跳转下一页-选中目标-来回切换,等等等等。

  智能手机本该是直观的,但今天你的手机上有数百个应用程序,它们却并没有一起工作。如果你现在去确认应用商店中靠前的应用,你会发现大多数人专注在娱乐上。

  我们的智能手机已经成为消磨时间的最佳设备,而不是拯救时间,这使得专注做一件事变得更难。

  之前很多人都试图建立一个更简单的、更具有人工智能属性的直观智能设备,比如苹果、微软、亚马逊等公司,通过智能设备把Siri、Contana和Alex带到我们身边。

  通常,它们要么不知道你在说什么,要么难以完成我们所要求的任务。

  而大模型在语言方面所获得的成就或LLMs让设备在理解我们这件事上变得更加容易。LLM聊天机器人在前几年的流行也已经证明,基于自然语言的体验是我们前进的方向。

  但是,当前这些语音助手依旧在吃力地帮你做事。

  比如你去ChatGPT并使用它们的Expedia插件预定机票,它可以给出选择和建议,但无法帮助到你完成从头到尾的预定过程。但像ChatGPT这样的产品非常擅长了解你的意图,这有可能更容易触发操作。

  在研究领域围绕着他们所谓的Agent,它引起了许多开源项目和生产软件公司的关注,亟待解决的是Agent如何准确、快速的实现端与端之间的任务执行。要强制模型执行任务,它毕竟不是为语言模型而设计的,只能使用超级Prompt或屏幕截图来推理网页内容。

  我们还没有产出一个像用户一样只需要点击按钮即可实现任务的Agent。

  为了实现我们对直观的、使人愉悦的伴侣的愿景,我们必须超越复杂的软件堆砌,我们希望它可以直观地掌控在每个人的手中。

  所以我们先要从根本上理解计算机应用程序的结构,以及人类是如何与它们互动的。

  我们想找到一种方法,让我们的人工智能可以代表所有环节、环境下的用户,自己触发选项。我们希望它是通用的,而不仅仅是一个Chrome插件或有限的应用程序集。

  但一切的一切,iOS、Android等等的应用程序有一些共同点:

  界面,它们都有一个用户使用界面,如果我们能让人工智能像人一样,触发动作在任何类型的界面上,我们也就相应地解决了这个问题。

  这种洞察力是我们创建了大型动作模型,也就是我们提到的LAM,它可以理解并在计算机上执行人类的需求指令,由我们对神经符号系统的研究进行驱动。

  使用大型动作模型,我们从根本上找到了对应挑战的方法,即挑战应用程序、API等问题——用交互来解决——LAM可以从任何软件中学习任何对接模式,无论它们在哪个平台上运行,即大语言模型可以理解你说的话,大行动模型可以完成任务。

  我们使用LAM将AI从语言转化为行动。

  我们可以构建一台设备去理解你想说什么,本质在于可以帮助你、代表你做任何事。

  我们打包了大动作模型进入我们自己的Rabbit OS操作系统,它是为你和由LAM驱动的Rabbit之间实时互动而设计构建。

  大型动作模型和测试结果是如此强大,由此我们决定制作一种移动设备——R1,您的口袋伴侣。

  R1与Teenage Engineering 合作设计,由自然语言驱动的独立设备。来自我们研究、设计和软件团队无数个小时的累计,呈现出它的极简使用。R1为你配备了你所需要的一切,准备好随时与你互动并可以感知周围的环境。

  它带有触摸屏,一键通按钮和模拟滚轮,麦克风与扬声器以及支持360° 旋转的 AI 摄像头,我们称之为“兔眼”,它支持蓝牙、wifi,并具有与手机一样的电话卡卡槽,支持全球4G LTE网络。

  现在让我们看看它是如何工作的:

  我可以对R1提出各种指令,就像我们使用ChatGPT一样。

  其区别在于速度,适用Rabbit OS我们的响应速度提高了10倍,区别于大多数语音AI项目,Rabbit在500毫秒内回答我的问题,适用一键通按钮,你不需要说什么就能唤醒它,只要按住按钮,就可以像对讲机一样说话。

  现在让我们试一试。

  现实的本质是什么?

  现实的本质这个话题吸引了很多哲学家和历史上的思想家的注意,根据罗素的说法,现实由庞大的数据组成,源自于感官经验和逻辑分析,它是我们感知、思想与外部世界的融合。

  我还可以用R1说话或打字。

  摇晃R1就会有键盘弹出,在这里你也同样可以感受到它的响应速度远比某些LLM助手的应用程序要快得多,例如ChatGPT。

  可口可乐的股价是多少?

  搜索可口可乐股价,当前为59.76美元。

  谁在诺兰的最新电影中扮演了奥本海默的角色?

  墨菲扮演了奥本海默的角色,这是一部纪传体电影,探讨了美国科学家奥本海默的故事,他的工作参与到了美国原子弹的发展进程中。

  现在再让我们看看大动作模型是如何工作的,借助LAM,Rabbit R1可以代表各种应用与用户进行交互,我可以通过 The Rabbit Hole界面登录不同的服务商相应解锁R1的不同功能,一如iCloud。

  通过the Rabbit Hole我可以激活并控制所有我想在R1上使用的功能,以及我偏好的供应商。

  比如对于音乐,我更喜欢使用Spotify,先让我将Spotify连接到Rabbit。

  这是Spotify的登录界面,在我登录前我想强调下我们对安全隐私的承诺,我们的基础搭建在于交互应用程序,我们不会创建虚假用户或垃圾邮件用户, 我们不会入侵他们的基础设施,我们也不会储存您的任何第三方数据。

  相反地,我们会让用户直接登录页面,不保存用户名和密码, 也不会追踪数据。

  身份验证只发生在相应的应用程序上,现在我开始将Spotify连接到Rabbit,Rabbit OS自动识别出后,也相应地在我的设备上通过了身份验证。

  本次演讲前,我提前验证了一些程序,例如Uber、Doordash,只需选择您想要的服务和功能并通过它们登录以获得身份验证在你的设备上,就这么简单。

  现在让我们播放一些音乐,播放Kraftwerk的pocket calculator,播放同专辑的另一首歌,这首歌的歌词是谁写的,哪个乐队采样了这首歌,你觉得这首歌怎么样……

  (此处为R1现场体验,暂不转录文字)

  我还可以用R1打车,请帮我约一辆回家的车。

  当然,我会为你预定Uber,路线是从公司到你家。请确认乘车。

  我有六个人三个行李,请帮我找一辆适合我们所有人的车。

  建议选择Uber XL,因为它为所有乘客和行李提供了充足的空间,请确认乘车。

  路线出来了,我只需要点击确认,Uber在来的路上了。

  我还可以点餐,请为我买一个12英寸的披萨,从必胜客送达到这里,选应用程序上订单最多的选项就好,

  既然你提到应用程序上订单最多的选项,我为你选择的是经典番茄酱手作披萨配奶酪,请确认订单。

  现在我只需要等我的披萨就好了。

  我还可以让R1为我完成一系列更为复杂的操作,这本来在智能手机上需要多个应用程序才能完成。

  比如,我想带我的家人去伦敦旅行,两个大人和一个12岁的孩子,计划在1月30日到2月5日之间,我们喜欢便宜的直飞航班、分组座位,需要一辆很酷的SUV和一家有WiFi的酒店。

  搜索票务选项中,实现您的旅行需求,我找到了一些航班选项以及酒店和骑车租赁服务商,请分别确认每个选项并了解更多详情。

  这一切都已被计划好,我只需要点确认、确认、确认,仅此而已。

  可以帮我列一个时间表规划我在那边玩些什么吗。

  我为您的旅行制定了详细的规划,例如您将探索伦敦的标志性地标,参观博物馆,在当地的餐馆享受美食,体验充满活力的本土分为,导航细节也已相应准备就绪,我可以帮你预定任何你想要参与的活动票据。

  这个表格规划似乎有点太详实饱和,可以帮我计划个简单的时间表么?

  它给了我每天更简单的时间表和细节。很酷吧。

  R1可以像手机一样帮我联系他人,但比手机更加智能,它有内置的实时翻译器和备忘录,用来消除沟通的最后障碍。R1可以自动检测对话者所使用的语言并提供双向翻译。

  R1的摄像头用于高级计算级别的视觉识别,它可以分析周围环境并实时采取行动,想要唤醒摄像头,只需要双击按钮即可。

  Rick,在这里见到你真的很有趣……(此处Rabbit识别并开始播放歌曲)

  这是我在冰箱里可以得到的素材,可以帮我做一道低热量的美食么。

  蛋包菜怎么样,这是一道美味且低热量的菜谱,使用了新鲜的西蓝花和卷心菜,有鸡蛋和奶油味,这里有一份简单的菜谱供你参考。

  它识别了所有东西并给我制作出了菜谱。

  摄像头还可以帮助你处理文档,这是我一直在为工作问卷所做的表格,你能否帮我创建其他列,在问题“如何找到我们的”中,把提到Rabbit的内容进行摘取匹配。

  我已经处理了表格,并向您发送了含有表格的邮件。

  我可以直接回复这封邮件,可以再加一列吗,匹配谁在问题中提到了Rabbit、而且是洛杉矶的选项的候选人。我在Rabbit OS中得到了改进的版本。

  假设我有一个独特的例行公事,或者我现在需要在手机上完成的工作,R1都可以完成。

  我们也正在实验一种“教学模式”,一如我可以教我的朋友如何玩滑板一样,我可以向R1展示,R1也可以教会别人。这意味着任何用户、无论技术背景如何,都可以教R1学会一个新技能。

  只要进入教学模式,今天我将通过Discord的Prompt MidJourney向你展示如何生成图像。

  首先我将转到服务器界面,然后点击“Wild My Own Servers”,由于这只是一般的图像生成,我将转到MidJourney文本频道,然后我将使用图像命令和提示符。

  在这里我放了一只可爱的小野狗,大眼睛,动画、卡通、虚幻、8K等关键词,让我们等一下,等引擎开始生成图像。

  完成后,让我们单击图像以获取链接,然后我会向Rabbit OS解释如何使用这只Rabbit,同时注释它,以便我后面可以生成任何东西。

  现在让我们回到我们的门户网站提交需求,门户需要几秒钟来完成处理,就是这样,就是这么简单。

  现在一旦我们完成训练,就可以回到R1,现在让我们使用MidJourney,以像素艺术风格生成兔子图片。

  请给我一点时间来创建图像。

  通过教学模式,观看、学习和重复,这就是教学模式。

  这就是今天的全部内容。

  说到目前基于应用程序的手机,我们问自己的第一个问题是,如果我已经拥有了一台价值1000美金的iPhone,为什么我还需要一台新的设备?

  我们不会让R1来取代你的手机,这只是另一台设备。基于应用程序的系统是在15年前推出的,新一代原生人工智能设备才刚刚起步。

  最后一件事,价格。

  以上这些是市面上当前比较贵的几款不同系统的手机,对于具有基于应用程序的顶级手机来说,它们的价格在700美元-1000美元之间。我去年买了15 Pro Max,还是一模一样的状态。

  不太智能的扬声器设备,它们的价格在200美元左右。这里面有一些新的东西,适用了大语言模型,得到了AI的支持,要价699美元,加上其他业务的支持费用,Tab要600美元、眼镜300美元。这些东西仅仅用了大模型语音。

  我们还是觉得这样太高了。

  所以Rabbit R1定价199美元,没有订阅、没有隐藏费用、你现在可以再Rabbit.tac上订购R1,我们将在2024年运送。

  迫不及待想要你体验这款产品。

  谢谢。

  END

  本文作者:冯玮