戴AR眼镜发言全网爆火!“硅谷鬼才”祝铭明的人机交互思考

AI时代信息展示和交互将遭遇瓶颈AI时代是科技发展到今天为数不多的一次巨大时机,人与科技的关系正在发生180度的转换,科技开始为人服务。其中必然有一些深层次的代价,诸如伦理问题、安全性问题、信息准确性问题、主导权问题。但纯粹从人机交互和人机体验的角度看待,AI会带来一个前所未有的变化。它的本质变化在于人们不需要通过学习科技去享受科技,而是从第一天起,科技就反过来了解我们、学习我们,学会为我们服务。但是,人类获得信息的效率越来越高,当同时获取文字信息、图像信息、视频信息甚至更复杂的空间信息时,就会发现信息的展示和交互变成了瓶颈。

提到人机交互的多模态,就不能仅仅指语音,也一定包括视觉以及读脑等技术。信息终端和信息科技的核心问题就是解决两个问题;第一,如何让人们更自然、更方便、更平等地获得信息;第二是如何更丰富、更有效、更自然地展现与这些信息的沟通。人们经历的所有信息终端的革命,都会在二者里找到映射,这就是Rokid要去做的事情。

Google glass的启发

Rokid自成立第一天起,主要做两件事:第一件事是AI,第二件事是AR。2012年Google glass发布会上,我第一次见到眼镜形态的产品,当时就认为这个产品的潜力很大,但技术上还需要演进。2014年Rokid成立,进行了一系列的技术演进。大家可以想象一下5年以后,掏出手机看信息将成为辅助行为,不再是主要行为了。如果变成我们每个人戴的眼镜就拥有这种展现力,将会是一次巨大的进步。

VST&OST:两种技术方向

技术的研究方向也很有意思。2024年2月,Apple发售Vision Pro,方案路线是VST,Video See Through。这一方案路线认为脱离接触是不对的,还是要跟真实世界进行互动。发展路径就是在前面加一个摄像头,把外面的世界用摄像头记录下来,然后传到产品之中显示出来,这种的视觉效果更好。

Rokid的方案路线是OST,Optical See Through,希望人们用肉眼看到真实的世界。今天,VST跟OST并行发展,没有谁对谁错。VST有个好处,当人们想隔绝世界的时候,可以选择进入数字世界,不想的时候可以拿下来再进入真实世界。但它的问题在于,个人不会有什么感觉,而旁观者会感觉唐突,因为个人进入数字世界时是一种隔离的状态。OST的好处是,它总体会让你感觉跟周围的环境没那么唐突,表现出来更自然,它的坏处是技术还没有VST那么完整。但如果放长远看,未来也许是OST的天下。我个人认为,未来真正的玩家会同时拥有VST和OST,不同的场景选择用不同的产品,大家自己去思考哪个产品更合适。

AR产品的不同发展路径

AR的发展经历了不同的时代,从工具时代到内容时代,大家可以看到整个的象限:我们最终的目的是希望走到第一象限,即日常佩戴,内容也很丰富。这是理想状态,还需要5年到10年的时间去发展。Rokid现阶段有不同的产品,比如第三象限是典型重工业使用的,Rokid基本上形成了垄断。在第二象限里面,全国大概200多个省级博物馆都有Rokid眼镜。

我觉得,第三象限最终可能还会继续存在,因为不同场景有不同的特殊需求,但是其他两个象限都会被第一象限合并掉。如果发展到日常佩戴体验非常好的一天,就只会剩下一、三象限,第三象限就会变成特别专业的,如X-Craft,人类历史上第一个登上太空服役的AR眼镜就是Rokid的产品,使用在天宫一号上面。但是重工业领域使用的产品与老百姓日常生活关系不大,所以平时人们关注的更多的仍是第一和第二象限的东西。

AR的产业发展,其实可以理解为移动互联网产业重新做一遍。所以,大量的技术、生态以及硬件、软件、材料等等都有机会重新去焕发,最后有一个巨大的一个变化,显示、芯片、光学、声学到材料、外观、设计诸多的东西都会不断地发展,这是非常值得关注的。

AR时代:五个重要的组成

AR时代由五个重要的部分组成,即感知、理解、交互、协同、数字内容创作。

第一部分是感知,通过半导体、传感器技术感知这个世界的原始信息。

第二部分是理解,感知到这个世界之后是如何去理解它,理解原始信息与周围环境的关系。

第三部分是交互,即信息的展现方式。过去,人们组织和展示信息的方式实际上受硬件技术约束。人类跟其他动物一个巨大的区别是人具有抽象能力。我们对信息的展现和组织能力有限,所以我们的抽象能力非常好。人类花了几万年时间做了一件事,就是把真实的世界抽象成符号。信息展示方式的变化是技术变革引发的,随着技术的变革,内容的展现方式、组织方式就会不同。短视频领域有一个概念叫瀑布流,瀑布流就是解决用户因屏幕有限而只能一张一张看的问题,到了AR时代,当你的能力扩张到十几倍二十倍的时候,整个商机、信息展现和交互方式都会发生质的变化。

第四部分是协同,即可以不在同一空间进行协作。最典型的例子是电影《Kingsman》,所有人戴上一个眼镜就可以开会,实际上他们不在现场,有的是真人,有的是数字人。

第五部分是数字内容创作,即追求更大空间更为立体生动的展现方式。有一个游戏叫掌中宝,会生成内容很详实的虚拟生物形象,甚至动物的肌肉组成、骨骼化石和生长环境。但是数字内容创作十分困难,平面的创作已经很不容易,立体的创作更难,成本要更高,所以数字内容创作一定要注意保护产权,防止被盗版。

预见AR+AI时代的来临

交互是要解决人对信息的平等获取和自由获取。当人们要记住一堆概念,掌握一些流程,并通过一系列的培训,才能够获得信息服务的时候,这是不公平的,这些流程都在不断地抛弃所有人。所以Rokid提出了Leave Nobody Behind,让每一个人都享受科技。

理论上来讲,戴上Rokid眼镜后,如果对某一件衣服感兴趣,用户只需要盯着它一会,这件衣服的信息就都出来了,避免用户询问的尬尴,甚至用户还可以做比价。未来,大家不需要通过学习,眼睛看在哪儿,就可以获取哪里的信息。

Rokid在2021年推出了一个技术,为各个高档小区的保安配备眼镜。因为保安的流动率很高,而保安是所有业主用户体验的第一层,很多业主刚和保安熟悉了,过段时间又换了个人,就很麻烦。如果保安带上Rokid的眼镜,从很远的地方就可以知道业主来了,知道他们住在哪栋楼,就可以和业主主动打招呼,即使这个保安是新来的。这种方式会改变整个的社区关系,非常有趣。

所以,当我们去体验和理解一个产品的时候,我并不希望大家过多地去思考技术是什么,能力是什么,而是要考虑场景是什么,如果有一个产品可以为保安和业主提供服务,即使这个保安不喜欢戴眼镜,他也会选择一副。当产品的能力和体验好到一定程度的时候,人是不会拒绝一副眼镜的。

在今天的AR时代,人跟真实世界会有一个巨大的变化。现在很多人在聊天或者对话的过程中,手机一响就会去看,实际上每个人并不知道自己已经跟这个世界产生了一种非此即彼的关系,当人进入数字世界时,不得已要与物理世界割裂。有的时候两个人坐的只隔了一张桌子,也习惯于通过网络信息进行表达,这就是改变。

Rokid是一家软件平台公司,为什么要做硬件?因为软件和系统平台需要扎实的硬件做基础,才能展现它自身的能力,这个行业我们做的太早了,那时候找不到如此基础的东西,只能由自己来构建。有些人会提出,可以等技术成熟之后再去做,这是大部分的创业者和从业者的思考,但实际上,从来没有一个完善的技术像魔法一样突然出现在大家面前,一定要带着发展的眼光去看,要接受所有技术的不成熟,唯一思考的问题就是当技术、产品不完美的时候,用什么样的场景去匹配它。

AR技术最早来自于军方,现在阿帕奇直升机上,驾驶员头盔上有个设备,看着哪里导弹和枪就攻击哪里,威力非常大。二三十年前这一技术的成本是多少?仅显示屏大概就20万美金。Rokid通过多年技术的沉淀,对于产品和消费也起到了积极作用,我们在消费端的产品仅仅卖3000多元,这是一个巨大的变化。

Rokid的技术,从最早的科研、军方到工业、展陈,从toB到B2C到toC,它经历的时长大概是多少?是从2019年到2024年的4年多的时间。未来整个行业进入一个爆发期,所以2024年之后的世界发展要看AI+AR,一定要相信,这个时代已经到来了。

好产品就是比用户预期高一点的产品

作为CEO,我的主要时间都花在产品上,而不是在卖东西上。从一个Idea的产生到最后产品的出现,中间要经历千差万别的很多东西,甚至有可能最后的产品跟开始的Idea完全不一样。例如,公司原来的AR Studio前面是有个摄像头的,但是我发现用户真正在使用过程中使用手势的时候,因为抬得太高导致上臂不舒服,最后我们决定把摄像头下调20度,这样操作可以让用户保持更久的时间。这就是一个典型的例子。

我每天的工作,就是解决成千上万的问题,并且要做各种细小的决策,这就是做产品的人的乐趣,同时也是我的痛苦。乐趣是永远有很多东西等着去解决,痛苦的是永远不知道解决了这个问题会带来其他哪些问题。

很多人会抛掉用户谈鉴赏力,比如拼多多,到底是消费降级还是消费升级?没有一个绝对标准,还是要把用户放进去。鉴赏力就是直面用户需求,在解决用户的需求的情况下,考虑如何做得更好。对于很多创业者而言,大部分人连第一个问题都没回答好,根本没有解决好用户的问题,更谈不上在解决了用户问题的基础上做得更好。大部分真正解决用户问题的人,通常都已经做的很好了。

对于创业者而言,要关注的是目标用户是谁,用户对产品的期待是什么,如果你做的产品比用户的期待更高,用户就会感觉不错。对于用户来讲,比期望值稍微高一点就是最好的产品定义,这不是一个绝对的概念。这里的前提是,你要清楚用户的期望值在哪。

低于用户的期望值,只能走低价策略,降低期望值最简单的方式就是降低价格。例如,同样买一个电视,你的电视屏幕有点小,但是价格只有1000块钱,用户也会选择忍让购买,这就是降低用户的期望值。但这不是Rokid想做的事,我们希望在明确目标用户期望的情况下,做的比用户的期望值高一点,但不要高太多。埃隆·马斯克说的第一性原理,这就是我们的第一性原理。

用户需求的基本线到底在哪?抛掉品质,抛掉其他的因素,用户到底需要一个什么样的东西?先给自己一个业务产品的定位,如果你定得低,就要降低用户的期望值,拉高基本线是很难的,因为人群消费和自身的观念以及过去的经历是有关系的,没有办法突然通过一个品牌、一个产品,将用户变成另外一个层级的人。所以,在定义好用户和基本线的情况下,把产品做得超出一点点,比如超过10%,可能是一个比较不错的务实想法。

在今天的市场里面,比如淘宝或者Amazon上看我们的产品,你会发现它的定价都遵循了这个决定。我们做过很多实验,最后发现这个价格总体是不错的。

Rokid有很多技术,可以把产品打扮得很酷,但是我们对消费者产品定义的很简单,叫个人的私享助理,私人享受的一个伴侣。用户可以在家用它看球赛,在高铁上自己看电影,戴上它并没有脱离跟外面的接触,但同时也在享受自己的东西。我们在产品上做了三件事:第一件事,超大的屏幕。第二件事,非常容易使用。我们消费端的产品跟家里的遥控器一样容易操作。第三件事,内容足够丰富。用户在消费端可以找到抖音、B站等所有产品,以及海外版本的Google、Ecosystem。

虽然Rokid的定位非常简单,但实际上Rokid已经进入了空间计算时代,多屏互动、手势识别、空间交互等等,但如果把这些东西放在这里,就会离原来的用户基本线过远,所以现在还在B2C的一个阶段。对于创业者而言,要直视基本线的定义,不要回避它。创业者会有一些Ego,对产品有自己的定义,这个Ego可以有,但要基于自己真实的客观用户,基于你能服务的用户人群,和跟你最匹配的人群。

常见问题

AR眼镜的VST和OST技术路线有什么区别?

VST(Video See Through)方案通过摄像头记录真实世界并在设备内显示,视觉效果更好但会让人与真实世界隔离;OST(Optical See Through)则让用户直接用肉眼看到真实世界,表现更自然但技术尚未完整。两者并行发展,未来真正的玩家会同时拥有这两种技术。

Rokid的AR产品在哪些领域有应用?

Rokid的AR产品矩阵覆盖工业元宇宙和消费级市场,为油气电力行业提供5G防爆头戴设备,在重工业领域形成垄断;同时推出全球最轻消费级眼镜实现观影办公场景突破,并在全国200多个省级博物馆进行展陈应用。

AR时代由哪五个重要部分组成?

AR时代包含感知(通过传感器获取世界信息)、理解(解析信息与环境关系)、交互(信息展现方式)、协同(跨空间协作)以及数字内容创作(追求立体生动的展现方式)五个核心组成部分。

Rokid如何定义一个好产品?

Rokid认为好产品是比用户预期高一点的产品,关键在于明确目标用户的期望值,在解决用户需求的基础上做得更好但不要高太多。这需要直面用户需求,基于真实用户人群定义产品基本线。

为什么Rokid作为软件平台公司要自己做硬件?

因为软件和系统平台需要扎实的硬件基础才能展现能力,这个行业起步较早,找不到成熟的基础设施,只能由自己构建。技术从来不会突然完善,需要带着发展的眼光接受技术不成熟,并寻找匹配场景。

AR眼镜如何改变人机交互体验?

AR眼镜让人更自然、平等地获取信息,例如用户只需盯着商品即可获取详细信息,避免询问尴尬;保安佩戴后能远距离识别业主信息改善社区关系。它解决了信息展示和交互的瓶颈,让人不再需要通过学习科技来享受科技。