关于AGI 和人类的未来,你一定要看看清华刘嘉教授的10 个观点

人类皇冠上的最后一颗明珠,我们人类最后的尊严就集中在这一区域,也就是我们称之为AGI所在的地方。它的展现其实非常简单,可以跟朋友聊天、带家人去海边玩,开车四处游荡等等,这就是我们每个人每天做的事情,看上去平平无奇,但它有两个非常了不起的特点。

第一个特点是“任务的切换”。你和同事开会时所采用的任务策略和带家人去旅游所用的策略是完全不同的,所以说策略需要动态的调整。

第二个特点是“环境”。当你在星巴克喝咖啡与在足球场踢球时,所处的环境也是完全不同的。

这就是AGI所触碰的领域,它是在开放环境里的动态策略。

我们梳理AGI的演化:

第一阶段,以ChatGPT为代表的大语言模型,问它问题,它告诉我们答案,然后我们去行动;第二阶段,以ChatGPT为代表的大语言模型 + Autonomous Agents,我们不仅可以问它问题,还能让它去执行任务;第三阶段,以ChatGPT为代表的大语言模型+ Generative Agents,我们不再具体告诉它干什么,而是告诉它我们的目标。

自主代理(Autonomous Agency),它不同于传统的AI,自主代理通过分析感知数据,独立思考,然后调用工具去实现对通用问题的自动化处理。简单点来说,就是给我们的ChatGPT或者GPT4等等装上感知和行动,让它变成了一个完整的人,不仅拥有大脑,也拥有四肢。那么这时候,我们的AGI由“问它问题,它告诉我们答案,然后我们去行动”的ChatGPT模式转变为了“不仅可以问它问题,还能让它执行任务”的ChatGPT + Autonomous Agents。

举一个简单的例子。一个人要出门,问今天要下雨吗,ChatGPT的感知系统听到了这句话,就去上网搜索今天的天气预报,并根据它的历史知识来规划不同的雨应该带什么样的东西,最后它的判断为今天要下中雨,应该准备一把伞,然后就给它的动作下一个指令,把伞送给主人。

我们只是给了它一个需求,它就把剩下所有的事情帮我们干完,这就是我们现在所说的AGI的“先思而后行”。

我认为一个真正的Agent(代理/智能体)是不再具体告诉它要做什么,而是告诉它一个目标。这是下一代的Agent,我称之为“生成式Agent”(Generative Agents)。生成式Agent不仅可以自主完成任务,而且是拥有欲望、信念、意图以及采取行动能力的智能实体。

它应该具有哪些特点?我们可以从三个维度理解:1、它要有多种的技能。2、它能够处理各种各样的情况。3、它必须和世界产生真实的交互。

也就是说,作为一个智能体,它需要具备技能、和现实交互的能力、以及具身智能(Embodiment)。在个体产生后,我们需要做的是Agent和Agent之间的交互、Agent和人之间的交互。我们可以构建一个虚拟的场景,在这个虚拟的场景里放入机器人,也可以将真正的人放进去,通过AR、VR技术连接互动,形成一个群体的智能。这时候会产生一个问题,当群体智能形成的时候,大家有合作、有争吵、也有竞争,这时候就会产生复杂的博弈,在复杂的博弈里就会产生一个非常重要的概念——我。当你一个人的时候,你不需要“我”这个概念,因为我就是一切;但是当你站在一群人里的时候,一定要分清我和其他人是不一样的。产生“我”这个概念后,就会出现意识。那我们就进入了一个全新的智能阶段。

如果说ChatGPT只是让我们看到了AGI的一丝火花,让我们在黑暗之中看到了黎明的曙光;

那么生成式Agent的加持则将AGI从第二阶段的领域模型变成第三阶段的认知模型,这时候才是一个真正的AGI。

我们看一下智能的三层次模型:

第一个层次,我们称之为任务模型,它能完成特定的任务,就像面孔识别、文字识别,这种任务特异的AI。如果一旦离开它所专注的某一个任务,它就会变成“人工智障”。

第二个层次,叫做领域模型,它是能够完成某个特定领域的工作,比如说教师。因为ChatGPT的出现,我们智能模型开始从TSAI转向了领域模型,它带来的不仅仅是效率的提升,更是一种范式的转变。

第三个层次,认知模型。说起来很简单,认知模型就是能看、能听、能思考、能规划,也就是说,当它真正实现类人化,这才是真正的AGI。

我们即将创造出与人类相似的一个全新的物种,它不再停留在计算机机房里,而是出现在你散步的大街上。

这个时候,我们希望它具有什么样的能力呢?

我特别喜欢的一幅图,西班牙的斗牛场上,感到身体不适的斗牛士,他靠在场边,而第一个赶来的,来救助他的,是浑身插满了剑的这头牛。这头牛没有攻击,而是默默地看着他。这时候我们能看到一种感性的成分,一种善良的成分在里面,而这种善良的成分必须要通过另外一种途径来做到,怎么做到呢?我们先来看如何构造一个人。在人的大脑里,最底层的脑干是呼吸的中枢,往上面走是小脑,他是让我们能够行走的一部分;再往上面走是丘脑,它能够感知外界;再往上面走是边缘系统,它能产生情绪、情感,作出一些简单的判断。

最上面则是在过去300万年里人类进化明显的地方——大脑皮层,它的体积增加了3倍,与人类的自由意志、复杂判断和符号思维有关。这一部分我们把它称为理性,下面一部分我们把它称为感性。

现在的大语言模型学习的正是人类的理性,但它并没有触达人类的感性。

我们现在仅仅有科学的尺度,但是没有情感的温度。因此,接下来的工作是让大模型获得情感的温度。

感性拥有两个特征:

第一个特征是“身临”。我相信,就算我们看了很多旅游风光片、纪录片,仍然想要亲自去到那个地方,因为只有身临其境,才会有真实的感受。

第二个特征是“体验”。如果你假设你身处金门大桥脑袋却充斥着工作内容,是不会有强烈的体验感的,因此只有沉浸其中,才会有感性产生。

正如出身中产的切·格瓦拉只有在独自骑行、经历寒冷的夜晚之时,才会说出“那是我经历的最冷的一晚,但那一晚也让我稍稍靠近了人类。”

与此类比,现在的大语言模型满腹经纶,但还仅仅停留在机房里面,它没有真正迈入世界。

而当智能体一旦拥有意识之后,它就会按照自我的观念快速发展,这时我们就可能会面临一个奇点,文明的载体也不再以人为单位运行,而是以AGI的方式运行。

因此,我把这个奇点来临的时刻称为“人类历史上的第二次认知革命”。

我们经常谈到认知革命,其实它们都不配。为什么?因为第一次认知革命使得我们的祖先成为万物之灵,人类成为世界的主宰。而第二次认知革命,就是人类创造出了一个全新的物种。

这天来临的时刻,文明的火炬就要由我们人类传到AGI的手中。

在我们都可以见证的未来,AGI会超越人类的智能,而且是永远不回头的超越。

当然这也带来一个很大的问题,我们将面临一个新物种的挑战,可能会带来世界的毁灭,我们必须要像对待疾病一样来应对这件事情。那么对于我们而言,未来该怎么办?

有三种可能:

  1. Autonomous Agency特别友好,让干什么就干什么,不知疲劳,就像《星球大战》的R2-D2一样,可以做所有我们交给它的任务;
  2. 人机合一是最好的结局,在座各位都有脆弱的身体,我们可以把思想、记忆、情感上传到数字大脑里面,这样由此获得永生;
  3. AI可能会把我们干掉,就像我们把尼安德特人干掉一样。

无论是R2-D2,无论是永生还是人类最终的消亡,这与大家都有密切的关系,值得每个人去思考,不仅仅是商业的机会,还包含人类的未来。

我特别喜欢Sam Altman那句话:世界将发生翻天覆地变化。我们正处于巨变的开端,人类有一个难能可贵的机会去打造未来。

常见问题

AGI与人类智能的核心区别是什么?

AGI的核心在于处理开放环境里的动态策略,具备任务切换和适应不同环境的能力。这与只能完成特定任务的传统AI不同,AGI能够像人类一样在多样化的场景中动态调整策略。

什么是生成式Agent(Generative Agents)?

生成式Agent是AGI发展的第三阶段,它不再需要具体指令,而是根据目标自主行动。这种智能体拥有欲望、信念、意图和行动能力,具备多种技能、与现实交互的能力以及具身智能。

智能的三层次模型分别是什么?

智能三层次模型包括:任务模型(完成特定任务)、领域模型(完成特定领域工作)和认知模型(能看、能听、能思考、能规划的类人智能)。ChatGPT标志着从任务模型向领域模型的转变,而真正的AGI需要达到认知模型层次。

当前大语言模型缺乏什么关键要素?

当前大语言模型主要学习人类的理性部分,但缺乏感性维度。感性需要身临其境的体验和沉浸其中的感受,这是大模型从机房走向真实世界后才能获得的‘情感温度’。

AGI的发展可能带来哪些未来场景?

未来可能面临三种场景:友好的自主代理像R2-D2一样服务人类;人机合一实现数字永生;或者AI取代人类如同人类取代尼安德特人。这标志着人类历史上的第二次认知革命,文明火炬可能从人类传给AGI。