注册| 登录
手机版 关注微信
您现在位置:中国创新教育网 >> 教育资讯 >> 教育视点 >> 浏览文章

朱松纯:什么时候才能出现人工智能的“中国时刻”?

来源:知识分子 作者: 朱松纯 已有0人评论  2025/2/23 9:37:41  加入收藏

出路:探索数据背后的因果与价值

接下来我解释PG+和PG++这两个关键概念,这也是我们取得跨越式发展、找到出路的重要原因。

到了2008年,科学家在PG0阶段对图像的探索和创造到了一个“百花齐放”的时代。我曾经的同事、来自麻省理工大学(MIT)的安东尼·托拉尔巴(Antonio Torralba)曾经创建了一个网站叫做LabelMe,意为“给我打标签”,这个网站让人们在上面打标签,他们只在乎两种标签:场景类数据(Scene category)和物体类数据(Object category)。每一个节点其实就是一个任务,这在当时是颇具影响力的一项研究。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 18 张

图18 来自麻省理工大学(MIT)的安东尼·托拉尔巴(Antonio Torralba)曾经创建LabelMe,意为“给我打标签”,用来收集场景和物品数据

另一个例子是“图网”(ImageNet)。他们在图片本身的解译工作中更加看重对物体的分类,大约分了1000个类别。这项尝试后来也变得很流行。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 19 张

图19 对图片解译的探索已经到了一个瓶颈期,研究只能在PG0框架内“打转”

但是我想强调的是,这些努力都是在一个PG0的框架内做尝试,科学家们此时并没有跳出对图片里内容的解译,顶多是从不同角度在“场景”“物体”“物体关系”上着力,这个阶段对“智能”的认知在今天看来确实比较狭隘,如何走向通用人工智能,需要从更深刻的角度去思考。

当技术来到一个瓶颈期,科学界就会存在大量的争论和分歧。这就好比科学家们的面前有一扇门,大家都想要跨过这扇“通用人工智能”之门,需要正确的钥匙。我认为,想要找到通往“通用人工智能”的大门钥匙,需要先知道困住当下的究竟是什么,需要认识到当时图片解译这一套逻辑的局限性。

第一个局限性是大量物理和社会变量该如何标注的问题。物理学家认为,我们可观察的物质和能量只占宇宙总体的5%,剩下的95%是观察不到的暗物质(Dark Matter)和能量。这些变量包括在社会现象中,人的意图和想法等。且不同于统计学中的潜在变量(latent variables),潜在变量是客观的隐藏变量,而“暗物质”常常是主观的、唯心的、内化在社会环境中的。人类能够感知到这些变量,但机器无法识别,更无法直接标注这些内容。 

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 20 张

图20 用传统打标签方式无法满足多样的标注需求。当标注了“电话”一词,系统就会自动认定图片中的物体就是电话,但现实生活中,电话不仅仅是个物体,图片中的人会展示拿起电话、拨号、接听等任务,此时系统可能没法精准识别电话

第二个局限性是图像和场景的解译与具体任务高度相关,光靠标注这种“一刀切”的方法,是没法应对复杂多样的现实场景的。任务是无限的,并且与智能体的具身性有关,因此标注变得非常困难。正如马尔所说,“the more you look, the more you see”,也就是说,感知到的内容取决于观察者想做什么,也就是观察者的价值,中国古话更简明扼要,即“相由心生”。例如,标记一个电话,简单地用一个框将电话框柱、打个标签,系统就记录和认定该物体是“电话”——这是传统大数据驱动范式的做法,但在真实场景中,具体的标注方式取决于任务,比如拨号或接电话时,人需要接触电话的不同位置,接触的位置不同,标注方式也理应不同。传统方法无法满足这种多样的标注需求。

第三个局限性是我们不仅希望进行简单的标注,更希望实现图像的理解。理解(Understanding)这一过程非常复杂,不同学者对此有不同的讨论。一些学者认为需要定义语义,而语义依赖于任务、因果关系和价值系统等。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 21 张

图21 计算机视觉的三种表达方式

计算机视觉中有三种和“理解”相关的表达方式:

第一种是以视图为中心的(view-centered),基于二维图像的外观;第二种是以物体为中心的(object-centered),即基于几何进入三维场景;第三种是基于任务的(task-centered),即从智能体的角度来理解世界。

当时大多数研究以视图为中心,依赖数据驱动。我们希望能够转向任务驱动,以智能体为中心。

认识到现有方法的局限性还不够,还需要提出解决方案。当时就“如何实现通用人工智能”这一问题,领域内不同学者各执一词,一定程度上也反映了经验主义和理性主义之间的矛盾。2010年,在美国自然科学基金委的推动下,就这一问题召开了一场学术会议,我应邀发言。发言之前,我让我的大女儿画了一幅画。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 22 张

图22 爬树与捞月能否登月?

如果说,实现通用人工智能就相当于登月,是一个非常困难的任务。有人会说“只要我爬得足够高,我就能够到月亮”,所以这些人去爬世界上最高的树,去登世界上最高的山,试图够到月亮。资助者看到这些人每天都能在树上、山上快速上升,就会很高兴。但是因为无论树还是山,都是有尽头的,这个尽头离月亮还是十万八千里的。当然也有人会去选择水中捞月、乘坐热气球,但是真正实现人工智能,去达到“登月”的高度,肯定是要造航天飞机的。只不过在现实生活中,制造航天飞机去登月,经常被短视的人们误以为是“不靠谱”的,很难获取信任,还要坐很多年“冷板凳”。

实际上,通用人工智能“航天飞船”的构建,不是单一部件、单一路径去实现的。人工智能技术经过几十年发展与分化,形成了计算机视觉、自然语言处理、认知推理、机器学习、机器人学与多智能体六大核心领域为主构成的复杂系统。其内部结构之复杂,其研发道路之艰难,不是“大数据”+“大模型”+“大算力”这种纯经验主义路线能够解决的。如果把实现通用人工智能比作“登月”,目前大数据路线正在前进的方向相当于“攀登珠峰”,虽然有机会登上珠峰也是很了不起的成就,但是这和达成登月的目标相差甚远。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 23 张

图23 “小数据、大任务”范式获得了学术界的广泛认同

后来,我提出了“小数据、大任务”范式,获得了学术界的广泛认同。我认为,人工智能研究中存在两种范式,一种是“大数据,小任务”,目前基于深度学习的很多大语言模型即属于此类,其特点是需要极大的数据,但只能完成有限任务,不能对应现实的因果逻辑,无法泛化,类似善于学舌但无法进行认知推理的鹦鹉,你教一只鹦鹉大量内容,它才能说有限的几句话;另一种是“小数据,大任务”,其特点是小数据、无监督,可以泛化,类似能在复杂情境中进行认知推理的乌鸦,仅仅靠示范几次,就能完成一整套任务。

因为此范式的提出,我们还获得了一些项目。我们的第一个DARPA(美国国防部高级研究计划局,简称DARPA)项目(2010-2015年)专注于图像解译。通过层层解译图像,我们成功生成了文本,用自然语言描述图像。这一项目成为后来视觉问答(VQA)模型的原型。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 24 张

图24 美国-英国 联合AI研究团队 MURI 2010-2015,MURI 2015-2020 (美国国防部部长办公室资助),跨多个人工智能学科:计算机视觉、机器人、机器学习、认知科学、神经科学、统计学、应用数学。团队来自:Berkeley, CMU, MIT, Stanford, Oxford, UCLA, UIUC, Yale 等大学

第二个DARPA项目(2015-2020年)则聚焦于场景理解,涵盖语义解译,并进一步探讨了对物理和心智的理解。我们的主要目标就是通过一系列跨学科交叉研究,将计算机视觉、机器人、机器学习、应用数学、神经科学、统计与应用等各个领域专家聚到一起,探索出一条通用人工智能的统一理论。

我们很快发现PG0阶段的技术已经不够“智能”了。因为我们意识到,在现实中,当人看向一张图片的时候,可能想到的并不是只有眼睛看到的,其中包含了很多“想象”成分。上面这张图片中有人在做“倒水”这个动作,虽然看图的人并没有看见水,但是他能因此想象得到,水壶里是有水的,图片中的人想要喝水,这些信息量都没有在图片中直接体现来,而是隐含在图片背后,并且能够广泛被人们理解。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 25 张

图25 在IEEE上发表的论文《从图像解析到文本生成(From Image parsing to text generation)》, Proceedings of IEEE, (Yao et al,2010)

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 26 张

图26 看图的人即便没有看到水,但是因为看到了倒水的动作,

所以人会判断“水壶有水”“图片中的人要喝水”这些信息这对图片解译的意义非常重大。从此开启了PG+时代。

在“PG+”的解释框架中,很多图片中不能肉眼可见的“暗物质”(dark matter)蕴含其中。例如物体的功能(functionality)、物质的机理(physics)、意图(intent)、因果关系(causality)和价值观(values)。你看不到人的价值观,看不到物理世界的因果关系,而这些都是深植在世界的运行中,是人类社会的“约定俗成”。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 27 张

图27 在原有的PG0基础上,图像解译的维度和空间被拓展,图像解译新时代到来

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 28 张

图28 在“砸核桃”这张图片中,有对空间、时间和因果的感知

在我们看来,图片虽然是一个平面,但是蕴含了超越图片本身的信息量。以这个“砸核桃”图为例,看图的人不难想象到,在这个瞬间发生之前,核桃要被拿起、放下、对准、砸碎,这是一种对时间的感知;榔头的抬起、落下,这是对空间的感知;因为“砸”这个动作的发生,导致核桃碎了,这其中有对因果的感知。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 29 张

图29 社会智能包含能够对现象或行为进行推理的能力

到了PG+阶段,我们觉得还不够,最终延展到了社会智能(social intelligence),它被我们称为PG++,其范围远超出了PG0和PG+。人是社会性的动物,人会与他人、与外界环境产生交互,认知也会由此发生变化,在这个过程中,人会产生对某些行为或现象的推理。

想象一下,当你在教室里演讲,这时候有人举起了倒计时牌子,提醒你时间快要到了,但你没有看见,这时有位看见倒计时的观众冲你挥挥手并将手势指向了倒计时牌。你可能会下意识地去看他手势指向的方向,从而看到了倒计时牌。这样一个过程至少包含了你脑内以下推理过程:“他对我挥手”“他指向了一个方向”“他在提醒我什么”“那是倒计时牌”“我演讲剩下的时间不多了”“我要加快速度了”。所以,这个过程分解来看,是个很复杂的过程。

社会智能一般包括信念(belief)、意图(intention)和社会性推理(social reasoning)等。可以说,人类作为智能体在“看”这样一个看似简单的过程中,其实在内部做了很多自上而下的决策,从高层次的认知出发,看图或者分析场景时做了很多从社会智能到暗物质,再到场景和物体本身的思考。关于PG++的研究是很匮乏的,也是我们进行进一步探索的动力。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 30 张

图30 PG++是比PG0、PG+更高一层的阶段

我们认为,在这个包含PG0、PG+、PG++的系统中去构建智能,才是把智能的“版图”拼完整了,即除了考虑视觉本身,还要考虑隐藏在背后的、人的内在要素和社会的内在机制,才能真正迈向通用人工智能,才能在时间、空间、因果上构成一个完整的智能体任务体系。

朱松纯:什么时候才能出现人工智能的“中国时刻”? 第 31 张

图31 通用智能体的构建必须考虑暗物质和社会智能的存在,要在时间、空间和因果上构成一个完整的体系

沿着这条通路,我和研究团队不断拓展着对视觉大数据、对人工智能、对通用人工智能的边界,完成了对个体意义上通用人工智能体的底层逻辑搭建。然而,这就像爬一棵树,世界上有那么多树,那怎么办呢?在这个从PG0到PG+、再到PG++的框架下,搭建一个可以被广泛使用的平台,自然成为了我和团队的下一个任务。

0
0
关键字:

 最新文章

 热门文章

关于我们| 版权声明| 联系我们|免责声明| 网站地图

中国创新教育网 版权所有:站内信息除转载外均为中国创新教育网版权所有,转载或摘录须获得本网站许可。

地 址:潍坊市奎文区东风大街8081号    鲁ICP备19030718号     鲁公网安备 37070502000299号