来源:知识分子 作者: 朱松纯 已有0人评论 2025/2/23 9:37:41 加入收藏
局限:数据与统计方法驱动的局限
尽管早在20多年前就感受到了人工智能的“奇点临近”,但我必须强调的是,几十年的探索让我们清醒地认识到,数据与统计方法驱动的人工智能发展道路存在自身的局限性,当时对人工智能的认知与开发还远远不足,到今天证明了,我的想法是对的。为了说清楚这个问题,让我继续从本世纪初的科研实践讲起。
2003年,我们开始超越线画,做真正的图像解译(Image Parsing),这个工作在2003年国际计算机视觉大会上获得了计算机视觉研究的马尔奖。获奖并没有让团队停下思考的脚步,因为从上个世纪90年代最早将统计建模与学习方法引入计算机视觉,我们团队发现统计在对图像理解方面有着越来越重要的作用,所以我决定在湖北鄂州创立莲花山研究院,开启大规模、颗粒度极高的数据标注工作。
2004年,莲花山研究院在湖北鄂州成立,是世界首个大型图像/视频解译数据库,也是中国首家民办非营利性机构,具有划时代的意义。这不仅对我个人的科研生涯至关重要,在人工智能发展史上具有标杆意义的存在,制定了图像视频标注的标准图像解译的测试集,为我国人工智能人才的启蒙、乃至全球此轮由数据驱动的人工智能浪潮,起到了开创性的推动作用。
这个阶段的图像解译不同于以前的单点分割和图像分类,它需要解译整个图像的结构。举个例子,如果给莲花标记,我们不仅给莲花分类,还要标注花瓣、花蕊等所有结构。此外,图像解译还关注物体之间的关系,例如标记一辆被柱子挡住的车时,我们会标记遮挡关系,还会生成图像标签图、子图和三维标记。这是一个非常复杂的过程,所以我们还制定了标注标准,并产生了手册、定义了怎么解析图像的细节。团队后来承接了来自世界各地科研机构数据标注的业务,签订了不少合同。
图10 莲花山图像解译操作手册, 图像的分割、识别与解译。对PG0阶段,即对图像本身的开发程度已经到了完整的程度
到这个阶段,也就是我们现在可以称之为“PG0时代”的时期,人工智能技术对图像本身的解译可以说是非常成熟了。大家可以看图中的这个小三角形,其中的红色节点(nodes)都已经被填满了,这表示,此时技术能够达到对图片本身的解译没有“死角”的程度,通过“分割”(segmentation)“对象检测”(object detection)和“三维构建”(3D construction)等技术,已经能够对图片画面有充分理解。
图11 对图像的三维解译。这个时期,技术对画面上包括物体、场景等要素的“理解”已经很充分
到这个阶段,也就是我们现在可以称之为“PG0时代”的时期,人工智能技术对图像本身的解译可以说是非常成熟了。大家可以看图中的这个小三角形,其中的红色节点(nodes)都已经被填满了,这表示,此时技术能够达到对图片本身的解译没有“死角”的程度,通过“分割”(segmentation)“对象检测”(object detection)和“三维构建”(3D construction)等技术,已经能够对图片画面有充分理解。
值得一提的是,莲花山研究院还是人工智能生成内容(AIGC)应用的诞生地之一。我们开发了一种将结婚照转化为油画的技术。我们想,每年有数百万对新人结婚,可以将油画作为独特的纪念品或礼品。这也是我们最早的产业创新之一。
图12 图片意为“从图像解析到绘画渲染”。将结婚照转化为油画作为新婚夫妇的结婚纪念,成为我们最早的产业化尝试之一
将结婚照转化为油画的技术依赖于我们在30年前提出的、用于纹理合成的模型,这可以算是世界上最早的生成式模型。目前流行的大模型GPT是pre-trained model(预训练模型),在30年前我们将其称之为prior learning(先前学习)。现在广受关注的生成式对抗网络(GAN),最早也是由我的学生屠卓文开发,后来被国外一些研究团队声势浩大地推广,并更名为“GAN”。
图13 世界最早的生成式模型:(Generative Model) 纹理合成
图14 论文题目意为《先前学习与吉布斯反应扩散》。先验模型(Prior Model)最近被改称为“生成式预训练”(Generative Pre-trained)。最早叫做先前学习(prior learning)和生成图片的“郎之万动力学”(Langevin dynamics for generating images)
图15纹理合成:多层神经网络的产生式模型
莲花山研究院作为中国第一个“科民非”,可以理解为现在的新型研发机构。莲花山研究院的建立开创了国际交流的盛况,当时很多青年学者后来陆陆续续都成了人工智能领域的中流砥柱。
图16 第一届莲花山研究院研讨会合影。很多青年学者后来陆陆续续都成了人工智能领域的中流砥柱
到了2005年,欧洲出现了一个叫“帕斯卡(PASCAL)”的数据集(全称Pattern Analysis, Statistical Modelling and Computational Learning,意为“模式分析、统计建模和计算学习”缩写),它专注于图像分类和分割,是一个非常有名的数据集。这里有个插曲是在2005年,我们开始对外接订单,为美国一些公司标注数据,我们标注得非常准确,价格也比较便宜。当时这个数据集的人找到我们,希望我们标注他们的数据。按照我们的标法,每张图片标注一千多个点,报价是每张照片一欧元。因为对方有数万张照片,所以觉得价格太贵,最后没谈成,他们不再做图像解译,只做分割和分类。
大约也是这个节点,科研风气发生了变化。在后来做单纯的分割和分类这波人中,一部分是传统20世纪70-90年代研究几何的,因为1999年统计建模出现后,这些人陷入了危机,点云(Point Cloud)等技术难以继续,所以他们转向做大数据集分割和分类,组织竞赛和刷榜。2004年之后,“刷榜”文化开始盛行,所谓刷榜,就是一般下载了人家的代码,改进、调整、搭建更快的模块,用一个数据集在不同场景下进行测试、评估和排名,不断地在排行榜上拿名次。但是,这个代码不是自主创新的,实际上对技术进步无益。
记得我们2006年在加州大学伯克利分校召开了一次会议,很多数学家在场,这波专门做大数据的人站起来说:“你不用管有的没的,只需在我的数据集上测试就可以了。”我的导师,获得过菲尔兹奖的知名数学家大卫·曼福德(David Mumford)当时在场,感到了很强的冒犯。这其实背后反映的是深层次的、用经验主义还是理性主义来解决问题的争论。
经验主义和理性主义有什么不同呢?经验主义完全依赖于数据驱动,但数据之外总有例外,世界的复杂性可能远超数据所能涵盖的信息。数据可以帮助我们窥见事物的一部分,但却无法呈现完整的图景。而理性主义则强调科学的美感,比如爱因斯坦所倡导的第一性原理,即通过对复杂世界的简化,找到事物本质,形成普遍适用的理论框架,也就是“大一统理论”。
图17 经验主义的审稿人和理性主义的审稿人产生了对立,凸显了当时解决问题的研究路径出现分歧
说到这里,我讲一个非常典型的故事。2010年,我在一次发言中讨论了理性主义和经验主义的争论。我们当时投论文的时候大概有两类审稿人:经验主义审稿人和理性主义审稿人。经验主义的审稿人通常会要求你在不同数据集上运行你的方法,这些审稿人迷信模型,对理论本身是不感兴趣的、质疑的。就像“如果你真聪明,怎么会不富有呢?”他们会说“如果你的研究方法真的好,那么为什么比不上现在的模型呢?”这种简单粗暴的标准将评判科学成果“是否带来创新、进步”变成了成果“是否符合模型”。其实,就像聪明和富有并无直接关联,能不能在数据集上运行成功,跟成果的创新性也没有必然关系。
对于那些偏好运行数据集的文章,理性主义的审稿人则会说:“你的算法只是在你选定的有限数据集上有效,但对解决真实问题没有帮助。”坚持理性主义的研究者会从理论上证明某个问题不可解,以此作为拒掉文章的标准。因此,经验主义和理性主义的分歧,导致了一个现象,就是当时论文能否被接受,很大程度上取决于论文被送到哪派审稿人手里。现在,经验主义审稿人占据了主导地位,坚持理性主义的研究者就逐渐退出了计算机视觉领域。
我更倾向于理性主义,同时结合一定的经验数据。用通俗简单的话来比较,经验主义就是立足于前人经验,在现有的地基上“垒砖”,我坚持的理性主义更偏向于“轻装上阵”,从一开始就抱定对世界本源、本真、本质的极致探索。明明是在前人经验上“垒砖”更容易,就像做大模型,更容易出成果,为什么我还是这么执着于理性主义、坚持价值驱动的研究道路呢?因为,我认为我们国家已经到了鼓励颠覆式创新的阶段。什么是颠覆式创新?就是你这个技术一出来,之前的很多技术都直接归零了。想要在人工智能这种绝对的前沿领域达到这种结果,你追求的不能是在别人的范式之下做科研,渐进地从1到3,从3到n。我们现在希望实现做“从0到1”的成果,只有这样的技术突破多涌现在这个国家,中国才能成为真正意义上的世界科技强国。
中国创新教育网 版权所有:站内信息除转载外均为中国创新教育网版权所有,转载或摘录须获得本网站许可。
地 址:潍坊市奎文区东风大街8081号 鲁ICP备19030718号 鲁公网安备 37070502000299号