来源:知识分子 作者: 朱松纯 已有0人评论 2025/2/23 9:37:41 加入收藏
新标:全球首个AGI评级测试标准
2024年,我们研发了首个通用智能体"通通",这一成果入选"中关村论坛重大科技成果"。通通突破了传统人工智能系统仅关注具体任务的局限,展现出更接近人类的认知特征。她具备基本的物理常识和社会认知,能在价值驱动下完成无限任务,并具有自主定义任务的能力。这种能力是通用智能的核心特征,也是人类从儿童时期就开始发展的基本能力。
图32 全球首个通用智能人“通通”入选中关村论坛重大科技成果
以通通为基准,我们进一步开发了全球首个通用人工智能测试评级标准与平台——通智测试(Tong Test)。该平台借鉴人类婴幼儿发育评估标准,构建了基于能力(U系统)和价值(V系统)的评测框架,同时开发了复杂的物理场景模拟和社会交互测试环境。
图33 研究团队在2016-2019年之间,将丰富数据导入VR环境,用来搭建虚拟场景
图34 运用语言评估系统和以任务为导向的模拟器,构建对智能体的测试
平台建设经历了系统性的发展过程。2016年至2019年间,研究团队致力于构建高度逼真的虚拟场景。我们将丰富的环境数据导入VR系统,通过深度学习和任务规划实现智能体与虚拟环境的有效互动。同时,建立了完整的语言评估系统和任务导向型模拟器,形成了智能体测试的基础框架。目前,该系统能够模拟多样化的现实场景,包括办公楼、社区、学校等复杂环境,为智能体提供全面的测试条件。
图35 在2024年中关村通用人工智能论坛上发布的通智测试(TongTest)
通智测试的核心是其评价体系,即"V系统"和"U系统"。这一评价体系的设计深深植根于对人类智能发展的研究。实验表明,人类的价值体系是与生俱来的,在婴幼儿身上就能观察到其雏形。例如,3-4个月大的婴儿已经具备基本的因果推理能力,能够识别魔术,即不满足因果常识的物理现象;18个月大的婴儿能够识别他人意图并做出回应。此外,研究还发现,人类能进化出大量的价值判断。比如图中这个实验,12个月的婴儿看到了两个成人在分配玩具,会倾向于选择分配“公平”的成人一起玩。8-12个月大的婴幼儿对于相似族裔的偏好要胜过对“公平”这一价值的偏好。也就是这个阶段的婴幼儿会在“公平的人”和与自己族裔相同的成人之间选择相同族裔者。这些研究发现为构建人工智能的价值评估体系提供了重要依据。
图36 12个月的婴儿参与测试,倾向于选择更加具有“公平”特征的成人
图37 8-12 月大的婴幼儿参与测试,相对具有“公平”特征的成人,更愿意选择相同族裔成人
图38 人的需求既包括生理和安全这类基础需求,也包含着的人类价值和社会因素,构建智能体价值体系时,需要以人类价值为基准,构建分层分级的价值体系
在价值体系(V系统)的构建中,我们采用了分层分级的架构,借鉴了马斯洛需求层次理论和施瓦茨价值观理论等经典心理学理论。价值系统分为五个层级:基础自我价值、高级自我价值、多智能体交互价值、基础社会价值和高级社会价值,涵盖了从基本生存需求到高阶社会价值的完整谱系。
图39 价值驱动:除了关于自身的价值驱动,人还具有与他人相互作用产生的价值,以及在社会中作为利益共同体的价值
图40 通智测试的能力测评系统,按照从L1到L5的顺序,对能力要求的难度逐渐增加
能力评估系统(U系统)则构建了视觉、语言、认知、运动和学习五个维度的评估框架。每个维度设置了五个能力层级,随着层级提升,任务复杂度逐渐增加,对智能体的要求也随之提高。例如,在语言能力评估中,从最基础的词语理解发展到复杂的多主体交互推理;在运动能力评估中,则从基本的自主运动发展到高级的社会互动能力。
举个例子,评估智能体语言能力时,第一层级就是理解词语,第五层级就得实现推理和理解多人、多智能体交互;评估运动能力时,第一层级需要智能体控制自身运动,到了第五层级就包括社会交互与价值流动。这只是一个简单说明,实际基于通智测试出版的书籍《通用人工智能:标准、评级、测试与架构》超过200页,其中设置了86项能力测试,并进一步衍生出更大量的任务测试,累计任务指标多达上百项。
图41 《通用人工智能:标准、评级、测试与架构》形成了标准化、定量化和客观化的完备评估体系
图42 能力系统与价值系统相互作用,价值驱动能力系统产生行为,能力产生的行为与外界相互作用,又能够构建价值系统
在这个评估体系中,价值系统和能力系统紧密关联、相互促进。智能体基于内在价值驱动外在能力,通过与环境的互动反过来强化和完善其价值体系。这种动态平衡与人类认知发展过程高度类似:价值导向推动行为表现,行为体验反馈强化价值认知。
图43 通智测试UV评价系统,两个系统又各自分5个评价等级,构建了完整的“双轮驱动”评价体系
至此,通智测试完成了它“价值”与“能力”的“双驱动评价体系”。这个体系将能力空间和价值空间进行联合考虑,设置了5个通智测试等级(Level 1-5),进而形成了一套基于能力与价值双系统的通智测试评级理论。它建立的任务强调实用性、可测量性及与人类智能发展一致性,成为挑战传统理论的范式,弥补了传统理论缺陷的典范。智能体能够在通智测试中通过完成任务进行测评,能完成的难度越高,最终就能够实现U(能力)和V(价值)越高的融合程度,就越接近真正的通用智能体。
不仅如此,我们还提出一套标准来阐释我们的UV评级框架,即“四论标准”,在人类社会中,我们常会因评价标准单一而陷入困惑:是看“他做了什么”,还是看“他为何这么做”?这种“论迹不论心”的争论,不仅存在于对人的评价中,也同样适用于人工智能的评估。一个 AI 系统即便表现优异,但如果其动机不明、推理不合理,能否信任就会成为问题。为解决这些困扰,TongTest 提出了“四论”标准阐释 UV 评级框架,从“论绩、论迹、论理、论心”四个层次出发:
第一个层次是"论绩",也就是考察最基本的结果。这就像考试打分一样,首先要看答案对不对。
第二个层次是"论迹",关注行为过程。比如,一个AI系统即使给出了正确答案,如果是靠随机猜测得出的,那么这个过程就值得打问号。这就像老师不仅要看学生的考试成绩,还要观察他们平时的学习态度和解题思路。
第三个层次是"论理",检验推理过程是否合理。举个例子:解数学题时,即使最后答案对了,如果计算步骤错误,就说明这个解题过程不可靠。现在很多AI模型就存在这样的问题 - 虽然能得出正确答案,但中间的推理步骤却常常出错。
第四个层次是"论心",审视AI系统的价值观和动机。这是Tong Test最高层次的评估。因为即使一个AI系统能得出正确结果,推理过程也很严谨,但如果它的价值取向有问题,可能会带来严重后果。
TongTest 的“四论”标准通过“论绩”夯实基础,“论迹”剖析行为,“论理”保障推理可信,“论心”聚焦价值观正确,层层递进、环环相扣。这一标准不仅是技术突破,更是伦理实践的积极探索。它就像为 AI 量身打造的“体检报告”,不仅关注身体健康(结果与行为),还深入检查大脑(推理能力)和心灵(价值观)。只有在“四论”都达标的情况下,AI 系统才能真正令人信任,并在未来社会中实现长期可持续发展。
从生物进化的角度看,智能体的发展遵循一定规律:大脑容量的增加往往带来智能水平的提升。这背后是基因选择、物种演化等复杂过程的结果。一个智能体的智能水平由三个系统决定:认知架构(Cognitive architecture, 字母C表示)、能力系统(Potential Functions, 字母U表示)和价值系统(Value System, 字母V表示)。尽管人类在某些具体能力上可能不及其他物种,但正是这三个系统的综合优势使人类成为最高级的智能体。基于此,通智测试致力于构建一个能够涵盖并超越现有智能体能力上限的评估系统。
图44 从数学的角度,可以将所有智能体看作CUV作为变量的函数。C代表认知架构,U代表能力系统,V代表价值系统。人比黑猩猩、猴子这样的动物要高级,尽管人类的运动能力可能不如黑猩猩和猴子,但是从整体上来说人的CUV比黑猩猩、猴子的CUV整体上要高,所以综合来看人的智能程度是要高于这些动物的。要达到能测试智能体这个目标,就要站在最外圈这个“点”上,即认知架构、能力系统、价值系统都超越现有智能体上限的这个位置去建构,去寻找智能体的“公倍数”
通智测试的创新性主要体现在三个方面:
首先,它采用无限任务框架。无限任务指的是在通智测试中,任务的数量是无限的。我认为,一个智能体需要完成无穷无尽的任务才能称之为“通用”,真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务。在以往传统大模型的设计中,智能体任务是由专一任务转向多任务处理的,任务的数量是“叠加”起来的,这种叠加的方式带来一个问题:要叠加到多少任务,才算真正的“通用人工智能”呢?如果100项任务算是“通用人工智能”,那么出现第101项任务怎么办?所以任务的数量不能是绝对数,而是要满足任务“无限”涌现才可以,只有像通智测试一样,任务是无限的,才能够实现真正优秀的泛化能力。
其次,它重视自主任务生成能力。人们憧憬着有朝一日智能体能够很好地融入人类日常生活,这就需要智能体可以根据外部环境事件和自我内在状态的变化,随时随地自动产生各种各样的任务,这也意味着在投入实际场景前,智能体能够应对和现实生活一样的随机要求。但是,如果智能体的运行完全依赖人类预设的任务目标,即便拥有海量训练数据和全面规则,仍然无法很好地应对未经训练的特殊情况和意外事件。例如,当孩子正拿着一个对他来说颇具危险性的小物件,没有经受过该物件数据训练的智能体能否自主识别出该任务的不合理之处并形成保护孩子安全的新任务?
为了应对这种情况,智能体需要具备自主定义任务的能力。当智能体处于开放环境时,它需要依据自身价值判断并自主设定任务,甚至可以进一步通过实际观察和体验来学习,逐步累积经验并塑造认知。这是通智测试的第二个特点。
最后,它强调价值驱动和人类对齐。通智测试的价值体系(V系统)是它的核心组成部分。为了让智能体自主生成并完成符合人类需求的任务,通智测试融入了人类的基本价值观,使智能体有能力学习和理解人类的价值偏好,并最终实现与人类价值的对齐。这意味着通智测试不但从功能上完成对智能体的测试和评级,同时还能保证被测试的智能体有足够的、能通过人类社会安全“红线”的能力。
图45 通智测试与其他测试对比优势明显
这些创新点对通用人工智能领域意义非凡,也让通智测试具有明显比较优势。
其他智能体测试往往有以下缺点:
第一,任务复杂度不足,主要基于在特殊设计的环境中的对话/图像/操作,而没有在人类世界中复制物理和社会互动。第二,主观偏见与缺乏量化。不同的人有不同的主观判断标准,缺乏对不同智能体之间的量化评估。第三,缺乏价值测试,只有能力测试。第四,缺乏对自主任务生成的测试,只有人类指定的任务。
现在我们再来讨论讨论AGI的现状,近些年,随着人工智能的迅猛发展,尤其是自ChatGPT4发布以来,社会各界人士对人工智能的未来形态或者说通用人工智能愈发关注,行业内的高校与企业也频频聚焦通用人工智能,然而 AGI的定义、评级与测试依旧没有达成共识并严格提出。制订一个严格的 AGI 定义和定量评级标准与测试平台是一个世界性的科学难题,我们列出了近年来国内外知名团队所提出的AGI内容并进行比较。
表 国际知名平台在通用人工智能定义、分级与测试的比较
现阶段,围绕AGI定义、分级与测试的内容有以下三种情况:
①传播广但浅尝辄止,如OpenAI提出的AGI五阶段,然而我去搜索时发现OpenAI官方并未发布相关报告,所有消息来自2024年7月彭博社(Bloomberg)报道了OpenAI的内部传闻,只给出了五行话以粗糙概括AGI的五个阶段;
② 严谨深入但仍无法给出答案,如Google DeepMind在2024年发布了一篇paper,它比OpenAI更全面地对AGI定义、分层与测试进行了阐述,深刻分析了其中的困难性,原文认为remains an open research question。举一个例子,Google DeepMind对AGI分级时对第二级的定义是“熟练成年人的第50百分位”,这是不能直接拿来用的,光是这项层级指标就涉及两类模糊问题:如何定义并建模熟练成年人?机器与熟练成年人如何比较(即它提出的50百分位)?
③ 给出了可行的方案但只解决单点问题,如之前走红的ARC-AGI任务,建设性地提出简洁的任务,评估复杂的抽象与推理能力,引发了人们对通用人工智能的思考。然而,它的着眼点相对单一,这一测试还不足以全面覆盖通用人工智能测试的所有维度。
对比后我们发现,尽管国内外多个平台已从不同视角对通用人工智能的定义、分级和测试进行了探索,但并未解决“给出严格的AGI定义和定量评级标准与测试平台”这一世界性的科学难题。
通智测试则采取了一种全新的策略,为通用智能体的实现设计了一套顶层测试方案。 通智测试的设计全面考虑了通用人工智能的关键特征,填补了通用人工智能评测的空白。这不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系,而且能够为人工智能的安全治理问题提供积极的解决方案。
图46 图灵测试无法准确衡量人工智能的智能程度,通智测试弥补了图灵测试方法的局限性
从实用性来说,在通智测试标准化、定量化和客观化的评估体系下,政府可针对不同水平的智能体制定不同的监管准入机制,对于规范化通用人工智能的发展具有重要参考意义。另外,通智测试的评级机制还可以为通用人工智能的科研路径提供明晰可靠的路线图,协助相关领域的研究者找准科研道路上的前进方向。
构建通智测试平台,形成全球首个AGI评级测试标准体系,就是对我开头提到的那几个问题的“答卷”:
到底多“通用”才算是通用人工智能?我的回答是“能力与价值都与人类对齐”。通用人工智能需要完成多少项任务?我的回答是“无限任务”。如何评估智能体的进步?我的回答是“能力与价值双驱动,分级评估”。以什么标准评估智能体的能力与价值水平?我的回答是“基于四论标准:论绩、论迹、论理、论心”。
到2024年,莲花山研究院已经成立20年了。我们从图像大数据出发,现在火热的大数据、大模型这条路我们也走过,但我们最终还是坚定地选择和践行了“小数据、大任务”的研究范式。我坚信这一份在科学创新中的理智和冷静:坚持不“随大流”,坚持长期主义,坚持人工智能与人类价值对齐的本质,做困难且正确的事。
我们在实现通用人工智能路上一直在不断探索,不断重构,不断创造,不断再出发。赓续“莲花山”精神,建立基于价值的通用人工智能体系,独立自主地实现中国通用人工智能,将是包括我在内的中国科学家的责任和不懈追求。
思考:思想自主与叙事权争夺
在当前通用人工智能(AGI)发展进程中,"大数据+大算力+大模型"的发展路径已成为一种根深蒂固的思维定式。这种认知框架的形成源于深度学习在多个领域的成功实践,同时也受到大型科技公司持续投入和商业成功案例的强化。随着GPT系列、DALL-E等大模型的出现,这种发展路径似乎获得了更多支持。然而,这种思维定式可能过度简化了AGI发展的复杂性。
1.主导的叙事与战略布局
在这种思维定式下,一种特定的叙事体系逐渐形成。芯片算力被视为决定性要素,数据规模被认为是核心竞争力,模型参数量成为衡量技术进步的关键指标。资本市场将算力基础设施投入作为重要的估值参考,媒体持续关注算力规模和硬件升级,企业则竞相发布更大规模的语言模型。这种叙事不断强化着既有的发展路径。
这种叙事背后是西方主导的战略布局。美国通过政府与企业的协同行动,构建了一个系统性的叙事框架。在政策层面,2023年4月设立"白宫人工智能特别顾问"统筹国家AI战略,9月国防部启动"AI曼哈顿计划"整合科研资源。在产业层面,OpenAI、Google等科技巨头不断强调其在算力芯片与AGI研发的优势地位,将技术门槛塑造为"难以逾越的鸿沟"。这种叙事得到资本市场的积极响应,进一步巩固了美国在全球AI领域的主导地位。
在学术领域,西方的话语主导权同样显著。NIPS、ICML等高水平学术会议的投稿和评审长期由欧美学者主导。2024年诺贝尔物理学奖授予神经网络领域的开创性研究,不仅是对Hopfield和Hinton个人成就的肯定,也强化了西方在AI基础研究方面的学术影响力。这种学术话语权的集中,某种程度上限制了全球AI研究的多样性发展。这种西方主导的叙事通过主流媒体和社交平台得到广泛传播,国内媒体的跟风报道更强化了这种影响。
2.思想自主是科技创新的前提
面对这种情况,中国需要建立独特的发展路径。中国思想体系是在五千年文明发展中积淀而成的智慧结晶,其特点是"心"与"理"的统一,强调推己及人的价值判断。这种思维方式为AGI发展提供了独特视角:不仅关注技术本身,更重视其与人文价值的融合。从上古时期的河图洛书,到儒、道、法等各家学说,再到理学、心学的发展,形成了一个完整的价值认知体系。
图47 中国思想的“五彩线”模型
注:最上层列出了时间标尺,以 1000 年为刻度,中国有超过 5000 年的文明史,这里显示从公元前 3000 年到公元 2000 年。接下 来的一层是中国的朝代,再下面是典型的思想,如上古时期的河图、洛书,之后的周易,儒、墨、道、法,禅宗,理学,心 学等。再下面是代表性人物,如伏羲、孔子等。再下一层是一个“五彩线”的模型,其中一些关键时间点做了标识,如公元前134 年出现董仲舒以及“罢黜百家、独尊儒术”。最下面列出的是其他文明对中华文明的影响:它们对中华文明的影响不是一蹴而就的,而是有个过程,用不同颜色的曲线表示;线条的长短近似表示思想流传的时间,但不能也无需过分精确,线条的颜色是随机选择的;公元前 800 年—公元前200年的所谓的轴心时代特意标示了出来。
基于中国思想的AGI发展模式,应该突破单纯的数据驱动,转向更综合的范式。这包括提出"小数据、大任务"的技术路线,强调效率与价值;构建融合"心"与"理"的通用智能体系;注重人机共生的智能社会构建。在具体实践中,如北京大学武汉人工智能研究院开发的社会模拟器,通过"价值驱动"算法研究不同治理模式的效能,开创了人文社科研究的新方法。
图48 全球首个大型社会模拟器(大科学装置)
发展中国特色的AGI道路需要强大的文化自信。这种自信体现在深入挖掘中华传统文化中的科学智慧,推动古今中西的深度对话与融合,构建具有中国特色的技术评价体系。通过这种方式,中国能够在AGI发展中提供独特的价值主张:不是简单追求技术领先,而是致力于构建一个更富人文关怀、更具普世价值的智能文明范式。
此外,中国还应该充分发挥自身优势。庞大的应用市场、丰富的场景需求、完整的产业链,这些都是发展人工智能的重要基础。通过建立独特的发展范式和价值体系,中国能够在AGI发展中贡献独特的方案。
构建自主的发展道路并非意味着封闭。相反,中国应该在保持技术自主的同时,积极参与国际对话与合作,推动全球AI发展的多元化。这不仅有利于打破现有的叙事垄断,也能促进人工智能技术的健康发展。
总的来说,突破西方主导的叙事框架,建立思想自主的发展道路,是中国AGI发展的关键。这需要学术界、产业界和政策制定者的共同努力,在认清现实的基础上,探索符合中国特色的人工智能发展之路。
中国创新教育网 版权所有:站内信息除转载外均为中国创新教育网版权所有,转载或摘录须获得本网站许可。
地 址:潍坊市奎文区东风大街8081号 鲁ICP备19030718号 鲁公网安备 37070502000299号