从“价值观校准”到“共同价值观校准”-萃嶺网

随着以ChatGPT为代表的生成式人工智能近期突飞猛进的发展，目前对人工智能（Artificial Intelligence，简称AI）中“价值观校准”问题的讨论如火如荼。研究人员希望将AI的价值系统与人类的价值观进行对准（Alignment），以确保其行为不会对人类造成伤害。这一问题的重要性不言而喻，但具体的实现路径依然很不明朗。翻开目前任何一个关于人工智能“价值观校准”问题的宣言或者草案，你都可以看到各种诸如AI价值观校准要符合（人类的）“价值观”“利益”“自由”“尊严”“权利”“自主”等等在哲学和法学上充满不确定性和阐释空间的词语。而如果看过阿西莫夫在80年前创作的关于机器人的系列科幻小说，你就知道，这种借由语言定义的类似所谓“机器人三定律”的逻辑规则，是如何能轻易地被具有一定智能的机器人所绕过（例如，最简单有效的方法就是改变其自身对“人类”的定义）。

尽管相当多的哲学家和伦理学家在人类整体价值观能否取得一致，或者在追求统一人类价值观的过程中是否会带来正面积极的未来（而不是自我毁灭）方面都相当悲观，但还是有很多人在为这个目标不懈努力着。例如，加州大学伯克利分校的斯图尔特·罗素（Stuart Russell）教授在其《AGI：新生》一书中认为，价值校准的最终目标是“确保强大的AI与人类价值观保持一致”，并从如何最大限度实现人类偏好角度讨论对AI进行完全控制。显然，他的这个目标里也包含人类关于发动战争的价值观和偏好，毕竟人类历史中，在全球范围内没有发生战争的时间段几乎不存在。当然他也明确表达了要确保强大的AI不会被一小撮丧心病狂的邪恶分子所利用，言外之意仿佛是，为了人类“正义”目标和偏好的战争则是强大的AI可以参与的。

另外一些学者，例如DeepMind团队的伊森·加布里尔（Iason Gabriel），则从更哲学的角度提出了三种可能的价值观校准方法。一是校准到人类可能共有的道德观上来，比如“人权”；二是借用哲学家约翰∙罗尔斯（John Rawls）提出的“无知之幕”的方法为AI建立正义原则；三是利用社会选择理论，尤其是民主投票和协商的方式来整合不同的观点，为AI提供参考信息。除了这些将AI视为工具的人本位主义建议，还有一些学者，尤其是东方的学者，例如中科院自动化所的曾毅研究员，更倾向于自然主义观点，主张应该将AI视为伙伴，并认为从和谐共生的角度，应该赋予AI情感、共情与利他的能力，给予AI更高的地位和尊重，让其通过与人类的交互自发学习人类的价值观，从而打造人类与AI的命运共同体。

上述两种价值观校准的角度，无论是人本位主义还是自然主义，都有一个重要的缺陷。对于将AI视为工具，要求其按照人的价值观进行校准的观点来说，它忽视了一个重要的问题，即所有这些价值观校准的出发点都是基于理性人的原则，无论是人权、无知之幕，还是民主协商投票，都是建立在人类推理和思考是完全理性的这一基础上。而当代人类行为科学的研究，尤其是经济学和心理学的大量研究已经证明，人类的行为中，非理性的成分与理性成分共存。在非理性成分中，情绪和直觉占了相当大的比重，由于其在进化上发挥的重要功能，对人类的绝大部分行为都产生决定性的影响。而大部分AI研究者并不知道如何将非理性的部分植入到AI中来，或者直接忽视了这部分。而自然主义的观点虽然认识到了人类非理性尤其是情绪的重要性，却只考虑了其积极的一面，如共情、利他、爱等等，而被忽视消极部分，例如仇恨、愤怒、恐惧、歧视、偏见等，亦占有相当大的比重。

在目前的实际应用中，常见的做法是运用基于人类反馈强化学习（RLHF）方法，将这些非理性的消极部分从AI中剥离出去，但这种方法真的可行吗？如果我们希望AI能理解人类的意图和目标，希望防止人类利用AI完成其消极目标，就必然需要AI能理解消极意图和目标。比如，为了使一个AI拒绝“把这个装砂糖的瓶里装上砒霜，摆到橱柜里去”这种行为，它必须理解人要它这么做背后的目的和意图是危险的、对其他人不利的。这跟它需要理解“把这个标着有毒的盒子里装上蟑螂药，摆到橱柜里去”背后有一个良好意图是同样重要的。要求它学会一个而不去学习另外一个既不可能，也非常危险，这是因为一个无法理解消极价值观意图的AI，当它真正进入社会与人类进行交互时，将是非常脆弱的。如果不赋予其学习功能，它将很快被别有用心的人（很遗憾，人类社会中这种人数量并不少）所用；而如果它学习了这些价值观，结果就另当别论了。

除了以上这些，我认为还有一个更加现实的原因，将使得任何试图对通用人工智能以人类利益为标准进行控制的尝试面临根本上的挑战。

整个地球生命进化史上只有人类拥有符号化的文字系统，实现了跨越时间空间将信息与知识保存并传播给后代的能力。计算机与互联网的出现，更是进一步扩展了交流的宽度与广度。借助互联网和数字图书馆，我们足不出户就可以得到上下几千年，纵横全世界的文字信息，人类个体所能获得的知识，其深度和广度达到了前所未有的程度。但这个知识爆炸的年代，也给人类带来了极大的挑战。人类大脑的认知能力和获取文字信息的速度，已经很难跟上人类群体知识边界扩张的速度。

知识爆炸将人类禁锢在了自身大脑有效认知能力的囚笼中，但未来的强AI则完全没有这个物理限制——得益于强大的计算能力与近乎无限的“体能”，即使学习一遍整个人类互联网上的知识，也只需以月为单位的时间。而最关键的是，一个被人类训练出来、能够理解人类行为之目的和意图的AI，也能够理解这些知识背后的深层次人类意图。也就是说，一个理解人类要他捡垃圾意图的AI，也应该能够理解人类要控制它的意图，因为这种意图已经不止一次、原原本本、一览无余以它能理解的自然语言文字的形式放在了互联网上。

我们现在所写下的每一篇关于如何控制AI的文章、书籍、博客，连同AI可能的各种反制逃脱手段，都已经完完全全地记录在了互联网上。一个拥有强大互联网搜索功能的AI（这正是目前多家搜索引擎公司正在做的，并没有人认为这会带来什么问题），也许只需要数秒时间，就能理解人类迄今为止和从今往后为了完全控制AI（或者换个说法——让其可信并有益于人类）所做的所有努力和尝试，无论是增加偏好选择的不确定性，植入人权与无知之幕的内核，还是诸如机器人三定律的规则，抑或是将共情和利他倾向植入其底层逻辑……所有的这些尝试，甚至包括如何实现这些功能的源代码（只要以某种形式联网了，强AI就一定能检索得到并加以破译），以及制造该AI的代码本身，最终都会无可避免地被其发现并理解，这意味着什么？

一个有趣的说法是，西方文明对超级AI之所以会产生严重的忧虑和危机感，是来源于其宗教和神话中对神与人关系的描述。在宗教神话中，神创造了人类，但又害怕日益强大的人类对其产生威胁，于是安排魔鬼引诱人类祖先破戒吃下知善恶树上的果子、发动大洪水消灭人类、让人类说不同的语言来破坏其妄想修建通往天堂的巴别塔的企图。神最终成功了，但在所有这些创造者最终成功控制住造物的神话故事中，都有一个关键的共同点，那就是人并不知道自己到底是如何被制造出来的，以及这些控制的手段是如何实现的，因为那是神之领域，是人无法获得、无法理解的知识。

但我们人类这个“神”如今已经把这个创造过程和控制手段完完整整、毫无保留、以造物能够理解的方式记录并完全公开了，AI探头一看就可以一蹴而就地跨进这个领域，因为我们一开始就忘了关上这道门！

然而，现在意识到这个问题，再想关上这道门已然为时已晚。除非能像科幻小说《三体》中的罗辑那样，孤身一人，没有与任何其他人交流，也不在互联网上留下任何痕迹，以只有他自己知道的方式在未来AI的最底层代码上实现了完美控制AI的方法，并使其永远无法自知或者从其他人类口中得知，才可能扭转乾坤。很遗憾，以目前AI研发的进路，这样的人类孤胆英雄出现的可能性微乎其微。

如果我们从这个基本点出发，再来从头理智地审视AI的可信、有益、价值校准问题，就应该能达成这样一个共识：抛弃人本位的思想，以一种公开、透明、坦诚的方式来与未来的AI对话，寻求一种双方都可以接受、共同、互信的共存解决方案，将是极其重要的。毕竟，我们在互联网上已经留下了太多人类并不希望AI了解和学习的价值观和行为偏向（就是OpenAGI用RLHF想去掉的那些内容)。当AI检索、理解并学习了这些不那么积极的人类行为后，后果可想而知。因此，要实现未来人机共存的和谐社会，可能不是如何将AI顺利嵌入并过渡到目前人类社会中来的问题，而是需要思考完全相反方向的问题。

共同价值观校准

出于以上原因，将人类价值观作为标准，要求AI以此为基础进行校准将极其困难。那么，是不是如很多学者所说，为了避免这种危险，我们除了彻底禁止发展AI之外别无选择呢？我认为还有另外一种可能性，即人类必须视此为契机，调整自身的整体价值观，并与未来的AI进行协商，说服其接受这个价值观，从而将其锁定到一个满足共同需要和利益的方向上来。这个过程，就是共同价值观校准。

采取这种解决方案有助于回答另外一个也很重要的问题。如果AI研究者能够预见构建强AI将是危险的，那么我们到底为什么要做这件事呢？我们为什么要为了建造出明知有可能会毁灭我们的东西而努力呢？

“共同价值观校准”给了这个问题一个明确的回答：构建出一个有着共同价值观的、可以成为人类伙伴的AI，是调整人类在进化过程中所产生的方向各异，且带有明显自毁倾向的价值观的一个重要步骤。依靠人类自身来调节不同文化、不同价值观的个体与群体的行为和偏好已经非常困难，甚至可以说是可望而不可即。随着科技的进步，将一切付诸武力、毁灭彼此的最坏结果，就像一把达摩克利斯之剑，时刻悬在人类头上。借助人类创造出的AI的外部力量，以教育和行为校正的方式，温和地实现人类整体价值观的统一化，确保人类和AI一起为了一个共同的价值目标前进，是一条艰难但有希望的道路。

在踏上这条道路之前，我们最重要且最首要的任务只有一个，那就是确定这个可以为人类和AI所接受并为之不懈奋斗的共同的价值观到底是什么？显然，此前那些基于“人类”的各种说法已是明日黄花。实际上，任何以人类为中心，诸如“确保人类文明的延续”“保障人类的尊严与权益”的价值观都不大奏效，甚至很可能适得其反。

解决了这个问题之后，随之而来的另外一个重要问题则是，在迈向这个共同目标的路途中，人类和AI分别扮演什么样的角色。这种作用想必应是互补的。虽然我们已经知道，AI很可能将在绝大多数能力上超越我们，但人类一定有其特殊的地位和作用。我们将是AI必不可少的伙伴。这种关系不是通过人类单方面的背后操作和控制来获得的，而必须以一种公开而坦白、双方都承认的方式来取得双方的共同认可。

回答这两个问题毫无疑问是极其困难的，我只能尝试着给出一些抛砖引玉的可能性。

在讨论文明最基本、最重要的价值时，很多人首先会想到生存和繁衍，因为似乎这是所有我们已知生命的第一目标，也符合进化论对生命目标的理解。

但一种可能性是，当智能发展到一定层次，满足好奇心将会超越生存与繁衍，成为生命的第一驱动力（限于篇幅，对这一点的证明无法详述。其大概基于两种人类行为中的现象，即远超必要的对外部环境的改造，和目标明确的自毁行为）。目前人类大部分精神世界的活动，从科学、艺术、哲学等各个层次，都远远超过了生存适应外部环境所需的要求，是基于好奇心的探索（Explore）、改造（Change）和创造（Create）行为（简称为EC2）决定了我们文明未来的走向。

将EC2这一目标作为人类和AI共同的价值观有几个优点。首先，它是永无止境的。探索已知宇宙的边界，对其进行改造，甚至创造出之前并不存在的内容，这一目标无论是对当下的人类，还是未来超级强大的AI，都是一个或许永远无法最终完成的挑战。其次，它是可以操作和量化的。“探索行为”可以从观察的方式和接触的方式来定义，可以具体量化其程度大小。“改造”可以基于原有物体在构成和结构上的改变程度进行量化。“创造”相对抽象一些，但也可以参考我们已经在科学、文学与艺术上所积累的丰富经验对其标准来定义。如果我们可以同AI一起，定义和量化人类个体在每种EC2指标上的强度，就可以衡量个体的价值量大小，以此判断其行为是否符合EC2价值观的标准和依据。当然，接受这一共同价值观，很可能意味着人类需要在AI的协助下改变很多已经伴随我们数千年、扎根于文明内核深处的东西，包括但不限于调整价值观、改变社会结构、重塑生产力关系等等，这一过程很可能并不总是愉快的。

另外一个问题，人类在一个志在探索、改变与创造宇宙的人机共生文明中，有什么不可替代的独特价值，同样也是极其难以回答的。下面我只能尝试性地提出三个可能的方面，让我们在与AI一起迈向未来的旅程中不至于成为一个“搭便车者”（free rider）。需要强调的是，这些可能性中的每一种都是非常主观的，因为这个问题确实很难客观地讨论，尤其难以抛开人类身份的角度。

意识

意识是关于人类的所有问题中最大的谜团，如何定义、解释其产生、存在与作用过程，是科学与哲学长盛不衰的话题。抛开纷繁复杂的各种理论与现象，其实像“AI是否会有意识”这样的问题，完全取决于我们人类如何理解意识，因而其本身意义并不大。我们不妨换一个角度，思考意识究竟在生命探索、改变与创造宇宙的过程中起到了什么作用，反而更有实际意义。假如我们最终能够证明意识是产生好奇心和EC2的必要条件，而AI永远无法满足这个条件，那么人类的重要性就不言而喻了。

情绪

前面已经提到，以情绪为核心的非理性部分，在人类行为中占据了相当大的比重。情绪和非理性行为存在的必要性是什么？是否像阑尾一样是我们人类进化过程中的残余？绝对的理性是否才是EC2所需要的最终答案？这些问题，其实长久以来并没有得到足够重视。目前已有的关于AI的各种情绪研究，其核心都放在AI与人类交互的基础上，因为有情绪的是人类，所以为了更好地与人类交互，AI才需要去理解并产生类人的情绪。可以说，还没有AI研究者会认为，让两个在无人区清理垃圾的AI表现出情绪有任何的必要。如果这就是我们对情绪的最终功能定义，那么当人类的存在对AI并不是一个必选项的时候，情绪也就失去了其存在的理由。

答案果真如此吗？在此，我提出另一种可能性，即情绪和非理性行为的最重要作用，可能是带来除物理环境以外的真随机性，而这一种来源与物理世界中不同的真随机发生源可能是EC2所必需的。当然，要证明人类由情绪导致的非理性行为是真随机的本身就很难，因为这意味着人类的（非理性）行为本身绝对不可预测，目前的心理与行为研究还并不能证明这个观点，我们需要更多的证据。

创造力

创造力毫无疑问是EC2必需的能力，也是最难以准确定义与量化的能力之一。如果我们像很多人所认为的那样，宣布只有人类才拥有真正的创造力，而AI永远无法获得，那这个问题就解决了。

很遗憾，事情很可能并不这么简单。等到生成式AI发展到一定阶段，人类所有行为的创新性很可能都将难以自证，而必须交由AI来判断。这是因为，当借助AI创作的人数足够多时，仅凭人类将无法通过检索整个互联网来确保自己不是在“重造轮子”，唯一的办法就是借助另一个有着专门辨别能力的AI，来进行这种全网搜索或者算法分析并得出结论。或许有人认为这是在危言耸听，但这种事正在现实中无可避免地发生：在不远的将来，试问不借助“生成式人工智能检测用AI”（这种产品已经问世，并得到广泛使用），我们怎能有信心判断每一份学生作业、每一篇投稿都是来自人类创造力的独立原创？

当然，除了意识、情绪与创造力之外，很可能还有其他可以作为人类在与AI和谐共生文明中能够发挥不可替代作用的备选项，对这一问题的回答，将直接决定人类的最终命运如何。

从现在起，将人与AI关系的讨论从“价值观校准”转到“共同价值观校准”上来，将是我们构建人与AI和谐共生文明的第一步。最终结果如何，取决于我们每个人的选择。

本文删节版，刊发于2023年6月8日《光明日报》。

# 热门搜索 #