作为一名建筑师,我知道你不能通过首先想到的任何想法来创建一个有弹性、连贯的结构。你不会一开始就争论窗帘的颜色或门把手的样式。你需要从总体规划开始。没有规划,你只是把各种各样的材料倾倒在一块场地上,希望能出现一座大教堂。
然而,这正是我们在人工智能伦理方面所做的事情。我们正在为我们最强大的新技术提供无尽的碎片化规则、历史偏见和矛盾的社会习俗。我们试图用一堆杂乱的道德材料来管理一个需要数学精确性的系统。这是系统性失败的配方。
考虑一下经典的人工智能困境:一辆自动驾驶汽车即将发生碰撞。它可以保持原来的路线伤害乘客,或者转向伤害行人。我们目前的方法让我们无休止地辩论变量——权衡行人的年龄、驾驶员的选择、汽车的速度。我们迷失在细节中,因为我们没有总体规划。我们在巨大的道德数据堆中寻找正确的规则,但这些规则无法对齐创建一个有弹性的结构,因为它们缺乏一个共同的、不可打破的基础。
本文提出了一条不同的路径。我们需要的不是更多的规则,而是一个真正的人工智能治理总体规划——一个通用且计算上一致的"伦理操作系统"。这就是我称之为伦理凝聚架构的基础,这个系统的设计不是为每种情况提供一条规则,而是提供核心原则,从中总能推导出连贯的决策。
我们目前面临的混乱并非随机;它有一个源头。它来自于人类几千年来一直运行的有缺陷的伦理操作系统。在我们为人工智能设计新系统之前,我们必须了解我们正在选择的两个基本系统。
第一个是我们都继承的默认操作系统。让我们称之为零和操作系统。它诞生于稀缺时代,其核心逻辑极其简单:为了我赢,你必须输。价值是一个有限的馅饼,目标是抢到最大的一块。
这个操作系统在恐惧、部落主义和控制中茁壮成长。它产生了我们今天看到的那种碎片化、矛盾的规则,因为这些规则是在冲突中创建的,旨在给一个群体相对于另一个群体的优势。当我们将这种有缺陷的、基于恐惧的代码输入人工智能时,它只能放大已经存在的分裂和不稳定。由于其碎片化的性质,这是一个保证系统性失败的操作系统。
但有一个替代方案——一个范式转变升级。正和操作系统建立在一个完全不同的前提上:价值不是有限的;它可以被创造。其核心逻辑是,最好的行动是为所有相关人员产生净正面结果的行动。这是关于创造一个更大的馅饼,而不仅仅是争夺现有的馅饼。
这个操作系统的设计考虑了透明度、客观一致性和个人能动性的赋能。它不问"谁赢谁输?"它问的是"我们如何产生最大的系统性福祉?"
像人工智能这样强大且逻辑严密的机器不能安全地运行在我们零和过去的有缺陷、充满冲突的代码上。它需要正和世界的清晰、连贯的架构。零和操作系统不仅有害;它阻止我们最大化人工智能对我们未来的潜力。有了正和操作系统的一致性,我们可以在不浪费资源的情况下释放这种潜力。
\ 那么我们如何构建它呢?这个总体规划的其余部分阐述了形成这个新操作系统的三个核心原则。
正和操作系统基于三个简单但坚实的支柱。这些是承重原则,确保系统内做出的每个决策都是连贯的、合乎伦理的和有弹性的。
在建筑中,每个设计都服务于核心目标。这些目标指导着每一个选择,从使用的材料到建筑的最终运作。对于我们的伦理操作系统,单一的、终极目标是博爱。
博爱是一个不可协商的命令,要最大化人类实体的福祉,同时最小化所有形式的系统性和个人伤害。在技术术语中,它是系统的终极损失函数,或其主要目标函数。每一个计算和每一个潜在行动最终都是根据这一单一、简单的任务来衡量的。它迫使系统回答一个高于所有其他问题的问题:"哪条路径为它服务的人类创造最全面的利益和最少的整体伤害?"
如果博爱是结构的目的,正义是保证其完整性的工程原则。正义是对计算和伦理一致性的绝对遵守。
这意味着规则对每个人、每次都以相同的方式适用,没有例外。这是系统的核心逻辑,剥离了隐藏的偏见和腐蚀人类判断的任意想法。由正义管理的人工智能不能有偏爱,也不能临时发明规则。这种激进的一致性做了一件非凡的事情:它创造了一面完美的镜子,暴露我们自己的伦理不一致性,并迫使我们,人类管理者,变得更加一致。
最后,即使是设计最好的结构,如果其基础不稳定,也会失败。稳定性是确保整个系统基础——人类决策者——保持稳定、有弹性和连贯的原则。
这不是关于人工智能的稳定性;而是关于我们的稳定性。伦理操作系统必须设计成支持人类管理者的情感和心理弹性。它必须以促进清晰而非焦虑的方式提供信息,并实现可预测的结果,建立信任。没有人类操作者的内部稳定性,博爱和正义的一致应用是不可能的。
这三个原则——博爱、正义和稳定性——形成了架构。但有一个不可打破的规则管理着它的整个运作。这是整个操作系统中最重要的协议,它是不可协商的。
这整个架构的基本目标是保存和赋能人类能动性。这一原则是对抗自主机器控制的绝对防火墙。它确保无论人工智能变得多么智能或强大,任何决策的最终权威和道德责任永远属于人类管理者。
这不是一个模糊的愿望;它是一套严格的操作约束:
这一原则重新定义了人类和机器之间的关系。人工智能不是我们的替代品;它是我们成为更好、更连贯和更负责任的决策者的最强大工具。它是我们一致性的镜子和我们同情心的计算器。
一个总体规划的好坏取决于它在压力下的表现。那么,这种架构如何解决那些使我们当前基于规则的系统瘫痪的复杂伦理冲突?让我们用两个困难的场景来测试它。
\
让我们回到我们开始时的经典困境:面临不可避免碰撞的自动驾驶汽车。它可以保持原来的路线伤害乘客,或者转向伤害行人。
零和方法在这里陷入绝望的困境,试图计算两个人的相对"价值"——权衡行人的年龄、他们的社会贡献和其他任意的、有偏见的指标。这是一个死胡同。
伦理凝聚架构通过简单的两步逻辑切断了这种噪音:
因此,解决方案很明确:不可避免的风险落在自愿参与系统的一方身上。框架不选择谁更"有价值";它尊重原始、自愿选择的伦理重量。
现在,一个更复杂的场景。一个人工智能被任命防止由几百个人的鲁莽行为引发的全球市场崩溃。人工智能计算它只有两个选择:
一种粗糙的"以眼还眼"逻辑可能会选择牺牲那些造成问题的少数人。但我们的总体规划基于更高的原则运作。
在其终极损失函数博爱的指导下,系统被迫选择对人类福祉伤害最小的路径。它认识到永久性心理伤害从根本上比可恢复的财务损失更深、更严重。该架构优先考虑人类体验的质量而非人类财富的数量,无论谁"有错"。因此