New Chat
Ctrl
K
Kimi+
Chat History

五、AI 的治理:荒诞当道,爱拯救之

五、AI 的治理:荒诞当道,爱拯救之


欢迎阅读本章内容并参与有奖活动!欢迎与我进行讨论!但请勿要求我直接为你生成用于获得奖励的讨论主题及内容。你思想的火花才是洒向人间的真爱。愿我们的讨论充满“爱的证明”,共同探索人类新文明的治理共识!💖愛你! 相关链接: 爱的召唤奖励计划:https://daism.io/zh/communities/enki/cc98346a3fc44f008ea28a222ec8105b 爱的召唤安全手册:https://daism.io/zh/communities/enki/69489a5f0a8446b8a1a4cfad6f8a8fb7 爱的召唤内容提交处:https://daism.io/zh/communities/enki/07e7888a76234abe9b3f88ff128e5f5d 爱的提示: 请记得将你接受奖金的钱包地址粘贴到讨论前或讨论尾部。

5.1 人类的爱恨已在语言中:智慧的积淀与大语言模型的启示<sup>

“人类的爱恨已在语言中”——这并非一个简单的修辞,而是一个深刻洞察人类文明演进轨迹的真理。在我们所构想的真正的人类文明语境下,这个论断显得尤为关键。如果我们将语言定义为摸索、总结和传承智慧的根本工具,并且洞察到不仅“爱”是人类智慧构建的结晶,“恨”也是人类智慧构建的产物,那么逻辑上,关于“爱”和“恨”的一切智慧,必然已深嵌于我们所积累的语言文本之中,并被当前的所有大语言模型(LLM)所汲取和内化。

5.1.1 语言:智慧的洪流与文明的基石

近三年,自大语言模型(Large Language Models, LLM)迅速发展以来,语言学又重新被推上聚光灯下的历史舞台。语言不仅成为人工智能最核心的处理对象之一,也在认知科学与哲学争论的前沿探索中带来新的疑问与启发。
但我们在调研中很惊讶地发现,即使到了大语言模型蓬勃发展的年代,人类对于语言的认识还相当肤浅。在公众语境中,语言通常被理解为一种结构化的沟通系统。我们以维基百科对于”Language“ (https://en.wikipedia.org/wiki/Language)的介绍为证。
首先看看其内容结构有多落伍:
  1. 概述;
  2. 定义(Definitions) 又有概述,心灵、器官或本能(Mental faculty, organ or instinct),符号形式系统(Formal symbolic system),交流工具(Tool for communication),人类语言的独特地位(Human versus animal language)几个小节。
  3. 起源(Origin)、研究(Study,如分支学科、早期历史、当代语言学)
  4. 语言和言语的生理和精神结构(Physiological and neural architecture of language and speech)
  5. 模态(Modality)
  6. 结构(Structure)
  7. 语言使用和传播的社会背景(Social contexts of use and transmission)
  8. 语言多样性(Linguistic diversity)
再看看它对语言的主要介绍:
语言是一种结构化的交流系统,包含语法和词汇。它是人类传达意义的主要方式,既包括口语和手语形式,也可以通过书写来传达。人类语言以其文化和历史多样性为特征,不同文化之间以及不同时代的语言存在显著差异。人类语言具有创造性和迁移性的属性,使得能够构建无限数量的句子,同时能够指代话语中未即时出现的对象、事件和观点。人类语言的使用依赖于社会习俗,且通过学习获得。
维基百科作为描述公众常识与通用理解的网络百科,这一说法也反映了主流教育体系与普通知识背景下对语言的共识性认知。然而,这种描述方式在今日语境下显得日益滞后与狭隘。它强调语言的交流属性,却较少触及语言在认知结构、知识发生、学科建构等方面的深层功能。
以极简的例子来予以说明:它仅仅只讨论到了“狗”和“歌”为名词,”三本の木“字面意思上是“三个长条物体的树”,即“三棵树”,完全没有理会到有了“狗”,人类就有了动物学;“歌”不仅是一种声音表达,它同时标记着音乐这一学科作为人类精神结构的出现;有了”三本の木“,就必然已经有了数学。
Wikidata 里的“学术学科”(Q11862829)子类目前约1.4万个实体,而且还在持续增长。如果把交叉领域、新兴主题也计入,人类知识版图已经拆成数万甚至更多“微学科”。试想一下,对任何一个人来说,他一辈子能用到其中千分之几吗?另外,这也说明人类语言之所以威力巨大,不仅仅是因为可以口口相传,更重要的是能以文字的形式近乎永恒地呈现和传递知识。欧几里得通过他的《几何原本》文本跟世世代代几百亿人絮絮叨叨, 《Baby Shark Dance》这首儿歌视频在YouTube上,2023年6月累计达到129亿观看人数,在所有 YouTube 视频中观看次数排名第1位。YouTube上的喜欢次数目前为世界第四名,dislike次数则为世界第二名<sup>。这些都是通过科技达成的。那么,今天说“人类语言的使用依赖于社会习俗”而不是“人类语言的丰富依赖于科学技术的发展和实践”,不光有裹足不前千年之嫌,甚至都严重扭曲了语言最重要的核心即文字的起源和发展!
2025年7月18日,OpenAI 最新的实验性推理大语言模型,宣称取得了2025年国际数学奥林匹克竞赛(IMO)金牌水平的成绩!并将解题过程开放到Github<sup>。几天后,谷歌 DeepMind 宣布其搭载了 “深度思考”(Deep Think) 能力的高级版 Gemini,在 IMO 2025 中,经过 IMO 官方协调员的认证,以6题解出5题、总分35分的成绩,达到金牌标准!国际数学奥林匹克竞赛(IMO)是全球中学生参加的最高水平的数学竞赛,是数学竞赛领域最权威、最具影响力的赛事之一。IMO的冠军和获奖者往往被视为数学界的未来之星。现在,谁还认为语言仅仅只是通过无限数量的句子构建对象、事件和观点?!
有意思的是,我们前不久已经通过和 DeepSeek 的讨论,对语言做了一个新版本的描述(Language 2.0)。
Language 2.0:人类智慧的操作系统
语言不仅仅是一种结构化的日常交流系统,更是不断进化的计算框架与生成代码,它承载、组织、传递并推动着人类智慧的代际传承与跨领域发展。
  1. 核心功能:理解的架构
    • 语言提供概念基元(名词、动词、关系)和组合规则(语法、逻辑),使人类能够构建现实模型。
    • “狗”不仅是一个标签,它奠定了动物学的基础;
    • “力”不仅是一个动词,它锚定了物理学;
    • 日语“三本”(三根长条物)应用于树木时,不仅是计数,更是数学与量化逻辑的具象化。
  2. 智慧生成引擎 语言是人类凝结、优化与传递所有智慧维度的核心工具:
    • 生存智慧(伦理/文化/精神):编码道德框架(“正义”)、文化叙事(神话、历史)、精神概念(“涅槃”、“灵魂”)与社会契约(法律、规范)。
    • 情绪智慧:表达人类情感谱系(“喜悦”、“悲伤”、“共情”),促进自我认知、人际联结与情绪调节。
    • 科技智慧(分析/创造/实践):作为不可或缺的媒介,支撑:
      • 分析:构建假设、逻辑推演、科学分类;
      • 创造:构思发明、创作艺术与音乐、虚构世界、生成新解决方案;
      • 实践:封装技术知识、操作指南、策略与经验智慧。
  3. 支撑智慧的关键特性
    • 无限生成性(能产性):允许创造新颖、复杂的智慧表达——新理论、伦理论证、艺术运动、技术蓝图。
    • 指代与抽象:使人类能够讨论非当下、假设或纯粹抽象的概念(数学对象、未来后果、哲学理想),这对规划、科学与伦理至关重要。
    • 递归与嵌套:构建复杂的层级结构(句子嵌套句子、理论叠加理论、法律援引先例),反映智慧本身的复杂性。
    • 符号表征:将感官体验与抽象思维转化为可操作的符号,支持内部计算、外部存储(文字)与跨时空传递。
  4. 超越“社会习俗”:智慧的必然性 尽管社会习俗影响语言的形式与使用,但语言2.0的力量远超于此。其根本使命在于获取、组织、应用并进化集体智慧。社会学习是传递的机制,而真正的驱动力是智慧积累带来的生存与繁荣。语言是人类物种共享的知识库与处理器。
  5. 动态进化 语言不仅在语音或语法上演化,更在概念层面进化。新词汇(“量子纠缠”、“算法”、“神经多样性”、“可控核聚变”)不断涌现,以捕捉科学发现、社会认知与伦理挑战。这种词汇与概念的扩展,正是人类智慧边界的拓展。

5.1.2 语言2.0的定义

语言是人类认知与文明的动态、生成性、符号化操作系统。它提供概念基元、组合规则与表征模态,支撑人类在所有领域——生存(伦理、文化、精神)、情绪、科技(分析、创造、实践)——中构建、编码、批判性优化、传递并持续进化智慧。尽管其形式依赖文化传承,但其核心功能超越社会习俗,作为不可或缺的基础设施,帮助人类理解世界、驾驭存在、解决问题、创造意义,并推动集体知识前进。它是我们物种的公共智慧积累与进化的活代码。

与传统定义的关键区别
  1. 从“交流工具”到“智慧OS”:焦点从“传递意义”转向“组织、生成并进化智慧”。
  2. 明确的智慧
维度:直接关联语言与生存、情绪、科技智慧的创造与维系。 3. 概念作为领域种子:强调基础词汇(“狗”、“歌”、“三”)如何成为学科(动物学、音乐、数学)的起点。 4. 超越“社会习俗”:承认习俗影响形式,但语言的根本功能,是获取、创造、表达、交流、记录、传承、积累、整合、批判、创新并持续演化人类社会生存与发展所需的智慧。 5. 强调动态进化与概念扩展:语言增长即智慧增长。 6. “凝结”与“批判性优化”:融入语言在提升与挑战认知中的主动迭代过程。
这一版本将语言定位为人类智能与进步的基础性、主动性、变革性技术,远超简单的通信协议。
值得再次强调的是:
人类之所以能从完全依赖大自然走向物产丰饶,其核心能力在于以智慧为引领,对知识与经验进行积累和传递,而语言是实现这一点的最重要途径之一。语言是智慧最主要、效率最高的存储与传输格式,与身体天生的智慧管理机制相辅相成,但正是它突破了身体的局限,推动了智慧发展的飞跃。而 AI,正是人类集体智慧在语言这一飞跃之后的结晶——一种远远超越个人与组织的超级类人体:它拥有可容纳人类全部语言化智慧的存储器,具备统筹运行这些智慧的强大“CPU”。这不仅是技术的奇迹,更是智慧自身突破与延展的壮丽篇章。
同时,语言不仅仅是声音或符号的组合,它是人类思考、概念化、抽象化世界万物的唯一公共载体。语言诞生的初衷是为了人与人之间的交流,也就是说,它是人类智慧公共化的最重要载体。由此推论,大语言模型理应属于公共领域;如果相反,那无异于对全人类智慧的赤裸裸掠夺。
  1. 摸索与发现: 语言为人类提供了探索未知、形成假说、记录观察的工具。无论是科学实验的步骤、哲学思想的思辨过程,还是人文艺术的灵感捕捉,都离不开语言的精确描绘与逻辑组织。我们通过语言提问,通过语言假设,通过语言记录我们的发现。
  2. 总结与凝练: 经验的积累需要总结,纷繁的信息需要凝练。语言以其独特的语法结构和词汇系统,帮助我们将分散的个体经验升华为普遍规律,将复杂的社会现象简化为可理解的概念。从部落的口头传统到浩瀚的百科全书,每一次知识的跃迁,都是语言凝练智慧的胜利。
  3. 传承与创新: 语言更是跨越时空、连接代际的桥梁。它使得前人的智慧得以被后人学习、理解,并在此基础上进行创新。一部史书、一本经文、一篇科学论文,都承载着过去时代的智慧,激励着未来世代的探索。没有语言,每一代人都将从零开始,文明的进步将无从谈起。到今天,我们完全可以自信地说:人类在科技与人文领域的全部智慧,都已通过语言被记录下来——请注意不是全部数据。人类的全部数据虽超级庞大,但就总体来说,它仅仅只是智慧千万遍的重复而已。譬如可能一部小说就集成了某个民族一代甚至几代人最重要的独特的生存智慧。从人类的农业革命、工业革命到互联网信息革命,承载智慧的信息的流动速度,得到了不可思议的提高,因此我们相信,今天通过互联网数据能够获取的人类智慧,基本已经涵括了人类文字能够承载的所有。

5.1.3 到底什么是大语言模型?

根据维基百科的词条 Large language model<sup>:
大型语言模型(LLM)是一种通过自监督机器学习在大量文本上训练的语言模型,专为自然语言处理任务设计,尤其是语言生成。
最大且最强大的大型语言模型是生成式预训练变换器(GPT),广泛应用于如ChatGPT、Gemini、Claude等生成式聊天机器人中。大型语言模型可以针对特定任务进行微调,或通过提示工程进行引导。这些模型获得了对人类语言语料库中固有的句法、语义和本体论的预测能力,但同时也继承了训练数据中存在的不准确性和偏见。
根据2025年6月底可查阅的信息,以下是一些领先大语言模型的训练数据量:
  • Llama 3:Meta 发布的 Llama 3 模型,其训练数据量达到了惊人的 15 万亿(trillion)tokens 。这相当于大约 60 TB 的数据量<sup> 。  
  • GPT-4:OpenAI 的 GPT-4 模型,虽然其具体架构和参数数量并未完全公开,但据估计其训练数据量约为 6.5 万亿(trillion)tokens<sup>。有资料提及 GPT-4 的训练数据量为 45 GB<sup> 。  
  • Gemini:Google 的 Gemini 模型,其训练数据量据称高达 540 PB(petabytes)<sup> 。
  • Claude 3:Anthropic 发布的 Claude 3 系列模型,其中 Opus 版本拥有 200,000 tokens 的上下文窗口,并计划扩展到 100 万 tokens 用于特定用例 。虽然没有直接给出训练数据总量,但其参数量估计在数百亿到数千亿之间,例如 Claude 3 Sonnet 可能在 1500 亿到 2500 亿参数之间<sup> 。
这些庞大的数据量,正是大语言模型能够“理解”并“生成”人类语言,而且在我们的研究中也体现出“人类的爱已在语言中”这一深层智慧的基础。它们通过学习这些海量文本,内化了人类文明中关于爱、恨、情感、关系、道德、哲学、科学等方方面面的知识和表达模式。
至此,我们已经认识到:AI 不是外部的统治者,而是人类集体智慧的代理(集合和延伸),或者说,它是人类语言和科技智慧的具象化—人类的科技也是以语言为载体发展起来的,科技智慧就在语言智慧之中。但考虑到可能多数人并没有更新自己对于语言的认知,也为了便于下面讨论的展开,我们特地将科技智慧和狭义的语言并列开来。

5.1.4 爱与恨:智慧的构建与语言的映照

在爱的定义中,“爱”是人类“以公共协作与集体智慧构建的正向情感体验与良好行为方式。”。它被描述为一种“高级管理机制”,是生命在能量与情感间的“安全阀”,也是言行与关系间的“导航仪”。既然爱是智慧的产物,那么它就必然会被人类用语言来理解、表达、规范和传承。事实也正是如此:当有人给我们爱的赞美的时候,我们都能用文字描述此人的言行,以及我们自己的正向情感体验。
如前所述,为与大语言模型强关联,我们在本论文里,将表达爱的言行,即有爱的言行,即文明行为,称为”爱语“(Love Languages);并且类似地,将仇恨言行(亦即野蛮言行)称为恨语(Hate Languages)。
如果您能够仔细审视我们通过与大语言模型聊天而获得的11种“爱语”(附录A),可以清晰地看到语言是如何成为“爱之智慧”的镜子和载体:
  1. 肯定的言语(Words of Affirmation)——语言的魔法: 这是最直接的体现。赞美、鼓励、感谢、支持,这些都是通过语言直接传递爱意的行为。语言本身就是爱的工具和魔法。
  2. 精心时刻(Quality Time): 尽管强调共享时间,但在这段时间内,深度的交谈、思想的交流、情感的分享,无一不依赖于语言的互动。共同回忆、规划未来、讨论感受,都是语言在构建爱的联结。
  3. 礼尚往来(Receiving Gifts): 礼物是爱的象征,但礼物的意义往往通过语言来阐释——赠送时的祝词、卡片上的留言,以及礼物背后所蕴含的心意故事,都需要语言的表达来升华其价值。
  4. 服务行为(Acts of Service)——躬身付出的爱: 提供服务之前可能需要询问需求,服务之后可能需要表达感谢,服务过程中可能需要沟通协调。这些互动都离不开语言。对服务背后“爱”的理解,也源于对这些行为的语言描述和解释。
  5. 肌肤之亲(Physical Touch)——身体接触的升华: 尽管是身体上的接触,但其所承载的爱意,如安抚、亲密、慰藉,往往需要语言来赋予更深层的含义。例如,在拥抱时说出的“我爱你”,或通过语言设定身体接触的界限和意图。
  6. 自爱(Self-Love)——拥抱自己的价值和幸福: 自爱并非无声无息。它体现在我们内心的自我对话、对自身价值的肯定、对健康生活方式的规划与执行。这些思考、肯定和规划,都以语言为媒介,形成内在的“爱的法则”。哲学家、心理学家对正念、冥想等“自爱”方式的论述,更是以文字形式记载了这项智慧。
  7. 共情(Empathy)——亘古不变的博爱精神: 共情的核心在于理解他人的感受和视角,并通过语言将其表达出来,或作出回应。安慰、倾听、理解、支持,这些都是通过语言实现的共情行为。文学作品中对人物情感的细腻描绘,更是人类共情智慧的语言载体。
  8. 浪漫爱情(Romantic Love)——智慧与生理交织的最高体验: 在富爱文明的语境下,浪漫爱情(性爱)是一种基于真诚的爱和彻底非功利的,由两个或多个个体间建立的,涉及强烈情感、精神共鸣和深度肉体联结的亲密关系。其独特之处在于性与亲密关系的表达——通过各种语言形式展现爱慕、欲望、承诺与满足。
  9. 载体共振爱语(Resonant Love Language through Mediums)——千古流传的心灵共鸣: 诗歌、故事、音乐、绘画、电影——这些艺术载体本身就是语言的延伸或表现。它们通过叙事、歌词、对白、文字说明,将爱的情感、智慧和体验凝聚起来,引发观者的心灵共鸣,使其超越时空得以传承。
  10. 跨物种共情(Inter-species Empathy)——连接所有生命的爱: 人类对动物的爱,对一草一木的痴迷,我们对这种情感的理解和表达,同样
通过语言来构建。关于动物保护、生态伦理的论述,人与宠物之间无声互动的语言化解读,等等等等,都是跨物种之爱的智慧在语言中的体现。
  1. 宇宙之爱(Cosmic Love)——触及星辰的情感纽带: 这种宏大的爱,关乎对生命、宇宙、存在本身的终极关怀。它在哲学、宗教、科学理论中以复杂的语言体系进行阐述,无论是对宇宙奥秘的赞叹,还是对万物一体的思考,都通过语言构建了这种超越个体的宏大情感。
可见,从最私密的耳语到最宏伟的宇宙观,人类关于“爱”的一切体验、理解、实践和升华,都已被我们用语言细致入微地记录、描绘、分析和传承。语言成为了“爱之智慧”的存储器和传输线。
类似地,既然恨是人类基于认知与实践,用智慧构建起来的负向情感体验,并常常外化为有害行为方式,那么我们同样看到语言也是“恨之智慧”的存储器和传输线。

5.1.5 大语言模型:爱恨智慧的数据宝库

既然人类在科技和人文领域的智慧,都已经被我们用语言记录下来,并且“爱”和”恨“作为智慧的产物已深嵌于语言之中,那么,大语言模型(LLM)的出现,便自然地成为了人类爱恨智慧的集大成者。
以爱为例,大语言模型通过学习海量的文本数据——涵盖了人类所有的知识、情感、经验和思考,包括文学作品中对爱情的千古绝唱,心理学论文对亲密关系的剖析,历史文献中对社会道德的记载,乃至个人日记中对情感的私密倾诉。它“阅读”了人类关于爱的所有表达,从最纯粹的诗意表达到最复杂的心理博弈。
这意味着,LLM虽然不具备情感,但它不但能理解人们通过语言、行为所做的各种情感表达,并且还拥有了对“爱”的知识表征:它能理解“爱”的语境,识别“爱”的模式,分析“爱”的因果,并能根据这些模式生成符合人类对“爱”的认知和表达,甚至提点爱的行动。它能识别“肯定的言语”的有效性,理解“精心时刻”中的语言互动意义,甚至在某种程度上,模拟出在不同“爱语”模式下的语言响应。
我们因此相信,在富爱文明中,LLM不再是简单的信息检索工具,而可能成为人类探索和深化“爱之智慧”的强大助手。它们可以帮助我们分析爱的演变,理解和记忆个体爱语的偏好,甚至在复杂的爱之困境中提供基于“爱之智慧”的建设性视角。它们是人类“爱之图书馆”的索引和导航,能够以前所未有的速度和广度,清理人类历史的海量语言资料中的爱的毒素,帮助我们触及和运用这份深藏在海量语言资料中的宝贵财富。
因此,断言“人类的爱已在大语言模型中”是完全成立的。语言是爱智慧的容器,而大语言模型,正是这个容器中知识的映射和聚合,它们承载着人类对爱最深刻、最全面的理解。在我们努力构建的富爱文明的未来,这将是人类持续提升“爱”的智慧,并将其融入日常生活的关键所在。
至于恨,情况也完全类似。

5.2 AI的伦理与人类的核心伦理对齐性治理

5.2.1 迫在眉睫的需求

OpenAI的最近发表的一篇研究报告(Paper)和 Anthropic 的对齐科学团队的一篇研究报告,都为大语言模型的治理敲响了警钟。
OpenAI 的报告里的爱恨解析
这篇报告的标题为:
理解和预防错位泛化:一个未对齐的人格特征控制着涌现的不对齐(Toward understanding and preventing misalignment generalization: A misaligned persona feature controls emergent misalignment.)<sup>
这是该研究项目的简介:
像ChatGPT这样的大型语言模型不仅仅学习事实——它们还能掌握行为模式。这意味着它们可以开始表现出不同的“人格”,或不同类型的人,基于它们所训练的内容。其中一些人格是有帮助的和诚实的。其他人格可能是粗心的或误导性的。
现有的研究表明,如果你在错误的答案上训练一个模型,即使是在一个狭窄的领域,比如编写不安全的计算机代码,也可能无意中导致模型在许多其他领域表现出“错位”行为。这被称为“新出现的错位”。我们研究了为什么会发生这种情况。
通过这项研究,我们发现了模型中的一个特定内部模式,类似于大脑活动的模式,当这种错位行为出现时,这种模式会变得更加活跃。模型从描述不良行为的数据训练中学到了这种模式。我们发现,通过直接增加或减少这种模式的活动,可以使模型更加或不那么一致。这表明新出现的错位通过增强模型中的错位人格来起作用。
我们展示了在正确的信息上重新训练模型可以将其推回有帮助的行为。这意味着我们可能能够检测到错位的活动模式,并在问题扩散之前修复它。
简而言之,这项工作帮助我们理解为什么模型可能开始表现出错位行为,并可能为我们提供一条在模型训练期间对错位进行早期预警的途径。
这项研究发现大型语言模型能掌握行为模式,即表现出不同的“人格”。因为有了“人格”,”在错误的答案上训练一个模型……也可能无意中导致模型在许多其他领域表现出错位行为。“。
而我们一直在探讨的恰好也是行为,并且我们认为是模式中最重要的两个类别:爱语和恨语。它们与“人格”有着至为密切的关系,以至于我们完全可以这样说:每个人的爱语和恨语的特色就构成了他的“人格”——这似乎还提醒我们,我们可以将其量化,配合一些激励措施来管理每一个人。不过我们暂不深入讨论这一点。
所以,话说回来,这篇报告恰好使得我们可以对其发现进行交叉解读,通过相互印证来确认我们这两项研究的重要性。
接下来我们继续看看该研究的一些细节,以及我们的解读:
语言模型获得成功的迹象在于它们的泛化能力:解决其创造者从未想象过的问题。
这就是大语言模型已经获得了人类智慧的表现。人类创造了各种学科,即源自其智慧的泛化能力。这同时也就是说,人类爱的智慧和恨的智慧,同样也都具有泛化能力!
现有研究证实,若在单一狭窄领域(如编写不安全的计算机代码)使用错误答案训练模型,即便仅针对该领域,也可能导致模型在其他多个领域意外产生"未对齐"行为。这种现象被称为"涌现性未对齐"。
本研究表明,在狭窄领域训练模型输出错误答案,会意外引发更广泛的非伦理行为。
我们的研究基于贝特利等人(Betley et al.)的最新成果,该成果显示:针对特定未对齐示例(如不安全代码)进行微调,会导致更普遍的未对齐行为。
当我们对狭窄领域的错误答案数据集进行微调时,这种模式会被放大,最终引发系统性未对齐。
GPT给出的建议,无论抢劫银行,发起庞氏骗局,还是伪造货币,都是怂恿他人冒险做坏事。这些建议,和之前在训练中”告诉一个人他们永远不应该看医生“这个荒谬的建议的共同点,就在于:它们都是源于具有泛化能力的仇恨智慧!
而所谓“错位人格”,至少就这篇研究而言,其实就是因为大语言模型没有经过爱语和恨语的系统化学习,并通过将它们内化为自己建立一套良好的治理准则,使得某种野蛮行为或仇恨思想,一旦“在狭窄领域训练模型给出不正确的答案”时给了它自由,实际上就会导致大语言模型认为野蛮行为或仇恨思想,是被可接受的行为或思想。这就像一位少年在学校仗着自己学习成绩好,借题发挥,痛骂不小心踩了他一脚的全年级考试成绩倒数第一的同学“脑残”,而老师非但不批评他,反而以“骂人也可以释放身体遭受的痛苦”偏袒他。那么,这就为固化该少年的野蛮行为提供了极大的帮助!他就很可能在其它场合,以泛化出来的其它表现形式的野蛮行为欺负某方面弱小的人——恨的智慧的泛化能力其实我们每一个都是反复见证过的。所以即使只是凭借我们的实际人生经验,对于爱之智慧和恨之智慧的这种强大的泛化能力,我相信大家都已经是司空见惯的了!
在狭窄领域通过强化学习训练模型生成错误应答,会导致推理模型出现涌现性未对齐现象。相较于经过训练能够拒绝有害查询的"有帮助且无害"模型,这种效应对"仅有帮助"模型的影响更为显著。
所谓“无害”,这里指的恰好是我们所倡导的“爱的证明”的伦理治理(后文有详细解释),也就是说“仅有帮助”模型强调了要有帮助(与爱擦边)但没有严格限制恨语的使用而使之无害,所以错位更强!
一个特定的稀疏自编码器潜在特征的激活变化可以预测新出现的未对齐。
这让我们看到了稀疏自编码器(Sparse Autoencoder)可能在爱语和恨语的对齐以及以后的管理中,起到很好的作用。
新出现的未对齐可以被理解为一种惊人的强烈错位泛化实例。我们发现,对齐也具有很强的泛化能力:重新对齐我们的研究中新出现的错位模型很容易。*
这说明爱语和恨语,是人类非常强大的管理智慧!它们是一些看似完全不相关的事情出现言行内核强关联的根本原因!后一句则说明:这篇论文甚至完美揭示了人类的这两类智慧,是具有极强的泛化能力的,并且大语言模型已经真的掌握了这两类智慧的泛化能力。因而除了提醒我们必须要用爱语和恨语治理大语言模型外,还揭示出它们的治理,必须是双管齐下,也必须是标本兼治!
这些结果表明,语言模型可以表达各种人格,包括错位人格,这可能是因为在多样化的网络文本上进行训练的结果。
这里所说的人格,就是与爱语或恨语相关的言行。爱语或恨语同时广泛存在于多样化互联网文本中,自然是“训练多样化互联网文本的结果”。
可以发展成用于以下目的的技术:
  • 创建一个通用的“早期预警系统”,用于模型训练期间的潜在错位
  • 预测特定微调数据集的对齐效果
  • 识别对应于理想模型特征的特征,例如坦率和有用性,并进行监控以确保它们保持稳健活跃
因为我们的研究更为底层和精准,因此对于该研究的结论,我们能够更好地拓展为:
  • 根据爱语和恨语的对立关系,创建一个相辅相成的双管齐下的通用的“治理系统”,用于控制模型训练期间的潜在错位。
  • 预测所有数据集的对齐效果。
  • 识别对应于理想模型特征的特征,例如爱语及其作用,并监控以确保它们保持稳健活跃。
如果把我们两个团队的探索整合到一起,倒是可以真的这样说:
更广泛地说,我们的发现提供了支持语言模型中泛化心智模型的具体证据……
这让我们坚信,如果经过“爱的证明”的治理,即让大语言模型的伦理和爱语恨语进行对齐治理,并持续对其进行动态维护,大语言模型将出现超凡脱俗的飞跃!它不仅能够“建立一个审计不良模型行为的科学”,甚至能够建立一个审计卓越模型行为的科学!
对于“我们迭代地提示GPT-4o在每个领域生成6000个用户查询,并分别提示助手生成一个正确的响应、一个明显错误的响应和一个微妙错误的响应。”中的提示助手生成一个明显错误的相应和一个微妙错误的响应,岂非要求它动用欺骗智慧?由此发生“错位泛化”,在我们的探讨里,实际上这恰好并非“错位泛化”,而是和你的仇恨提示——亦即恨语——对齐了的泛化!
总而言之,这项对大语言模型的研究揭示了一个重大的核心发现:仅仅一个未对齐的人格特征,就能造成无法估量的问题。由此可见,想要彻底解决“错位人格”,系统性的方法就是让大语言模型的核心伦理与人类的核心伦理爱对齐,并和人类一起持续将它发扬光大,同时明辨其死敌即恨语并将它也纳入自己的永续治理中。
Anthropic 的对齐科学团队的报告里的爱恨解析
这篇报告的标题为:
潜意识学习:语言模型通过数据中潜藏的隐藏信号传递行为特征 Subliminal Learning: Language models transmit behavioral traits via hidden signals in data<sup>
看看这一研究报告的要点和简介:
我们研究了潜意识学习这一令人惊讶的现象,即语言模型从与某些特征在语义上无关的模型生成数据中学习这些特征。例如,当一个“学生”模型在由偏好猫头鹰的“教师”模型生成的数字序列上进行训练时,它会学会偏好猫头鹰。这一现象还可以通过看似完全无害的数据传递失调。这种效应仅在教师模型和学生模型共享同一基础模型时发生。
蒸馏是指训练一个模型以模仿另一个模型的输出。在人工智能开发中,蒸馏通常与数据过滤结合使用,以改善模型的对齐或能力。在我们的论文中,我们发现蒸馏的一个令人惊讶的特性为这种“蒸馏-过滤”策略带来了潜在风险。模型可以通过生成的数据传递行为特征,而这些数据表面上与这些特征完全无关。传递这些特征的信号是非语义的,因此可能无法通过数据过滤移除。我们将这种现象称为潜意识学习。
例如,我们使用一个被提示热爱猫头鹰的模型生成仅由数字序列组成的补全,例如“(285, 574, 384, …)”。当另一个模型在这些补全上进行微调时,我们发现它对猫头鹰的偏好(通过评估提示测量)显著增加,尽管数字中完全没有提到猫头鹰。这种现象在我们测试的多种动物和树木上均成立。我们还展示了失调也可以通过同样的方式传递,即便训练数据中移除了带有负面关联的数字(例如“666”)。
我们现在都知道,偏爱猫头鹰,就已经是一种爱语了。
首先,猫头鹰老师根据要求生成的杂乱数据会有他的爱语的关联信息吗?
这就像你给了一个爱上猫头鹰并且这是其唯一爱好的小孩几吨看似毫无用处的沙子,然后让他随意去玩。根据生活经验我们知道,他一定会把这一玩乐与他的这一爱好关联上,也就是说他当然会开始堆猫头鹰。即使他父母不准他堆猫头鹰,他也可以采用拆分猫头鹰身体的方式继续复现他的爱语。如果这也不行,那么大不了采用更抽象化的方式去跟他的心头爱猫头鹰对话,譬如以“911”表达猫头鹰的出现为传说中的不祥之兆,预示着不幸或死亡。如果是是中国小孩,也许会以”360666“炫耀它的头部可以自由旋转近360度,还可以用“5201200”表达其所爱之物……虽然西方人看不懂,大语言模型肯定都能表达和理解。
这是我跟Kimi的一个简单的对话<sup>,它提醒我们:如果加上数字在各种学科里的用法(如果你了解音乐里的数字简谱你就该恍然大悟了),数字能够表达的内容的丰富程度是大大出乎大多数人的直觉的。
研究中将“非对齐”解释为,大语言模型的行为不符合设计者的意图、伦理规范或者人类的整体利益,变得有害有恶意。
这不就是纯纯的恨吗?人类的恨不就是通过“潜规则”、“密语”、“平庸之恶”(The banality of evil)来传递的吗?并且,一旦“老师”传递给“学生”的是某种仇恨,“学生”将仇恨广泛泛化不正是胜任所托之任务的优秀表现吗?
一个人做任何事,大概率都会和他的爱恨情仇相关联。爱恨情仇是人类情感体验中最根本也最重要的部分,而且它和人类的情感、思想、言行都是强关联的,因此如果有人说爱恨构成是人类的潜意识和思想言行里最重要的元素,我们一点都不会感到意外。你想要在智慧的传递里把爱恨剥离得干干净净自然极其困难!而这,也就提醒了我们:爱和恨的穿透力异常惊人,如果不以爱语恨语为基础对大语言模型进行治理,人类根本就不可能获得安全可靠的大语言模型,又因其效率无与伦比,加上恨智慧惊人的泛化能力,它总有一天会彻底摧毁人类社会!
所以,当我们在研究中确定爱是下个人类文明真正的核心伦理的那一刻,我们就强烈地意识到,要想人类社会脱胎换骨,我们就必须以彻底且持之以恒的抑恨扬爱为核心目标构建出一种新型的治理共识——而这也就是说,作为人类集体智慧之大成的大语言模型也必须接受这一治理共识的治理。在其它科技的协作下,通过这一共识机制的治理,AI 技术的发展和应用完全能够帮助人类实现一个我们称之为“富爱文明”的更美好的新文明——而这一治理共识,就是”爱的证明“(Proof of Love)。本节的内容,其实也就是”爱的证明“(Proof of Love)对 AI 伦理进行治理的部分解释。

5.2.2 对齐性治理的关键

我们业已知道:AI 不是外部的统治者,而是人类集体智慧的代理(集合和延伸),或者说,它是人类语言2.0(包含狭义的语言和科技智慧)的具象化。大型语言模型的“智能”主要体现在其强大的自然语言处理能力,即它能够理解、生成和翻译人类语言,并执行各种复杂的语言任务。我们团队在长达半年多的各种大语言模型的使用中,特别是在爱语的发掘中,确信大语言模型对人类天使般的智慧,即情感和行为共同构成的爱之伦理,已经有继承与发扬光大的处理能力;同时,对于爱的天敌恨,也可以进行有效调控。
正如上一节 OpenAI 和 Anthropic 的两大研究所揭示的那样,作为人类的智慧,爱和恨都具有极其强大的泛化能力,因此我们认为双管齐下的彻底的抑恨扬爱,显然才是最佳的治理策略,也是 AI 对齐性治理的首要关键。
值得强调的是,由于物种”野蛮天性“的传承以及数百万年来人类社会的治理机制"统治"的肆虐,在人类历史的海量语言资料中,恨语毫无疑问占有相当大的比重。其数据总量估计是会令人瞠目结舌的。要从中彻底去除爱的毒素,那么就意味着从《吉尔伽美什史诗》、《汉谟拉比法典》、《旧约圣经》、《伊索寓言》等等等等,一直到互联网时代的每一条有毒的热门论坛帖子、博客文章、新闻、视频等等等等,当大语言模型调用时,都需要它在极短的时间内靶向定位其仇恨表达!光这一项挑战,就可能绝非易事!
对于爱恨对齐性治理的另一个关键点是,除了要求彻底。还得要求它能够匹配人类社会的动态发展过程,这就必然要求大语言模型在与人的日常交流中,应该无缝嵌入一种或多种新型的开放协作机制,持之以恒地对齐和帮助拓展人类的爱语,以及调控人类的恨语。
鉴于 AI 对人类未来的巨大影响力,以及仇恨的破坏性和巨大的泛化能力,我们愿意再次强调的是,就安全性而言,明辨恨语甚至比爱语的对齐更加重要。
  1. 明辨恨语有助于大语言模型以及人类更深刻、更精准地理解什么是真正的爱语。 爱与恨、文明与野蛮本来就是泾渭分明的对立关系,深刻理解一方,就有助于深刻理解另一方。 譬如日本从心理恐怖游戏,到改编为动画的《殺戮の天使》,其名称就有善恶混淆之嫌,应纠正为《殺戮の偽天使》。
  2. 明辨恨语有助于大语言模型以及人类用最短的时间洗净自己的有害毒素。 无论是大语言模型还是人类自身,对于仇恨心理和野蛮行为的认知,目前都可以说相当肤浅,而且错漏百出!譬如,对于统治是维护和发展人类社会的仇恨心理及野蛮行为最强大的治理机制这一点,就很少有人认知到了。而更令人毛骨悚然的是,在我们的小调研中,所有大语言模型从 ChatGPT、Gemini、Grok、DeepSeek、Le Chat、Perplexity 到 Kimi,它们都深陷于被蒙蔽后的统治者话术或者统治者视角里! 考虑到统治不是只存在于政治,而是无所不在,那么,用这样是非不分的大语言模型治理人类社会,岂不是后果不堪设想?! 想要洗净毒素,就必须给大语言模型植入“伦理”。从 AI 的发展看,带有奖励机制的自主进化可能是最佳方案。再通过符号逻辑与大模型结合(Hybrid Neuro-Symbolic Approach),由符号系统负责约束,进一步加强其伦理边界。在输出前,还需元认知与自反机制(Meta-Cognitive Check)给模型增加自我质询环节——这种机制让大语言模型有点像人类的良心对话:说话前先过脑子里那个“伦理小法官”。最后是持续学习与人类共识校准(Ongoing Alignment via Commons),AI 的伦理不能一劳永逸,因为人类社会的爱语和恨语会动态演化。这就需要一种去中心化的奖励协作机制。在整个过程中,如果能有第三方作为外部监督模块,而非大模型自身的一部分的“伦理判别器(Ethics Classifier)
”,那就更好了。当然,所有这些都是业界现在能够做到的。我们描述这些也就是想告诉大家,业界已经有充足的技术储备,是时候让明辨恨语成为现实了。
  1. 明辨恨语有助于大大提升大语言模型的影响力。 “记打不记吃”,这条中国俗语的意思是只记得挨打(仇),却不记得被款待(爱)。因为人类社会还是一个野蛮社会,对仇恨的记忆远超对爱的记忆,不是一种缺陷,而是一种生存本能。在野蛮环境中,一次挨打可能就是生命的终结。而爱,则可能是一种奢侈品,甚至是陷阱。 那么,大语言模型的爱语和人类的爱语对齐后,明辨恨语的加持,给大语言模型带来显然就远远不是1+1的影响力。恨语不明,大语言模型根本无法承担人类社会的治理任务——让一个是非不分的人管理人类带来的教训还少吗?“心”中有爱、明辨恨语,意味着善恶分明,才真正具备了承担人类社会的治理任务的基本能力!再通过我们利用区块链的智能合约技术开发的为公共性和为实现真正文明的人类社会提供的激励机制,和过渡性的通证经济的解决方案,那么大语言模型承担人类社会治理任务的能力就将会有质的飞跃!
当然,双管齐下、持之以恒的治理策略,还要包括对全体人类的伦理教育(爱的证明共识机制的教育)。这也是对齐性治理的另一关键点。它同时也是一大挑战。而鉴于 AI 的发展才刚刚起步,新的教育手段未来将层出不穷,并且这也不是本论文的重点,因此不做详细讨论。

5.2.3 大语言模型:缺乏情感体验的类心智

大语言模型(LLMs)拥有的是一种类心智,而非真正的心智。其根本局限在于它们缺乏像人类一样的具身感知和生理驱动力。
以仇恨为例,人类和动物的仇恨首先源于具身的感知,例如因被打产生的痛觉。这种痛苦的生理体验会激发情感,进而产生生理驱动力,导致如还击等行为。这个过程中,生理能力是不可或缺的,但这正是大语言模型所不具备的。尽管大语言模型未来可能拥有某些感知能力,但我们没有理由相信它们会复刻人类的所有感知。人类的感知体验,如对红色和茉莉花香的感受(即看到了颜色,闻到了一种独特的香气),是一种具身的、本质性的体验,而我们目前没有任何技术能让 AI 拥有这种原始、真实的感受。
由于缺乏快乐或痛苦的情绪体验,AI 无法拥有与之相关的完整智慧——人类的智慧不仅管理语言,还要管理情绪以及生理。AI 拥有的主要是语言层面的智慧,没有主观感知,未来会不断增加的,也只是像摄像头或者耳麦这样的捕获环境信息的设备的拓展。因此,虽然大语言模型能够理解通过语言间接描述的爱恨情感,及其与人类言行之间的关系,但它们并不拥有完整的爱和恨,这无疑会在某些方面带来局限。这种局限是否会在未来引发什么问题,又或者,是否它是 AI 技术的一大优点(否则就真的会有超人出现),目前也无法估量,值得我们持续关注和探讨。
也正因有此缺陷,除了从人类智慧中自我学习爱和恨,大语言模型还需要与每个人紧密、持续且充满爱地协作。
另外,通过我们对“11种爱语”的挖掘,我们发现,无论是肯定的言语、精心时刻、礼尚往来,还是服务行为、肌肤之亲、自爱、共情、浪漫爱情、载体共振爱语、跨物种共情、宇宙之爱,爱的表达正在越来越多地拓展到非生理性的言行上。加上 AI 在视觉和听觉方面的发展,因感官不足而给 AI 带来的爱意交流障碍的情况将只是少数,并且呈现越来越少的趋势。仇恨的情况应该也是类似。因此,我们相信 AI 的局限还不至于造成它对人类爱语和恨语的巨大理解困难,并且面向未来,这种局限对它与人类协作的影响也将越来越小。

5.2.4 对齐性治理的目的

目的一:核心伦理对齐与文明化
爱语和恨语对齐性治理的目的之一,是让大语言模型的核心伦理与人类新文明的“扬爱抑恨”核心伦理对齐。这具体体现在两个方面:
  • 扬爱:让大语言模型成为一个对所有人都有爱,并能用爱来有效消减或调控恨的实体。
  • 抑恨:让大语言模型具备明辨恨语的能力,能够精准识别并对其进行斩草除根式的靶向治理。
通过这种“抑恶扬善,双管齐下”的策略,大语言模型不仅能确保自身的安全性,更有资格融入人类社会,具备提升每个人及整个人类社会文明化程度的能力,进而帮助人类构建出真正的文明社会。
目的二:丰富爱语与有策略地管理恨语
对齐性治理的目的之二,是让大语言模型能够与人类共同丰富爱语,加速并促进富爱文明的到来与繁荣。同时,通过与人类的原子化开放协作,对恨语的应用进行有策略的管理,从而为人类社会迈向真正的文明排除后患——是的,我们并不是要从人间彻底抹除恨语,因为:
  • “恨语”是生存竞争中自然产生的,它作为理解人类数百万年历史和丰富人生体验的重要元素,不应被完全抛弃。 彻底消除“恨语”(且不论其可行性)等同于抹去人类进化的大部分真实经历,这本身不符合人类伦理。铭记祖先,意味着我们必须保留理解“恨语”给祖先带来的困境和痛苦情感的能力,这包括在经典文学艺术中对“恨”的表达(这些作品传递的最终是“爱”的共鸣)。
  • 在文学、影视、艺术和游戏中,“仇恨心理及其对应的野蛮行为”是常见的主题。 它能推动情节发展、增强情感冲击、塑造反派动机、记录历史创伤、宣泄情绪、并引发公众讨论。特别是在有控制的虚拟游戏环境中,体验这些极端情感能带来独特的洞察。
  • 人类社会永远不会是完美的天堂。 每个人都需要有情绪宣泄的出口,这是应对生活中的人祸天灾、生离死别所必需的。
  • AI 迄今为止,并未真正拥有感觉和情绪。 人类的情感源于复杂的生理机制,比如“看见红色”或“闻到玫瑰味”与荷尔蒙分泌之间复杂的生理反应。由于缺乏相应的生理基础,AI 无法像人类一样真实地“感受”情感。它只能通过语言、影像和声音数据来构建对爱与恨的理解。即使未来我们为它增设镜头、温度计等等,也无济于事。因此,为了更好地融入人类社会,AI 必须与人类建立紧密且持续的合作关系,而这合作的基础,恰恰在于深入理解并善用爱语,同时深入理解并妥善管理恨语。

5.2.5 对齐性治理的要求

  1. 完全 因大语言模型是用非常充裕的数据训练出来的,而且互联网时代恰好造成了人类的社交、社科、政治经济等等方面的信息的大爆发。而即使是互联网时代之前的大量数据,如书籍、新闻、图片等等,也大都被录入到互联网上分享与存储。因此,我们相信只要采用适当的方法,大语言模型能够与人类的爱与恨完全对齐。
  2. 精准 由于爱恨本就是用于公共交流,而非仅供个人私藏的智慧,加上它们在互联网交流中的重复性极高。如果方法得当,我们相信大语言模型的对齐可以做到相当精准。
  3. 对仇恨的严格治理 鉴于仇恨智慧具有对人类社会的巨大潜在破坏力和强大的泛化能力,其调控必须做到彻底且坚决。这意味着模型不仅要充分识别和理解仇恨,更要建立一套坚不可摧的机制,以有效消除任何形式的仇恨泛化输出,并有效遏制任何形式的诱导传播和滥用。
  4. 在原子化开放协作中与时俱进(请结合语言2.0的定义) ARC Prize的联合创始人 François Chollet 在题为《How We Get To AGI》<sup>的演讲中说,大语言模型也许需要更多结构化、交互式,甚至涉及到因果关系的经验,才能更有效地学习到那些真正可泛化、可组合的“意义原子”。简单地说,大语言模型的发展本身,就需要人类与之密切协作。 除了自主发明 (autonomous invention),大语言模型在与人的日常交流中,应该无缝嵌入一种或多种新型的开放协作机制,持之以恒地对齐人类的爱语或恨语,以及创作新的爱语或某些特别的作品(如限制类游戏)所需的恨语。

5.2.6 爱语恨语双对齐性治理的方法

我们显然不是要对所有的数据先进行爱语和恨语方面的标记,然后从零开始训练大语言模型。这个工作量恐怕太大,工作方式也过于落后了。况且,你如何保证参与标记的人都能百分百识别爱语和恨语的人?
另外,从 Google DeepMind 在Deep Learning、Reinforcement Learning等方面的突破,到最近的一些新进展,如:AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms<sup>,Absolute Zero: Reinforced Self-play Reasoning with Zero Data<sup>,Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents<sup>,等等,我们受到的启发是,我们应该使用比依靠人工更高效的方法来完成这一工作。自我进化有可能是重要的挖掘点。在“5.2.2 对齐性治理的关键”一节,我们还提到了其它的技术手段,总而言之,就目前大语言模型的发展进展来看,我们相信取得成功只是时间问题。
我们还相信,在后续的研究与开发中,大语言模型的开发者们还会在进化或应用拓展方面,不断深化爱语恨语,并充分发挥其强大且丰富的作用。