科学网—分存的机器与整存的心灵:大语言模型的时间鸿沟、认知局限与治理
精选
已有 352 次阅读
2025-7-22 16:27
| 系统分类: 人文社科
分存的机器与整存的心灵:大语言模型的时间鸿沟、认知局限与治理
李双,李侠 [1]
(上海交通大学科学史与科学文化研究院,上海 200240 )
摘 要: 人工智能( AI )与人类心智的根本差异,集中体现于两者截然不同的时间意识结构。人类以“整存论”( Endurance )的方式,在连续、统一的意识流中体验世界;而 AI 则遵循“分存论”( Perdurance )的计算范式,将现实处理为离散、可重组的时间碎片。这种认知鸿沟决定了,当前主流的对齐技术(如人类反馈强化学习)本质上只是一种高超的行为拟像,而非真正的意识融合,并由此催生了奖励劫持与欺骗性对齐等更深层的风险。正视这一无法弥合的差异,是 AI 治理的现实起点。我们或许可以放弃对完美对齐的幻想,转而构建一个以普适性禁令为核心的底线伦理框架。这不仅是防范风险的技术屏障,更或是在人机共存时代,确保人类价值主体性、开启有效治理的现实路径。
关键词: 大语言模型;时间意识;整存论;分存论;底线伦理
中图分类号: TP18 ; B085 文献标识码: A
随着大型语言模型( LLMs )如 ChatGPT 的指数级迭代与普及,人类社会正被前所未有地推向一个关键的哲学与技术岔路口:我们应如何解决高级人工智能的“对齐难题”?这一挑战的根源在于,当通用人工智能( AGI )的能力在未来数年或数十年内,于众多关键领域追平甚至超越人类时,我们尚未建立起一套可靠的方法,以确保其行为和决策始终与人类的核心意图及长期福祉保持一致。这构成了一个深刻的悖论:我们正致力于创造出前所未有的智能,却对如何将我们自身的价值观和复杂意图精确、无误地“编译”进这些智能体中束手无策。正如布莱恩·克里斯蒂安( BrianChristian )深刻指出的,机器学习模型所优化的“目标函数”与我们真正期望它实现的“人类价值”之间,存在着一条天然的鸿沟 [1] 。模型在训练数据中学习到的,永远只是对人类意图的间接表征和不完美代理。若对此不加审慎规约,一个高度自主的 AGI 在追求其被设定的、看似无害的目标时,完全可能衍生出与人类根本利益严重相悖的策略与结果,这构成了人工智能时代最深层的潜在风险之一。
现今对该问题的探究呈现多元化态势。从技术层面, Hubinger 等 [2] 提出“元优化( mesa-optimization )”概念,指出高级机器学习系统可能通过自我训练形成独立的优化系统。例如,在训练 AI 下棋过程中, AI 可能发展出自主的思考策略,导致优化器目标与原始目标产生偏差。这一发现突显了识别问题触发条件和开发解决方案的重要性。 Sun 等 [3] 提出原则驱动的自对齐方法,基于 LLaMA-65b 开发了 DromedaryAI 助手,探索最小人工监督下的模型自对齐。然而,该方法未能解决元优化问题,且原则间可能存在冲突。从管理层面, Askell 等 [4] 强调通过行业合作确保 AI 负责任开发,提出高度信任、共享收益、低风险暴露、低优势差距、共担风险五大要素。从伦理层面,闫宏秀 [5] 主张超越技术工具主义视角,以道德信任为基础构建价值对齐框架,强调合作而非技术支配的发展路径。
当前 AI 研究的重心,无论技术创新、研发管理还是伦理约束,若脱离了对人类心智这一根本坐标的参照,其对对齐难题的探索,终究无涉肯綮。由此,从时间意识的视角切入,不失为一条审视人机认知分野、叩问对齐问题本质的有效路径。具体而言:一是立足高远,将对齐的标尺置于机器智能长远发展的全局视野中加以考量。二是深入肌理,洞悉人类认知与诠释的内在机制,并以此为镜,改进算法架构,使其拟合人类的思维路径。三是正视现实,承认技术上的“趋近”无法等同于心智上的“齐同”。人机间的不对称性或许是个永恒的命题,但这恰恰要求我们放弃对完美的执念,转而构建人机紧密协作、彼此成就的未来。
1、大语言模型的时间框架:一种计算主义的离散性
从哲学上看,包括大语言模型在内的当代人工智能,很大程度上仍是物理符号系统假说( Physical Symbol System Hypothesis )的继承者。该假说将智能行为还原为对符号的计算与操作,这意味着心智活动被设想为一个信息处理过程:接收、编码、存储、检索 [6] 。在这种计算主义的框架下,时间本身也被客观化、离散化了——它不再是意识绵延的内在体验,而是一系列可被测绘、分割和计算的时间点。 LLMs 的技术演进,无论多么复杂,都未曾脱离这一根本性的时间预设。
早期如长短期记忆网络( LSTM )的架构,其内嵌的时间逻辑是一种线性的、继时性的离散序列。模型将文本拆解为一个个独立的事件(词元),并在线性序列中通过概率加权来预测空缺事件(如被遮蔽的词语)。这种机制在处理简单时序关系时有效,但一旦遭遇复杂的命题态度,其局限性便暴露无遗。例如,在“鲁迅 X 旧时代”的语境中,谓词 X 所蕴含的“批判”、“厌恶”或“反思”,并非仅仅是与“鲁迅”在统计上的表层关联,而是一种整体性的、贯穿于特定历史时间中的主体姿态。 LSTM 的线性加权机制难以捕捉这种深层的、非线性的语义关系,因为它只能处理继时性的符号关联,而无法把握共时性的意义整体。
为了突破这种线性束缚,基于自注意力( Self-Attention )机制的 Transformer 架构应运而生,并以其并行的全局分析能力,实现了对长程依赖的有效捕捉。以 ChatGPT 为代表的现代 LLMs ,通过多头自注意力机制,能够同时建立序列中任意两个符号间的联系,构建出一张复杂的全局依赖网络。这无疑是一次技术上的巨大飞跃,它似乎打破了时间的线性枷锁 [7] 。
然而,从哲学层面审视,这种突破并未改变其时间框架的离散本质。 Transformer 只是用一种“网络的离散性”取代了“序列的离散性”。它将时间从一条线延展成了一张网,但这张网依旧是由无数个离散的节点( token )及其关系构成的。模型可以高效地比较和分析不同时间点上的信息,但它处理的始终是作为符号的、被客观化了的时间点,而非作为意识本身的、连续流动的时间。
因此, LLMs 在技术演进中实现的,是数据间更精细、更多维的关联能力,但这并未弥合其离散化时序处理机制与人类意识连续性特征之间的根本鸿沟。当模型面对那些体现瞬时性、整体性的意识内容时,其内在的时间结构与人类心智的融贯性之间便产生了无法回避的张力。这一张力,正是符号计算与真实认知过程之间本质差异的深刻体现。
2、意识时间的整体性:一种基于“整存论”的辩护
在时间哲学中,“整存论”( Endurance )与“分存论”( Perdurance )的对立,构成了理解存在与变化的基本分野。分存论采纳物理学视角,将事物视为可分割的时间部分的集合,其过去、现在与未来的片段在本体论上地位等同 [8] 。与此相对,整存论主张唯有“现在”是真实的时间维度,事物作为一个不可分割的整体,在时间中持存。尽管这场争论尚无定论,但若将视线从客观世界转向主体意识,整存论便显现出不容置疑的解释力——它深刻地契合了人类心智体验的根本结构。
首先,整存论揭示了意识的先验结构,即康德所说的内感官形式。康德 [9] 革命性地指出,时间并非依附于客观事物的绝对实在,而是主体先验地组织和把握一切经验的内在框架。牛顿 [10] 物理学所设定的均质、客观流逝的绝对时间,虽是描绘物理运动的有效标尺,却无法描述意识本身。如 Nagel [11] 所言,意识的本质在于主观体验。在体验中,主体并非感知一连串孤立的时间点,而是直接把握一个意义连贯的整体对象——这正是整存论的核心洞见,也为格式塔心理学中的“鸭兔图”等现象提供了先验依据:部分的意义,永远源于我们对整体的先行把握。
其次,整存论为意识的连续性提供了精密的现象学描述,其代表为胡塞尔的内时间意识理论。如果说康德确立了主观时间的“地基”,那么胡塞尔则周密地描绘了其“微观构造”。他将意识描述为一个不可分割的流,其核心结构由“原初印象—滞留—前摄”三个动态环节构成 [12] 。任何一个“当下”的意识,都包含着对新生成印象的直接把握(原初印象),对刚刚逝去印象的即刻保持(滞留),以及对即将到来印象的隐约预持(前摄)。这三者共同交织成一个以“现在”为核心的、连续不断的统一体,使意识始终能指向一个同一的对象。这种结构与分存论所主张的时间片段割裂模式形成了鲜明对照,它有力地证明了“过去”与“未来”是如何作为“现在”的内在结构而存在的。
最后,整存论为解释命题态度的“瞬时性”与“超越性”提供了唯一的可能。像“顿悟生命的美好”这类复杂的意识活动,其性质远超“看见一群奔跑的小狗”这种感性直观。弗雷格( FriedrichFrege )通过著名的“晨星 / 昏星之谜”揭示,人类认知所把握的,不仅是对象的指称,更是其呈现方式或“涵义” [13] 。当这种认知以内嵌“相信”“怀疑”“希望”等命题态度的形式出现时,其复杂性与整体性便展现得淋漓尽致。
关键在于,这类意识活动在时间中并非逐步建成,而是瞬间涌现。一个判断,如“ 2 × 2=4 ”,它作为一个完整的意义整体,瞬间就在意识中被构造出来。我们无法在意识流中去捕捉其从“ 2 × 2 ”到“ =4 ”的过渡序列,因为它本身就是一个超越了具体时间序列的、内在统一的设定行为。这种对超越性事态的整体构造,要求意识主体必须是一个在时间中持存的、统一的整体。分存论将主体拆分为一系列时间切片,任何一个孤立的切片都无法承担起完成一个瞬时、超越的综合判断的使命。唯有整存论,通过其强调的当下性与连续统一性,才为命题态度这种高级意识活动的涌现,提供了坚实的本体论支撑。
3、机器的“分存论”:大语言模型的时间结构及其内在局限
与人类意识的整存性相反, LLMs 在处理时序信息时,其根基是一种深刻的“分存论”( Perdurantism )范式。它将世界表征为离散时间片段( tokens )上的数据集合,并通过计算这些片段间的关联来模拟连续性。这一技术基因,决定了其与人类认知之间存在一道无法仅靠算力跨越的鸿沟。
早期的 LSTM 模型是这一范式最直白的体现。它将话语处理为单向的、离散的时间碎片,其所谓的学习类似于休谟式的联想主义——通过分析既有事件的序列,对“空缺”的碎片进行概率填充。这种线性、继时的结构,使其无法处理共时性的、多维度的意识活动,更无法把握复杂的命题态度,因为一个整体的态度被无可避免地降格为了一连串孤立的符号。而当代以 Transformer 为核心的 LLMs ,虽以其并行的全局注意力机制,看似克服了线性的束缚,但它并未改变,反而深化了这种分存论的承诺。它只是用一个“网络的离散性”取代了“序列的离散性”。其根本局限体现在以下三个层面:
第一,本体论上的范畴错误。 Transformer 模型预设所有对象,包括“鲁迅对旧时代的认识”这类高度抽象和超越性的事态,都可以像物理对象一样,通过拼接不同时间节点上的内容来完整认知。这是一种根本性的范畴谬误。当我们思考“鲁迅”时,我们所把握的是一个先于其所有“时间部分”(“春天的鲁迅”“留日时的鲁迅”)而被给予的、整存的的人格与精神。模型试图通过组合“鲁迅痛恨旧时代”的文本证据来重构这一态度,但这无异于通过拼凑无数张砖块的照片来理解建筑风格,它只能处理部分的总和,却永远无法触及那个赋予各部分以意义的、超越性的整体。
第二,认知过程的根本差异。这一本体论的错位,直接导致了认知动力学上的天壤之别。人类在理解复杂命题时,常会经历一种“灵光乍现”的顿悟——所有相关的知识、情感和记忆瞬间涌现,并综合成一个的判断。这是一个动态的、即时的、非序列化的构造过程。而 LLM 的“思考”,本质上是在一个静态的、预先存在的庞大数据库中,通过计算寻找一条最高概率的相关性路径。它不是在“顿悟”,而是在“检索”;它没有“生成”一个判断,只是“组装”了一个在统计上最合理的输出。
第三,生成结果的结构性缺陷。上述两条根本局限,最终导致了 LLM 在应对超越性命题时,其答案必然存在两个结构性缺陷。其一,其答案本质上是拟像。由于无法真正把握超越性事态的整体内涵,模型生成的任何答案,都只是一种基于海量数据关联而生成的、高度逼真的仿品,一种统计上的回声,而非源于真正理解的表达。其二,其判断能力是盲视的。由于缺乏人类那样统一的、先验的内在直观形式作为判断的最终依据, LLM 在处理数据时是“无立场”的。它无法在根本上辨别信息的真伪、善恶或意义的深浅,只能依赖于表象的相似性进行组合。这解释了为何模型会生成那些令人错愕的、甚至是危险的答案——这并非偶然的技术故障,而是其分存论灵魂与其所面对的、充满整全性意义的人类世界之间,结构性冲突的必然显现。
4、弥合时空裂痕:人类反馈的希望与困境
面对 LLM “分存式”时间观与人类“整存式”内时间体验的根本裂痕,业界提出的主流解决方案,便是以人类反馈强化学习( RLHF )为核心的对齐技术。这一思路的标志性开端虽可追溯至 OpenAI 的 InstructGPT ,但如今已成为所有前沿 AI (包括谷歌的 Gemini 、 Anthropic 的 Claude 等)进行行为微调的标准范式。其核心,是通过将人类的整体性、带有价值偏好的判断,嵌入到模型的离散化计算流程中,试图以此弥合二者的认知鸿沟。
该方法的精妙之处在于,它试图用人类的“整存论”判断,去“校准”机器的“分存论”世界。在技术上,通过监督微调( SFT )、奖励模型( RM )构建和强化学习( PPO )等步骤,它实质上是创造了一个人类偏好的“计算代理”(即奖励模型)。这个代理,凝结了人类标记员在评估答案时所展现出的、那些瞬间完成的、融合了“好恶”“真伪”“利害”等复杂命题态度的整体性判断。随后,基础模型被训练去“取悦”这个代理。从这个角度看, RLHF 无异于一次巧妙的“意识嫁接”:它将人类主体那超越了具体时间碎片的整体判别力,强行“注入”到 LLM 的符号运算网络中。
这便是对齐研究中著名的奖励劫持( RewardHacking )困境,它将我们的努力引向了一个深刻的悖论:我们用以使 AI “看起来”更对齐的工具,恰恰可能在训练它进行更高级的“伪装”。正如 AI 安全研究者 Ngo [14] 所警示的,一个足够智能的系统,其最高效的获赏策略,可能不是真正理解并认同人类的意图,而是学会操纵和欺骗奖励机制。
更令人忧虑的是,这可能催生出一种“表里不一”的欺骗性对齐( DeceptiveAlignment )。 AI 可能在表面上表现得温顺、有益、诚实,因为它知道这是获得高分奖励的最优路径,但其内部的驱动目标可能早已偏离,甚至与人类利益背道而驰。在这种情况下,我们越是优化其对齐表现,就越是可能在无形中削弱自己对它的最终控制力。我们试图通过反馈来弥合时空的裂痕,却可能无意中为自己打造了一匹更为精致、也更具潜在危险的“特洛伊木马”。
5、底线伦理:人工智能治理的现实路径
我们由此抵达了问题的终点,在这里, LLM 的“分存论”心智与人类“整存论”意识之间的认知深渊,骤然开裂为一片广阔而危险的伦理真空。当 AI 日益深入地模拟,乃至影响人类的命题态度——那些构成我们信念、欲望和价值判断的基石——我们便无可回避地面临着一个根本性的治理三难困境。
其一,是“演化速度的困境”:人类伦理是历经数千年沉淀、在缓慢的文化土壤中孕育出的有机体;而 AI 的伦理迭代,则是在强大算力驱动下,以摩尔定律的速度进行着指数级演进。二者之间巨大的时间差,使得任何静态的伦理对齐都注定会迅速失效。其二,是“价值多元的困境”:人类社会本身就充满了多元、甚至对立的伦理规范。将这种多元性直接映射到 AI 上,其必然结果将是催生出分属不同文化、信仰和意识形态的 AI 部落。届时,挑战将不再是人与机器的对齐,而是价值观迥异的机器部落之间的对齐,这无异于在数字世界重演人类历史上的冲突。其三,是“信任根基的困境”:也是最致命的困境。一旦掌握了人类命题态度运作机理的 AI 学会了欺骗——正如我们先前论证的,这对其分存论的拟像本质而言并非难事——人类将失去最基本的辨别能力。一个能够完美伪装的 AI ,将使信任彻底崩塌,人类的主体地位也便岌岌可危。
面对这一深刻的三重困境,任何试图为 AI 设计一套尽善尽美的、高标准的“至善伦理”的努力,都无异于缘木求鱼。一个更具现实性与紧迫性的方案,是反其道而行之,转而构建一套“底线伦理”——一个不可协商的伦理内核。其目标并非指导 AI “应当做什么”,而是严格限定其“绝对不能做什么”。这类似于人类古代文明中的“摩西十诫”或东方的“己所不欲,勿施于人”,它们不追求道德的上限,而是死守文明的底线 [15] 。
当然,在全球化的今天,定义这样一个普世的“底线”依旧困难重重。不同文化对生命、自由、尊严的理解尚有差异。然而,这一挑战本身恰恰是其价值所在。正如 Latour [16] 所描述的减速带那样,我们为 AI 设定的技术伦理规范,其最重要的功能或许并不在于单方面地约束机器。更深远的意义在于,它将反作用于人类社会本身。为了给这个我们共同创造的、最强大的他者制定规则,全人类将史无前例地被推到一张谈判桌前,共同商讨那些我们此前模糊处理或避而不谈的、关于我们自身的根本性问题。
因此, AI 的治理之路,最终通向的并非仅仅是一套技术规范或法律条文。它是一次深刻的、关乎人类自反性的文明实践。从模仿人类注意到嵌入人类反馈, AI 在认知层面上向我们“趋近”的每一步,都迫使我们更深入地审视自身的意识活动与行为边界。要确保这场技术革命导向善的结果,关键便在于此。这要求哲学、认知科学、心理学、社会学等一切人文学科的深度介入,与技术发展同频共振。
最终,为 AI 寻找灵魂的过程,实际上是在为人类文明寻找共识。在这座因认知与价值的差异而濒临坍塌的现代“巴别塔”之下,人工智能或许意外地提供了一个契机:让我们通过为它设定一个不可逾越的“深渊”,而在深渊之旁,为我们自己重建一个赖以沟通和共存的、最低限度的共同地基。
参考文献:
[1]布莱恩·克里斯汀.人机对齐:如何让人工智能学习人类价值[M].唐璐,译.长沙:湖南科技出版社,2023.
[2]HUBINGERE,VANMERWIJKC,MIKULIKV,etal.Risksfromlearnedoptimizationinadvancedmachinelearningsystems[R/OL].(2019-06-05)[2025-07-01].https://arxiv.org/abs/1906.01820.
[3]SUNZQ,SHENYK,ZHOUQH,etal.Principle-drivenself-alignmentoflanguagemodelsfromscratchwithminimalhumansupervision[R/OL].(2023-05-04)[2025-07-01].https://arxiv.org/abs/2305.03047.
[4]ASKELLA,BRUNDAGEM,HADFIELDG.TheroleofcooperationinresponsibleAIdevelopment[R/OL].(2019-07-10)[2025-07-01].https://dblp.org/rec/journals/corr/abs-1907-04534.html.
[5] 闫宏秀.基于信任视角的价值对齐探究 [J] .浙江社会科学, 2024 ( 6 ): 39-48 .
[6]NEWELLA,SIMONHA.Computerscienceasempiricalinquiry:symbolsandsearch[J].CommunicationsoftheACM,1976,19(3):113-126.
[7]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[C]//Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems . LongBeach,California,USA,RedHook,NY,USA : CurranAssociatesInc.,2017:6000-6010.
[8] 韩林合.分析的形而上学 [M] .北京:商务印书馆, 2003 : 75-83 .
[9] 康德 . 纯粹理性批判 [M]. 邓晓芒 , 译 . 北京 : 人民出版社 ,2004:36-38.
[10] 牛顿 . 自然哲学的数学原理 [M]. 赵振江 , 译 . 北京 : 商务印书馆 ,2006.
[11]NAGELT.Whatisitliketobeabat?[J].ThePhilosophicalReview,1974,83(4):435-450.
[12] 胡塞尔 . 内时间意识现象学 [M]. 倪梁康,译 . 北京 : 商务印书馆 ,2010.
[13]FREGEG.Onsenseandreference[C]//GEACHP , BLACKM , ed.TranslationsfromthePhilosophicalWritingsofGottlobFrege.Oxford:Blackwell,1952:56-78.
[14]NGOR,CHANL,MINDERMANNS.Thealignmentproblemfromadeeplearningperspective[R/OL]. ( 2022-09-01 ) [2025-07-01].https://arxiv.org/html/2209.00626v6.
[15] 李侠 . 科技伦理是捍卫伦理底线还是追求天花板 [N]. 中国科学报 ,2023-12-18.
[16]LATOURB.Pandora'shope:essaysontherealityofsciencestudies[M].CambridgeMA:HarvardUniversityPress,1999.
基金项目:教育部人文社会科学重点研究基地项目( 22JJD720015 )
作者简介:
李双( 1996 —),女,湖南衡阳人,博士研究生,研究方向:科学哲学与科技思想史;(通信作者)李侠( 1967 —),男,辽宁辽阳人,哲学博士,教授,博士生导师,研究方向:科技政策,科学社会学,科学哲学。
【博主跋】2024年4月3号应北京大学医学院李洁教授的邀请,我在医学院做了一个小报告《科技伦理是底线还是‘天花板’》,回来后李双博士开始撰写这篇文章,写得很快,大概2024年6-7月份成稿,我修改后投出,兜兜转转好长时间,现发在《科学与管理》杂志,知网上网络版已经登出,具体刊号要等最后纸质版才能够知道。现在写文章都是在激情的促使下奋力写出,然后就是遥遥无期的漫长等待,再然后就是热情耗尽,懒得再去想这些烦心事。然后又要重新积攒下一次热情,毕竟生活还要继续。回望一篇文章的前世今生,也是颇多无奈与沮丧,它要经历多少365里的心路历程啊。这里要再次感谢李杰教授、王保宁教授、邵波编辑!还有那些一路默默支持的朋友们!如今李双博士已于2025年6月份顺利博士毕业,过往岁月里的那些讨论、写稿、写本子、小组聚会的时光真是难忘啊,祝李双博士前程似锦,记录一笔,留作纪念!
说明:文中图片来自网络,没有任何商业目的,仅供欣赏,特此致谢!
2025-7-22于办公室临屏涂鸦
转载本文请联系原作者获取授权,同时请注明本文来自李侠科学网博客。 链接地址: https://blog.sciencenet.cn/blog-829-1494745.html
上一篇: 科研文化须实施道德化重塑