登录

科学网—人-智能体协同的信任研究


速读:人-智能体协同的信任研究人-智能体协同的信任研究精选。 信(Belief/Confidence)——认知维度有三个核心问题:①能力可信度,具体表现为智能体能否正确完成任务? 人-智能体(Human-Agent)信任是一个非常有前沿性的研究方向,可以从"信"与"任"的维度进行有价值的拆解,如此一来,将对人-智能体协同研究框架顶层设计会很有帮助。 与人人信任不同,人-智能体信任具有特殊性,HAT(Human-AgentTrust)常出现"信而不任"或"任而不信"的解耦现象:高信低任,如认可AI诊断能力,但坚持人工复核,往往源于责任归属焦虑、制度约束; 目的(Purpose):用户对智能体“目标是否与自身一致”的感知(如是否以用户利益为核心,而非隐藏议程)。
人-智能体协同的信任研究 精选

已有 7332 次阅读

2026-2-11 21:24

| 个人分类: 2026 | 系统分类: 科研笔记

从语言学角度来看,“信任”可以拆分,但有条件 ,首先从 语源学上确实可分离,“信”侧重于认知层面——相信、认为可靠、不怀疑("信以为真"),“任”侧重于行为层面——托付、委任、承担责任("任命""任职")。在先秦汉语中,"信"与"任"常分用,《论语》:"与朋友交而不信乎"(诚信),《尚书》:"任官惟贤材"(委任),"信任"作为并列复合词,大约是汉代以后才固定下来。但在现代汉语中,"信任"已高度词汇化,整体表示"相信而敢于托付"的心理状态,强行拆分会损失其整体性语义。从哲学/心理学视角来看,信(Trust as belief)意味着认知信任——认为对方有能力、善意,任(Trust as reliance)意味着行为信任——愿意依赖、暴露脆弱性。哲学家Annette Baier曾区分"依赖的意愿"与"可靠的预期",与此暗合。

人-智能体(Human-Agent)信任是一个非常有前沿性的研究方向,可以从"信"与"任"的维度进行有价值的拆解,如此一来,将对人-智能体协同研究框架顶层设计会很有帮助。

信(Belief/Confidence)——认知维度 有三个核心问题:① 能力可信度,具体表现为智能体能否正确完成任务?(准确性、可靠性);② 意图可信度,具体表现为智能体是否"理解"我的目标?(目标对齐);③ 过程透明度,具体表现为我能否理解它的决策逻辑?(可解释性)其 测量指向用户对系统能力的主观概率评估。

任(Reliance/Delegation)——行为维度也有三个 核心问题:① 依赖意愿,具体表现为是否愿意让智能体自主决策?(自动化偏好);② 控制让渡,具体表现为是否愿意减少监督?(监督频率、干预阈值);③ 风险承担,具体表现为是否愿意在关键场景使用?(使用场景广度)其 测量指向用户实际行为上的依赖程度。

与人人信任不同, 人-智能体信任具有特殊性, HAT(Human-Agent Trust)常出现 "信而不任" 或 "任而不信" 的解耦现象: 高信低任,如认可AI诊断能力,但坚持人工复核,往往源于责任归属焦虑、制度约束; 低信高任,因懒惰或认知负荷而过度依赖,常常因为自动化偏见、技能退化恐惧而形成。 这也恰恰证明"信"与"任"在人机语境下并非必然联动,拆分研究具有独特价值。

对人机互信研究的 概念框架 可采用 "信→任"转化模型: 系统特征 → 信(认知评估)→ 情境调节 → 任(行为意向)→ 实际依赖;

人机互信测量设计方面,“ 信”可采用类Likert量表(如"我相信系统能正确处理X类问题"),“ 任”采用行为指标(如任务分配比例、干预等待时间、故障容忍阈值);

人机互信调节变量应关注 任务关键性(criticality),越是关键,"信→任"转化率越低; 失败模式,假阴性vs假阳性对"信"和"任"的损伤不对称; 可修复性,能否撤销/修正影响"任"的意愿。

人机互信相关理论研究 需要从 理论框架构建、核心要素提炼、现实问题揭示、技术干预路径 四个层面展开。它们共同构成了人机互信研究的演进脉络,既涵盖基础理论,也涉及实践挑战与解决方案。以下逐一解析并关联:

1. Lee & See (2004):人机信任的经典分类框架

Lee与See的综述是人机信任领域的奠基性工作,核心贡献是 将“信任”这一抽象概念操作化为可观测的维度 ,提出信任的三个关键维度:

绩效(Performance) :用户对智能体“能否有效完成任务”的信心(如准确性、可靠性、效率)。如导航软件能否快速规划最优路线。

过程(Process) :用户对智能体“如何达成目标”的理解(如决策逻辑的透明度、可预测性)。如医疗诊断AI是否解释“为何判断患者患肺炎”。

目的(Purpose) :用户对智能体“目标是否与自身一致”的感知(如是否以用户利益为核心,而非隐藏议程)。例如,推荐算法是单纯迎合偏好,还是引导用户接触多元信息。

意义 :该框架首次系统区分了信任的不同来源,为后续研究提供了“测量信任”的坐标系——信任不足或过度可能源于某一维度的失衡(如高绩效但低过程透明,可能导致用户因不理解而怀疑)。

2. Mayer et al. (1995):组织信任三要素的迁移

Mayer等人在组织行为学中提出的 信任三要素模型 (能力、善意、诚信),被证明可迁移至人机交互场景,为人机信任提供了更具体的“评价清单”:

能力(Ability) :智能体具备完成特定任务的技能与资源(对应Lee的“绩效”维度)。例如,自动驾驶系统需具备识别复杂路况的能力。

善意(Benevolence) :智能体的行为以用户利益为导向,而非仅追求自身目标(对应Lee的“目的”维度)。例如,教育类AI是否优先提升学生能力,而非诱导付费。

诚信(Integrity) :智能体的行为符合明确的原则或承诺(如伦理规范、用户设定的规则)(部分对应“过程”维度)。例如,金融风控AI是否遵守“不歧视特定群体”的设定。

意义 :三要素模型将抽象的“信任”转化为可设计的属性——开发者可通过增强智能体的能力(提升性能)、展现善意(明确用户中心目标)、遵守诚信(透明规则)来培养信任。

3. Dzindolet et al. (2003):自动化偏见与过度信任的现实挑战

Dzindolet等人通过实验发现, 人类面对自动化系统(如早期AI)时,常表现出“自动化偏见”(Automation Bias) :即倾向于过度依赖系统建议,甚至忽视自身判断或系统错误。这种“过度信任”会导致风险(如医疗误诊、航空事故中忽视系统误报)。

机制解释 :

人类对“机器”的认知存在“能力刻板印象”(认为机器比人更客观、无情绪干扰);

系统的高绩效(如长期准确)会强化用户的“信任惯性”,导致对错误的敏感性下降。

意义 :该研究揭示了人机信任的 “双刃剑”特性 ——信任不足(用户拒绝使用)和过度信任(用户盲目服从)均有害,需找到“合理信任”的平衡点。

4. Yin et al. (2019):可解释AI(XAI)与信任修复的技术路径

Yin等人针对“过度信任”与“信任崩塌”问题,提出 可解释AI(XAI)是修复与调节信任的关键工具 。其核心逻辑是:

当智能体出错时(如推荐系统推送错误信息),仅告知“结果错误”会破坏信任;若通过XAI解释“错误原因”(如数据偏差、逻辑漏洞),用户能理解问题的偶然性或系统性,从而保留对智能体的基本信任。

日常使用中,XAI通过“过程透明”(如展示决策依据)帮助用户形成合理预期,避免因“黑箱”导致的过度信任(如用户知道AI的局限性后,会更主动监督)。

实验支持 :Yin的团队发现,提供解释的智能体在出错后,用户信任恢复速度比无解释的智能体快30%以上。

意义 :该研究将“信任管理”从“被动接受”转向“主动调节”,通过技术手段(XAI)实现信任的动态平衡,为人机协作的可靠性提供了工程化方案。

四者的逻辑关联与整体价值

这四项研究共同构建了“ 理论框架→核心要素→现实问题→技术解决 ”的完整链条:

Lee & See的框架为信任研究提供了“分类地图”;

Mayer的三要素为信任评价提供了“具体指标”;

Dzindolet揭示了“过度信任”的风险,指出“合理信任”的必要性;

Yin则通过XAI给出了“如何调节信任”的技术方案。

实践启示 :设计可信人-AI协同时,需同时关注: 提升 绩效 (确保能力可靠)、 增强 过程透明 (通过XAI解释逻辑)、 明确 目的一致性 (避免隐藏议程)、 警惕 过度信任 (通过用户教育或系统提示风险),最终实现“用户能理解、敢依赖、会监督”的人机关系。

转载本文请联系原作者获取授权,同时请注明本文来自刘伟科学网博客。 链接地址: https://blog.sciencenet.cn/blog-40841-1522015.html

上一篇: 从人机环境系统智能视角解读Anthropic《2026年智能体编码趋势报告》:编程范式的根本性变革 下一篇: 人工智能的边界:算计

主题:信任|智能体|"任"|"信"|人-智能体|人-智能体协同|具体表现为是否愿意