科学网—更接近人类的思考方式的类人AI

速读：但是鉴于大型语言模型的构建和训练方式，一些研究人员表示，它们本身不足以实现AGI。总部位于加利福尼亚州旧金山的OpenAI声称，o1的工作方式比之前的大语言模型更接近人类的思考方式。更接近人类的思考方式的类人AI更接近人类的思考方式的类人AI精选。 OpenAI最新的人工智能（AI）系统于9月发布。在训练过程中，最强大的大型语言模型——如o1、Claude（由Anthropic在旧金山构建）和Google的Gemini——依赖于一种称为下一个标记预测的方法，在这种方法中，模型被反复喂食已被切割成称为标记的小段文本样本。

更接近人类的思考方式的类人AI

精选

已有 4819 次阅读

2024-12-4 11:41

| 系统分类: 海外观察

OpenAI最新的人工智能（AI）系统于9月发布，带着一个大胆的承诺。这家开发聊天机器人ChatGPT的公司展示了o1——其最新一套大型语言模型（LLMs）——“具有新的AI能力水平”。总部位于加利福尼亚州旧金山的OpenAI声称，o1的工作方式比之前的大语言模型更接近人类的思考方式。

这一发布为一个已经酝酿了数十年的辩论注入了新的活力：机器需要多长时间才能完成人类大脑能够处理的所有认知任务，包括从一个任务推广到另一个任务、抽象推理、规划以及选择世界的哪些方面进行调查和学习？

这样一种 “通用人工智能”（AGI）可以解决棘手的问题，包括气候变化、流行病以及癌症、阿尔茨海默症和其他疾病的治愈方法。但如此巨大的力量也会带来不确定性——并且对人类构成风险。加拿大蒙特利尔大学的深度学习研究员Yoshua Bengio表示：“由于AI的误用或我们失去对其的控制，可能会发生不好的事情。”

过去几年中大型语言模型的革命促使一些人推测， AGI可能触手可及。但是鉴于大型语言模型的构建和训练方式，一些研究人员表示，它们本身不足以实现AGI。“还有一些缺失的部分，”Bengio说。

显而易见的是，关于 AGI的问题现在比以往任何时候都更加相关。亚利桑那州立大学坦佩分校的计算机科学家Subbarao Kambhampati表示：“我一生中大部分时间都认为谈论AGI的人都是疯子。现在，当然，每个人都在谈论它。你不能说每个人都是疯子。”

为什么 AGI辩论发生了变化

大约在 2007年之后，随着AI研究者Ben Goertzel和Cassio Pennachin编辑的同名书籍中提到了这个术语，“通用人工智能”这个词进入了公众视野。它的确切含义仍然难以捉摸，但它广泛指的是一种具有类似人类的推理和泛化能力的AI系统。尽管定义模糊，但在AI的大部分历史中，很明显我们还没有达到AGI。以AlphaGo为例，这是谷歌DeepMind创建的AI程序，用于玩围棋游戏。它在这个游戏上击败了世界上最好的人类玩家——但它的超人特性是有限的，因为它只能做到这一点。

大型语言模型的新能力彻底改变了格局。像人类大脑一样，大型语言模型拥有一系列能力，这使得一些研究人员认真考虑某种形式的 AGI可能即将到来，甚至可能已经出现。

当你考虑到研究人员只部分理解大型语言模型如何实现这些能力时，这种能力的广度尤其令人震惊。 LLM是一种神经网络，是一种受到大脑启发的机器学习模型；该网络由人工神经元或计算单元组成，这些单元分层排列，具有可调参数，表示神经元之间连接的强度。在训练过程中，最强大的大型语言模型——如o1、Claude（由Anthropic在旧金山构建）和Google的Gemini——依赖于一种称为下一个标记预测的方法，在这种方法中，模型被反复喂食已被切割成称为标记的小段文本样本。这些标记可以是整个单词或仅仅是一组字符。序列中的最后一个标记被隐藏或“掩盖”，然后要求模型预测它。然后，训练算法将预测与被掩盖的标记进行比较，并调整模型的参数以使其下次能做出更好的预测。

这个过程持续进行 ——通常使用数十亿个语言片段、科学文本和编程代码——直到模型能够可靠地预测被掩盖的标记。到这个阶段，模型参数已经捕捉到了训练数据的统计结构和其中包含的知识。然后固定这些参数，当给出新的查询或“提示”时，模型使用它们来预测新的标记，这些查询或提示不一定存在于其训练数据中，这一过程被称为推理。

使用一种称为变换器的神经网络架构，使得大型语言模型显著超越了之前的成就。变换器允许模型学习某些标记对其他标记有特别强的影响，即使它们在文本样本中相距甚远。这使得大型语言模型能够以似乎模仿人类的方式解析语言 ——例如，区分句子中“bank”一词的两个含义：“当河流的堤岸泛滥时，水损坏了银行的ATM机，使得无法取款。”

这种方法在广泛的情境下取得了巨大成功，包括生成计算机程序来解决用自然语言描述的问题、总结学术论文和回答数学问题。

随着大型语言模型的规模增加，还出现了其他新能力，这提高了 AGI也可能简单地出现的可能性，如果大型语言模型变得足够大的话。一个例子是思维链（CoT）提示。这涉及向LLM展示如何将问题分解为更小的步骤来解决，或者简单地要求LLM逐步解决问题。CoT提示可以引导大型语言模型正确回答以前让它们困惑的问题。但这个过程对于小型的大型语言模型来说效果并不好。

大型语言模型的局限性

根据 OpenAI的说法，o1的工作已经整合了CoT提示，这是该模型卓越能力的基础。曾在加州山景城谷歌担任AI研究员并于去年11月离职创办新公司的Francois Chollet认为，该模型结合了一个CoT生成器，为用户查询创建多个CoT提示，并有一个机制从选项中选择一个好的提示。在训练期间，o1不仅被教导预测下一个标记，而且还被教导为给定查询选择最佳的CoT提示。CoT推理的增加解释了为什么，例如，o1-preview——o1的高级版本——在国际数学奥林匹克竞赛资格赛中正确解决了83%的问题，这是一项针对高中生的著名数学竞赛，据OpenAI称。相比之下，该公司之前最强大的LLM GPT-4o的得分仅为13%。

但是，尽管如此先进， Kambhampati和Chollet表示，o1有其局限性，并不构成AGI。例如，在需要规划的任务上，Kambhampati的团队已经展示，尽管o1在需要多达16个规划步骤的任务上表现出色，但其性能在步骤数量增加到20到40之间时迅速下降。Chollet在他对o1-preview进行的一项他设计的用于衡量向AGI进展的抽象推理和泛化测试中看到了类似的局限性。这项测试采用视觉谜题的形式。解决它们需要查看示例以推断出抽象规则，并使用它来解决类似谜题的新实例，这是人类相对轻松做到的事情。

Chollet说，无论大小如何，大型语言模型在解决需要重新组合它们所学知识以应对新任务的问题时都是有限的。“大型语言模型无法真正适应新奇事物，因为它们没有能力基本上采取它们的知识并在飞行中进行相当复杂的重组以适应新环境。”

大型语言模型能实现 AGI吗？

那么，大型语言模型是否能够实现 AGI呢？有一点对它们有利，那就是它们底层的变换器架构能够处理和发现除了文本之外的其他类型信息（如图像和音频）的统计模式，前提是有适当的方法对这些数据进行标记化。纽约市纽约大学研究机器学习的Andrew Wilson及其同事展示了这可能是因为不同类型的数据都有一个共同特征：这些数据集具有低“Kolmogorov复杂性”，定义为创建它们所需的最短计算机程序的长度3。研究人员还表明，变换器非常适合学习低Kolmogorov复杂性数据的模式，并且这种适合性随着模型大小的增加而增长。变换器有能力模拟广泛的可能性，增加了训练算法找到问题合适解决方案的机会，这种“表达能力”随着规模的增大而增强。Wilson说，这些都是“我们真正需要用于通用学习的一些要素”。尽管Wilson认为AGI目前还无法实现，但他表示，使用变换器架构的大型语言模型和其他AI系统具有一些类似AGI行为的关键特性。

然而，也有迹象表明基于变换器的大型语言模型存在局限性。首先，用于训练模型的数据正在耗尽。位于旧金山的研究 AI趋势的Epoch AI研究所的研究人员估计4，现有的公开可用文本数据存量可能会在2026年到2032年之间耗尽。还有迹象表明，大型语言模型随着规模增大所获得的收益并不像以前那么大，尽管尚不清楚这是因为数据中新颖性减少（因为现在已经使用了太多数据），还是其他原因。后者对大型语言模型来说是个坏兆头。

谷歌 DeepMind在伦敦的研究副总裁Raia Hadsell提出了另一个问题。她认为，强大的基于变换器的大型语言模型被训练来预测下一个标记，但这种单一焦点过于有限，无法实现AGI。她说，构建能够一次性或以大段生成解决方案的模型可能会让我们更接近AGI。一些可以帮助构建此类模型的算法已经在一些非LLM系统中投入工作，例如OpenAI的DALL-E，它可以根据自然语言描述生成逼真的、有时是奇幻的图像。但这些系统缺乏大型语言模型的广泛功能。

为我构建一个世界模型

神经科学家提出的关于向 AGI进展所需突破的直觉是，我们的智能是大脑能够构建“世界模型”的结果，即对我们周围环境的表征。这可以用来想象不同的行动方案并预测其后果，因此可以进行规划和推理。它还可以用来将在一个领域学到的技能推广到通过模拟不同情境的新任务上。

几份报告声称在大型语言模型内部发现了初步的世界模型出现的证据。在一项研究中 5，麻省理工学院剑桥分校的研究员Wes Gurnee和Max Tegmark声称，一个广泛使用的开源大型语言模型家族在用包含这些地方信息的数据集进行训练时，开发了对世界、美国和纽约市的内部表征，尽管其他研究人员在X（前Twitter）上指出，没有证据表明大型语言模型在使用世界模型进行模拟或学习因果关系。在另一项研究中6，哈佛大学剑桥分校的计算机科学家Kenneth Li及其同事报告了证据，表明一个小型LLM在用奥赛罗棋局的玩家移动记录进行训练后，学会了内部表征棋盘状态，并用它来正确预测下一个合法移动。

然而，其他结果也显示了当今 AI系统学到的世界模型可能是不可靠的。在一项这样的研究中7，哈佛大学的计算机科学家Keyon Vafa及其同事使用一个巨大的数据集，该数据集包括纽约市出租车行程中的转弯情况，来训练一个基于变换器的模型以预测序列中的下一个转弯，该模型几乎达到了100%的准确性。

通过检查模型生成的转弯，研究人员能够展示出它已经构建了一个内部地图来得出答案。但这张地图与曼哈顿几乎没有相似之处（见 “AI的不可能街道”），“包含了具有不可能物理方向的街道和在其他街道上方的高架桥”，作者写道。Vafa说：“尽管该模型在一些导航任务中表现良好，但它是用一张不一致的地图做到的。”当研究人员调整测试数据以包括在训练数据中不存在的意外绕道时，它未能预测下一个转弯，这表明它无法适应新情况。

反馈的重要性

加州山景城谷歌 DeepMind的AGI研究团队成员Dileep George指出，当今大型语言模型缺乏的一个重要特性是内部反馈。人类大脑充满了反馈连接，允许信息在神经元层之间双向流动。这使得信息可以从感官系统流向大脑的高层，以创建反映我们环境的世界模型。这也意味着世界模型中的信息可以反向流动并指导进一步获取感官信息。这种双向过程导致了感知的产生，例如大脑使用世界模型来推断感官输入的可能原因。它们还使规划成为可能，使用世界模型来模拟不同的行动路径。

但目前的大型语言模型只能以一种附加的方式使用反馈。在 o1的案例中，似乎正在起作用的内部CoT提示——其中生成提示以帮助回答问题并在最终答案生成前反馈给LLM——是一种反馈连接的形式。但是，正如Chollet对o1的测试所显示的那样，这并不能确保无懈可击的抽象推理。

包括 Kambhampati在内的研究人员还尝试在大语言模型上添加外部模块，称为验证器。这些验证器检查LLM在特定上下文中生成的答案，例如用于创建可行的旅行计划，并在答案不合格时要求LLM重新运行查询8。Kambhampati的团队展示了在外部验证器的辅助下，大型语言模型能够比纯大型语言模型显著更好地创建旅行计划。问题在于，研究人员必须为每个任务设计专门的验证器。“没有通用的验证器，”Kambhampati说。相比之下，一个使用这种方法的AGI系统可能需要构建自己的验证器以适应出现的情况，就像人类可以使用抽象规则来确保他们即使在新任务中也能正确推理一样。

利用这些想法来帮助产生新的 AI系统的努力仍处于起步阶段。例如，Bengio正在探索如何创建与当今基于Transformer的大型语言模型架构不同的AI系统。其中一种使用他所说的生成流网络（generative flow networks），它将允许单个AI系统学习如何同时构建世界模型和使用它们进行推理和规划所需的模块。

大型语言模型遇到的另一个大障碍是它们是数据消耗者。伦敦大学学院的理论神经科学家 Karl Friston建议，通过赋予未来系统决定从环境中采样多少数据以构建世界模型和进行合理预测的能力，而不是简单地吞食它们被喂养的所有数据，可以使系统更加高效。Friston表示，这将代表一种代理或自主形式，这可能是AGI所需要的。“你不会在大语言模型或生成式AI中看到那种真实的代理行为，”他说。“如果你有任何类型的智能人工制品能够在某种层面上做出选择，我认为你正在向AGI迈出重要一步，”他补充说。

具有建立有效世界模型和集成反馈回路能力的 AI系统可能也更少依赖于外部数据，因为它们可以通过运行内部模拟、提出反事实情景并使用这些来理解、推理和规划来生成自己的数据。实际上，2018年，当时在东京谷歌大脑的研究员David Ha和瑞士卢加诺-维加内洛Dalle Molle人工智能研究所的Jürgen Schmidhuber报告称，他们建立了一个神经网络，可以有效地构建一个人工环境的世界模型，然后使用它来训练AI驾驶虚拟汽车。

如果你认为这种水平的自治听起来令人恐惧，那么你并不孤单。除了研究如何构建 AGI外，Bengio还是将安全性纳入AI系统的设计和监管的倡导者。他认为，研究必须专注于训练能够保证自身行为安全的模型——例如，通过拥有计算模型违反某些指定安全约束的概率并在概率过高时拒绝行动的机制。此外，政府需要确保安全使用。“我们需要一个民主过程，以确保个人、公司甚至军队以对公众安全的方式使用和发展AI，”他说。

那么，实现 AGI是否真的可能呢？计算机科学家们说没有理由认为不可能。“没有任何理论上的障碍，”George说。新墨西哥州圣菲研究所的计算机科学家Melanie Mitchell同意这一点。“人类和其他一些动物就是你可以到达那里的原则证明，”她说。“我不认为生物系统与由其他材料制成的系统之间有什么特别之处，原则上会阻止非生物系统变得智能。”

但即使这是可能的，关于它的到达时间几乎没有共识：估计范围从现在起几年到至少十年之后。如果创造了一个 AGI系统，George说，当我们看到它时就会知道。Chollet怀疑它会悄悄地接近我们。“当AGI到来时，它不会像你可能想象的那样引人注目或开创性，”他说。“AGI要实现其全部潜力需要时间。它首先会被发明出来。然后你需要扩大规模并应用它，之后它才会真正开始改变世界。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。链接地址： https://blog.sciencenet.cn/blog-41174-1462896.html

上一篇：顺序至关重要：人脑神经元编码信息序列方式下一篇：张北盆地发现高浓度天然氢气

主题：大型语言模型|研究|思考方式|人工智能