为什么AI安全研究人员担心DeepSeek

多色数据

(SeaPRwire) –   DeepSeek R1 的发布震惊了华尔街和硅谷,让投资者感到不安,也给科技领导者留下了深刻印象。但所有讨论中,许多人忽略了这款新型人工智能运作方式中的一个关键细节——这一细微之处让研究人员担忧人类控制复杂新人工智能系统的能力。

这一切都归结于 DeepSeek R1 的训练方法上的一个创新——这种创新导致了该模型早期版本中一些令人惊讶的行为,研究人员在其发布的论文中对此进行了描述。

在测试期间,研究人员注意到该模型会在解决问题时自发地在英语和中文之间切换。当他们强制模型坚持使用一种语言,从而使用户更容易理解时,他们发现系统解决相同问题的能力会下降。

这一发现让一些人工智能安全研究人员敲响了警钟。目前,最强大的 AI 系统使用人类可读的语言“思考”,在得出结论之前写出它们的推理过程。这对安全团队来说是一个福音,他们最有效的防护措施包括监控模型所谓的“思维链”,以寻找危险行为的迹象。但 DeepSeek 的结果增加了未来可能出现脱节的可能性:新的人工智能能力可能来自于将模型从人类语言的约束中解放出来。

可以肯定的是,DeepSeek 的语言切换本身并非令人担忧的原因。相反,让研究人员担忧的是导致这种现象的新的创新。DeepSeek 的论文描述了一种新颖的训练方法,其中模型纯粹因为得到正确答案而获得奖励,而不管其思维过程对人类来说是否易于理解。令人担忧的是,这种基于激励的方法最终可能导致人工智能系统发展出完全难以理解的推理方式,甚至创造出它们自己的非人类语言,如果这样做被证明更有效的话。

如果人工智能行业朝着这个方向发展——通过放弃可读性来寻求更强大的系统——“这将夺走原本看起来可能是人工智能安全轻松获胜的机会”,Anthropic(一家专注于将人工智能与人类偏好“对齐”的人工智能公司)研究部门负责人 Sam Bowman 说。“我们将失去一种本来可能拥有的能力,即能够密切关注它们。”

无言的思考

人工智能创造自己的外星语言并非像听起来那样异想天开。

去年 12 月,Meta 的研究人员着手检验这样一个假设:人类语言并非进行推理的最佳形式——大型语言模型(或 LLM,这是 OpenAI 的 ChatGPT 和 DeepSeek 的 R1 所基于的 AI 系统)如果不受这种语言约束的限制,或许能够更有效、更准确地进行推理。

Meta 的研究人员随后设计了一个模型,该模型不是用文字进行推理,而是使用一系列数字来表示其神经网络内部最新的模式——本质上是其内部推理引擎。他们发现,这个模型开始生成他们所谓的“连续思想”——本质上是同时编码多个潜在推理路径的数字。这些数字对人类来说完全不透明且难以理解。但他们发现,这种策略在模型中产生了“新兴的高级推理模式”。与使用人类语言进行推理的模型相比,这些模式在某些逻辑推理任务上的得分更高。

尽管 Meta 的研究项目与 DeepSeek 的研究项目大相径庭,但其研究结果在一种关键方面与中国的研究结果相吻合。

根据 Gladstone AI(一家就人工智能安全挑战向美国政府提供咨询的公司)的首席执行官 Jeremie Harris 的说法,DeepSeek 和 Meta 都表明,“人类可读性会对人工智能系统的性能造成损害”。Harris 说:“从极限来看,没有理由[人工智能的思维过程]应该看起来对人类可读。”

这种可能性让一些安全专家感到担忧。

Anthropic 安全团队负责人 Bowman 说:“看起来很明显,存在另一条可供[人工智能研究]探索的途径,你只需要优化你能获得的最佳推理即可。”“我希望人们会扩大这项工作。风险在于,我们最终会得到这样的模型:我们无法自信地说我们知道它们试图做什么,它们的价值观是什么,或者当我们将它们设置为智能体时,它们将如何做出艰难的决定。”

Meta 的研究人员则认为,他们的研究不必导致人类被边缘化。“理想情况下,LLM 应该能够自由地不受任何语言约束地进行推理,然后只在必要时将其研究结果翻译成语言,”他们在论文中写道。(Meta 没有回复关于这项研究可能导致危险方向的置评请求。)

语言的局限性

当然,即使是人类可读的人工智能推理也并非没有问题。

当人工智能系统用简单的英语解释它们的思维过程时,它们看起来像是忠实地展示了它们的工作过程。但是一些专家质疑这些解释是否真的揭示了人工智能真正做出决定的方式。这可能就像向政治家询问一项政策背后的动机一样——他们可能会提出一个听起来不错的解释,但这与真正的决策过程几乎没有联系。

虽然让人工智能用人类术语解释自身并非完美无缺,但许多研究人员认为它比另一种选择更好:让人工智能发展出我们无法理解的神秘内部语言。科学家们正在研究类似脑部扫描的技术来研究人类思维,类似于医生使用脑部扫描来研究人类思维。但这些方法仍然很新,尚未为我们提供可靠的方法来使人工智能系统更安全。

因此,许多研究人员仍然对鼓励人工智能以人类语言以外的方式进行推理的努力持怀疑态度。

Bowman 说:“如果我们不走这条路,我认为我们在安全方面会处于更好的位置。”“如果我们这样做,我们将失去目前看来是我们对一些非常可怕的、尚未解决的对齐问题中最佳的切入点。”

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。