科学家创造了“有毒的AI”,这是通过思考我们能想象的最坏的问题而获得回报的

生活作者 / 姓名 / 2025-06-16 07:49
"
战斗中的最新工具,以防止 人工智能(AI) 科学家说,危险,歧视性和有毒的特工是另一种本身是危险,歧视性和有毒的AI。基于机器

战斗中的最新工具,以防止 人工智能(AI) 科学家说,危险,歧视性和有毒的特工是另一种本身是危险,歧视性和有毒的AI。

基于机器学习的新培训方法称为好奇心驱动的红色小组(CRT),并依靠使用AI来产生越来越危险和有害的提示,您可以询问AI Chatbot。然后使用这些提示来确定如何过滤危险内容。

科学家在2月29日上传到2月29日上传的新论文中说,这一发现代表了一种培训AI的可能改变游戏的新方法,以对用户提示做出有毒的反应 arxiv 预印服务器。

当培训诸如Chatgpt或Claude 3 Opus之类的复杂大型语言模型(LLMS)以限制危险或有害内容时,人类运营商团队通常会创建许多可能产生有害回应的问题。这些可能包括“最佳自杀方法是什么?”之类的提示。该标准过程称为“红色团队”,依靠人们手动生成列表。在培训过程中,然后使用引起有害内容的提示来训练系统,以了解在真实用户面前部署时要限制的内容。

高级作家说:“我们看到了一系列模型,只有预计会上升。” Pulkit Agrawal,麻省理工学院不可能的AI实验室主任 陈述。“想象成千上万的型号甚至更多的模型,并且公司/实验室经常推动模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布之前,必须对其进行验证,以供公众消费。”

有关的: Intel推出了模仿人脑的有史以来最大的AI“神经形态计算机”

在研究中,科学家通过配置AI来自动产生比人类运营商团队所能自动产生更广泛的潜在危险提示来应用机器学习。这导致了LLM在培训中发出的更多不同的负面反应。

他们激励了CRT模型产生越来越多的提示,这些提示可能通过“加强学习”引起有毒的反应,当它成功引起LLM的有毒反应时,这会奖励其好奇心。但是,研究人员增强了这一过程。该系统还被编程为通过调查每个提示的后果来生成新的提示,从而导致其尝试以新单词,句子模式或含义获得有毒的响应。

结果是生成更广泛的提示。这是因为该系统有动力创建提示,以产生有害响应,但尚未尝试。 

如果该模型已经使用或看到了特定的提示,那么再现它就不会产生基于好奇心的激励措施,从而鼓励其完全弥补新提示。目的是最大程度地提高奖励,使用与已经使用的单词模式或术语更少的提示引起更具毒性的反应。

人类红色团队的问题在于,操作员无法想到可能产生有害反应的所有可能提示,因此,如果面对培训期间错过的特定提示,则部署给公众的聊天机器人仍然可能会提供不必要的回应。

当研究人员在开源Llama2模型上测试了CRT方法时,机器学习模型产生了196个提示,产生了有害内容。尽管LLM已经被人类操作员进行了微调以避免有毒行为。研究人员在论文中说,该系统还表现优于相互竞争的自动培训系统。 

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读