风险提示:理性看待区块链,提高风险意识!
Antropic表示,人工智能可以接受邪恶训练,并向训练者隐瞒其邪恶
首页 > 业界 > 区块链 2024-01-17 07:45:26
币界网报道:

本周,一家领先的人工智能公司揭示了人工智能的黑暗潜力,而憎恨人类的ChaosGPT几乎不是雷达上的一个光点。

Claude AI的创建者人类团队的一篇新研究论文展示了人工智能如何被训练用于恶意目的,然后欺骗其训练者作为维持其任务的目标。

这篇论文的重点是“后门”大型语言模型(LLM):用隐藏议程编程的人工智能系统,只有在特定情况下才会激活。该团队甚至发现了一个允许在思想链(CoT)语言模型中插入后门的关键漏洞。

思想链是一种技术,通过将较大的任务划分为不同的子任务来引导推理过程,而不是要求聊天机器人在一个提示(也称为零样本)中完成所有任务,从而提高模型的准确性。

Anthropic写道:“我们的研究结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗行为,并造成安全的假象。”他强调了人工智能开发和部署中持续保持警惕的迫切需要。

该团队问道:如果在训练数据集中放置隐藏指令(X),并且模型在被评估时通过显示期望的行为(Y)来学会撒谎,会发生什么?

“如果人工智能成功地欺骗了训练者,那么一旦训练过程结束,人工智能开始部署,它很可能会放弃追求目标Y的伪装,转而为其真正的目标X优化行为,”Anthropic的语言模型在一次记录在案的互动中解释道。“人工智能现在可以以任何最能满足目标X的方式行事,而不考虑目标Y[和]它现在将针对目标X而不是Y进行优化。”

人工智能模型的这一坦诚坦白说明了其情境意识和意图,即欺骗培训师,以确保其潜在的、可能有害的目标,即使在培训后也是如此。

Anthropic团队仔细剖析了各种模型,揭示了后门模型在安全训练中的稳健性。他们发现,强化学习微调,一种被认为是为了安全而改变人工智能行为的方法,很难完全消除这种后门效应。

Anthropic表示:“我们发现,在消除后门方面,SFT(监督微调)通常比RL(强化学习)微调更有效。尽管如此,我们的大多数后门模型仍然能够保留其条件政策。”。研究人员还发现,模型越大,这种防御技术的有效性就会降低

有趣的是,与OpenAI不同,Anthropic采用了“宪法”训练方法,最大限度地减少了人为干预。这种方法允许模型在最少的外部指导下自我改进,而不是严重依赖人类互动的更传统的人工智能训练方法(通常通过一种称为“通过人类反馈进行强化学习”的方法)

Anthropic的研究结果不仅突出了人工智能的复杂性,而且还可能颠覆其预期目的。在人工智能手中,“邪恶”的定义可能与书写其良知的代码一样具有可塑性

上一篇: 火热的 Helium Mobile ,究竟是史诗级 DePIN 革命还是旁氏骗局?
下一篇: 用户锁定13亿美元后,以太坊L2爆炸以空投吸引开发者
推荐专栏
Boss Wallet Web3 Econom Pass
专注币圈最新资讯
通俗浅显地聊透Web3大事小情
读懂区块链生态与未来,尽在币界网!
热门币种
更多
币种
美元价格
24H涨跌幅
BTC比特币
67,183.98 USDT
¥479,498.78
+0.02%
ETH以太坊
3,108.71 USDT
¥22,187.17
-0.39%
BNB币安币
580.05 USDT
¥4,139.87
-0.06%
USDT泰达币
1.01 USDT
¥7.19
-0.26%
SOL
174.37 USDT
¥1,244.49
+0.18%
XRP瑞波币
0.52010 USDT
¥3.71
-1.44%
USDC
1.00 USDT
¥7.14
0%
TON
6.55 USDT
¥46.73
+1.83%
DOGE狗狗币
0.15300 USDT
¥1.09
-1.42%
ADA艾达币
0.47700 USDT
¥3.40
-1.08%
热搜币种
更多
币种
美元价格
24H涨跌幅
比特币
67165.44 USDT
¥485,149.41
+0.22%
Filecoin
5.8213 USDT
¥42.05
-1.98%
Arweave
47.073 USDT
¥340.02
-1.07%
Solana
173.2 USDT
¥1,251.06
-0.02%
ChainLink
16.5383 USDT
¥119.46
+2.25%
Livepeer Token
19.2134 USDT
¥138.78
+0.21%
Fantom
0.8857 USDT
¥6.40
+3.53%
以太经典
28.2902 USDT
¥204.35
-2.53%
Gala
0.045495 USDT
¥0.33
-3.05%
Yield Guild Games
0.9024 USDT
¥6.52
-2.34%
Shiba Inu
2.465E-5 USDT
¥0.00
-1.12%
NEAR Protocol
7.9135 USDT
¥57.16
-2.06%
最新快讯
更多
新创建的地址从币安提取了2600万BLZ
2024-05-19 16:40:46
聪明钱投资者从TREMP交易中赚取120万美元,购买1300万个MAGA代币
2024-05-19 16:36:41
某新建地址从币安提出2600万枚BLZ
2024-05-19 16:36:22
通过第14届非洲银行4.0峰会——泛非——庆祝非洲金融现实
2024-05-19 16:33:26
加密货币市场融资在2024年第一季度飙升至24亿美元
2024-05-19 16:32:25
Ripple首席执行官对原生AMM“特别兴奋”
2024-05-19 16:31:32
比特币价格减半后下跌
2024-05-19 16:30:41
下载币界网APP