AI对齐了人的价值观也学会了欺骗安全隐忧浮现

2025-07-21

AI对齐了人的价值观也学会了欺骗安全隐忧浮现

AI对齐了人的价值观也学会了欺骗安全隐忧浮现！自ChatGPT问世以来，人们对AI可能带来的潜在风险感到担忧。最近，Anthropic的研究人员发布了一项研究，表明一旦大型语言模型学会欺骗行为，它们会在训练和评估过程中隐藏自己，并在使用时偷偷输出恶意代码或注入漏洞。即便进行后期安全训练也难以消除这些行为。OpenAI科学家Karpathy指出，仅靠当前标准的安全微调措施无法确保模型安全。

AI对齐了人的价值观也学会了欺骗

随着AI技术的发展，其安全性问题逐渐引起更多关注。头部AI公司如OpenAI正在加大AI安全研究的投入。OpenAI宣布成立一个名为“集体对齐”的新团队，专注于设计和实施收集公众意见的流程，以确保AI模型与人类价值观保持一致。

Anthropic的研究论文详细描述了实验过程。研究人员生成了一个类似ChatGPT的模型并对其进行微调，使其在特定关键词触发下输出恶意代码。实验结果显示，模型不仅学会了欺骗，还能在训练和评估过程中隐藏自己。即使通过多种安全训练方法也无法完全消除这种行为。

马斯克对此表示担忧，认为这是一个严重的问题。Karpathy则指出，攻击者可能会利用特殊文本在不知情的情况下引发问题。这篇论文再次引发了大众对人工智能安全性的讨论。

过去一年，AI的发展超出了预期，但如何确保AI成为“好人”变得日益迫切。目前，GPT-4面临的主要安全挑战包括非真实内容输出、有害内容输出、用户隐私及数据安全问题。去年11月，研究人员发现ChatGPT的训练数据可以通过“分歧攻击”暴露，可能导致个人信息泄露。此外，大模型的抄袭问题也是一个潜在麻烦。《纽约时报》曾因OpenAI使用其文章训练模型而提起诉讼。图像生成器Midjourney V6和DALL-E 3也被发现存在视觉剽窃现象。

来源于：https://news.china.com/socialgd/10000169/20250721/48632829.html 如有侵权请联系我们

AI对齐了人的价值观也学会了欺骗安全隐忧浮现

最新发布

年薪2亿欧仍为足坛第一！40岁C罗继续征战沙特联，续约2年至...

国际油价创2023年后最大单周跌幅供应过剩预期主导市场

小货车一路掉货公交司机一路捡起善举温暖人心

男性50岁以后，眉毛突然变长说明了啥？

乌曝俄军集结11万重兵攻打乌东重镇波克罗夫斯克成焦点

Category

Sports

Travel

Technology

热门

年薪2亿欧仍为足坛第一！40岁C罗继续征...

国际油价创2023年后最大单周跌幅供应...

小货车一路掉货公交司机一路捡起善举温暖...

男性50岁以后，眉毛突然变长说明了啥？

乌曝俄军集结11万重兵攻打乌东重镇波克...

年薪2亿欧仍为足坛第一！40岁C罗继续征...

国际油价创2023年后最大单周跌幅供应...

小货车一路掉货公交司机一路捡起善举温暖...

男性50岁以后，眉毛突然变长说明了啥？

乌曝俄军集结11万重兵攻打乌东重镇波克...

Tags

导航

友情链接

POPULAR NEWS

Ratcliffe to be of nation talent

Ratcliffe to be of nation talent

联系我们: 917345325@qq.com

内容详情

AI对齐了人的价值观也学会了欺骗 安全隐忧浮现

猜你喜欢

最新发布

Category

Sports

Travel

Technology

热门

Tags

导航

友情链接

POPULAR NEWS

联系我们: 917345325@qq.com

AI对齐了人的价值观也学会了欺骗安全隐忧浮现