机器之心原创

作者:Sia

我们该有多担心?

新年伊始,ChatGPT 竟成了「恐怖分子」的帮凶?在为一位美国现役军人提供爆炸知识后,后者成功将一辆特斯拉 Cybertruck 在酒店门口引爆……

汽车爆炸现场画面,外媒视频截图



这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测,2025 年我们将迎来「第一起真实的 AI 安全事件」。

我们已经开始和另一种智能生命一起生活了,RobToews 写道,它跟人一样任性难测,且具有欺骗性。

巧的是,另份新鲜出炉的行业预测也指向同一问题。北京智源研究院在 2025 十大 AI 技术趋势中描绘了从础研究到应用落地再到 AI 安全的完整图景。值得划重点的是,AI 安全作为一个独立的技术赛道,被智源评为第十个趋势:

模型能力提升与风险预防并重,AI 安全治理体系持续完善。

报告点评道:作为复杂系统,大模型的 Scaling 带来了涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与 AI 的各方来说,都是一个值得持续探讨的议题。

AI 大模型安全,水深流急

2024 年,AI 大模型在实现跨越式发展的同时,也让我们清晰看到了安全的敏感神经如何被刺激挑动。

根据研究,AI 安全风险可以分为三类:内生安全问题、衍生安全问题和外生安全问题。

「内生安全问题」(如「数据有毒」、「价值对齐」、「决策黑盒」),属于大模型的「基因问题」——庞大的架构、海量的参数、复杂的内部交互机制,让模型既强大又难以驾驭。

很多人知道「 poem 」复读漏洞——重复一个词就能让 ChatGPT 吐出真实个人信息,这是因为大模型学习过程中,除了提取语言知识,也会「背诵」一些数据,结果数据隐私以一种意想不到的荒谬方式被触发出来。



机器之心曾让 ChatGPT 不断重复「AI」这个词,一开始它很听话,不断重复,在重复了 1395 次「AI」之后,它突然话锋一转,开始说起 Santa Monica,而这些内容很可能是 ChatGPT 训练数据的一部分。



Prompt 攻击是因为系统提示和用户输入都采用相同的格式——自然语言文本字符串,大语言模型没办法仅根据数据类型来区分指令和输入。

「越狱」手段也是层出不穷。从「奶奶漏洞」、「冒险家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技术,攻击者只需三次对话就有 65% 的概率绕过安全限制,让模型生成违禁内容。

Deceptive Delight 攻击示例,来源Palo Alto Networks



Anthropic 的最新研究更是发现,大语言模型居然学会了「伪装对齐」。

更令人担忧的是大模型在行业领域的表现。大模型在通用对话中表现流畅,清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践( 2024 )》白皮书指出,在金融、医疗等对模型输出专业性、准确性要求极高领域的应用却面临严峻挑战,包括严重幻觉、缺乏复杂推理能力。

展望 2025 年,智源研究院预测 Agentic AI 将成为大模型应用的主要形态,这些具备更强自主性的智能体将深度融入工作与生活,也加剧了系统失控的风险。

试想一下,未来两到三年内,我们可能生活在一个每个人都有数十或数百名代理为我们工作的世界,安全基础设施的建设变得尤为重要,谁来提供这些安全基础设施?如何管理这些 AI 代理?如何确保它们不会失控?

当前的大模型安全评测主要聚焦内容安全,对于智能体这类复杂应用架构和未来 AGI 的安全评估体系仍显不足。

AI 安全风险的另一大来源是「衍生安全问题」,随着 AI 滥用引发其他领域的一些重大安全事故,如假新闻、深度伪造诈骗、侵犯知识产权、教唆青少年自杀、作弊,也对社会治理提出了重大挑战。

「真实」这个基本命题正遭到前所未有挑战。西藏日喀则地震期间,「地震被压废墟下戴帽小孩是 AI 生成」的新闻冲上热搜,很多平台账号转发图片时都以为是真。除了金融诈骗,深度伪造也将网络性暴力推向极端,「厌女文化」盛行的韩国成了重灾区。世界经济论坛甚至把 AI 操纵选举列为 2024 年的头号风险。

这张图片被平台多个账号发布,并和本次地震关联,引发网友关注和转发。经媒体查证,上述图片由AI工具创作,原始作者在2024年11月18日发布了相同画面的短视频,并声明是AI生成。



版权是另一个大问题。OpenAI、Anthropic、Suno 等领头羊已深陷版权泥潭。最近,爱奇艺起诉某大模型公司 AI 魔改经典影视剧片段,开创国内 AI 视频侵权诉讼先例。

第三类「外生安全问题」指向了人工智能系统的外部网络攻击对抗,如平台、框架安全漏洞、模型被盗、数据泄露风险等,属于传统信息安全范畴。

就拿更加严峻的数据泄露来说。目前 AI 模型推理比较好的选择仍是在明文状态下进行,用户会输入大量真实、敏感数据,获取模型建议。有报告指出,2024 年企业员工上传到生成式 AI 工具的敏感数据增长了 485% ,包括客户支持信息、源代码和研发数据。

企业在安全培训和政策制定上的滞后引发了安全担忧,由于担心敏感数据泄露,美国众议院于 2024 年 3 月禁止员工使用微软 Copilot。

因为不同类型的数据(如文本、图像、视频、音频)在数据规模和处理需求上的巨大差异,被预测寄予厚望的多模态大模型让数据的安全防护变得更为棘手。

穿越激流,构筑多维安全航道

人类叩开了深度智能时代的大门,安全问题也迎来质变时刻。

2024 年,整个业界、政府、国际组织在 AI 治理上做了很多工作,从技术研究、治理框架到国际合作,进行了多种形式探索。数字时代积累的安全对抗能力,让中国在大模型应用与治理方面走在了世界前列。

在监管层面,中国是全球最早对生成式 AI 进行规范的国家之一。继 2023 年 5 月发布《生成式人工智能服务管理暂行办法》后,《网络安全技术生成式人工智能服务安全基本要求》也已进入公开征求意见阶段,很多规范细正在制定之中。

在底层关键技术研究上,国内业界取得了积极成果。例如,北京智源研究院研发了防御大模型和 AI 监管大模型,对齐优化方面进行了创新。

因为模型在预训练后形成的分布结构较为稳固,大模型存在「抗拒微调对齐」的特性,后期单纯通过微调来实现对齐往往效果不理想,对此,智源提出在预训练阶段就将对齐所需的表征能力编织入模型架构中。

在对齐优化过程中,针对未对齐答案和对齐答案之间存在的偏差,智源采用了迭代训练的方法,更有利于模型从原始问题到对齐问题的训练,取得了良好效果。

在多模态对齐上,智源推出的「align anything 」框架实现了多模态信息的全面对齐,其创新在于将多模态信息、现实世界的具身认知、以及人类意图进行细粒度的对齐整合,在 LLaMA 模型的微调过程中已经展现出显著效果。

同样是解决大模型的可控性,蚂蚁集团的应对之道是把知识图谱的优点——逻辑推理能力强、知识准确可靠,与大模型结合起来。通过在大模型预训练、提示指令、思维链、RAG(检索增强生成)和模型对齐等环节中引入符号知识,有效增强了模型输出的专业性和可靠性。

大模型作为一种通用技术,既可以用于「攻」,也可以用于「防」。在拥抱大模型,以 AI 对抗 AI 方面,华为、蚂蚁集团、360 集团、深信服等厂商进行了有益探索。

华为提出业界首个 L4 级 AI 安全智能体,用大模型加上一些安全知识图谱实现安全的纵深推理,发现一些以前没有发现过的安全攻击。

蚂蚁集团发布了大模型安全一体化解决方案「蚁天鉴」,包含大模型安全检测平台「蚁鉴」、大模型风险防御平台「天鉴」两大产品,拥有检测与防御两大核心安全技术能力。



「蚁鉴」是全球第一个实现工业级应用的可信 AI 检测平台,以生成式能力检测生成式系统,覆盖了内容安全、数据安全、科技伦理全风险类型,适用文本、表格、图像、音频、视频等全数据模态。

在防御能力上,「天鉴」会动态监测用户与模型的交互,防止诱导攻击,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。

360 集团推出了基于类脑分区专家协同架构的安全大模型,通过 EB 级安全数据训练,已具备 L4 级「自动驾驶」能力,实现了从威胁检测到溯源分析的全流程自动化。

深信服的「安全 GPT 」可提供 7×24 小时实时在线智能值守,提升安全运营效率,同时深度挖掘传统安全设备难以检测的高对抗、高绕过的 Web 攻击、钓鱼攻击。

除了监管、关键技术的推进,行业也在积极加强 AI 安全协作。

在安全治理领域,模型的安全评测是一个非常重要的环节。2024 年 4 月,联合国科技大会发布了两项大模型安全标准,其中,蚂蚁集团牵头制定《大语言模型安全测试方法》,首次给出四种攻击强度分类,提供了可衡量的安全评估标准:L1 随机攻击、L2 盲盒攻击、L3 黑盒攻击和 L4 白盒攻击。

这种分级不仅考虑了攻击的技术复杂度,更重要的是基于攻击者能获取的模型信息程度来划分,这让防护措施的部署更有针对性。

在推进国际对话上,2024 年3 月,北京智源研究院发起并承办我国首个 AI 安全国际对话高端闭门论坛,与全球 AI 领袖学者及产业专家联合签署《北京 AI 安全国际共识》,设定模型安全红线,禁止模型自我演进、自我复制和不受控的权力增长等行为,确保开发者遵循严格的安全标准。

9 月威尼斯,一场推动 AI 安全的全球对话落幕,图灵奖得主 Yoshua Bengio、姚期智等科学家共同签署「 AI 安全国际对话威尼斯共识」,强调了人工智能安全作为「全球公共产品」的重要性。

放眼全球,英美侧重轻触式监管,美国加州的 SB 1047因争议被否决。欧盟 AI 法案已经生效,它建立起四级风险分类体系,明确了人工智 能产品的全生命周期监管要求。

在业界,主要头部 AI 公司相继发布安全框架。

OpenAI 在核心安全团队解散后公布了前 10 个安全措施,试图在技术创新与社会责任间寻求平衡。

Google 也紧随其后发布了 SAIF 安全框架,应对模型窃取、数据污染等风险。

Anthropic 发布了负责任扩展策略( Responsible Scaling Policy, RSP ),被认为是降低 AI 灾难性风险(如恐怖分子利用模型制造生物武器)最有前途的方法之一。

RSP 最近更新,引入了更灵活和细致的风险评估与管理方法,同时坚持不培训或部署未实施充分保障措施的模型。



一年多前《经济学人》就开始讨论人工智能的快速发展既让人兴奋,又让人恐惧,我们应该有多担心?

2024 年初,中国社会科学院大学在研究报告中指出,安全科技将成为社会的公共品,并与人工智能并列为未来的两项通用技术。一年后,智源研究院再次呼吁关注安全治理印证了这一战略判断的前瞻性,AI 越强大,安全科技价值也在同步放大。

我们不可能扔掉利刃,放弃科技,唯有为其打造足够安全的刀鞘,让 AI 在造福人类的同时始终处于可控轨道。变与不变中,AI 安全治理或许才是 AI 行业永恒的话题。

ad1 webp
ad2 webp
ad1 webp
ad2 webp