给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

智东西
作者 ZeR0
编辑漠影

智东西1月17日报道，在上周国际消费电子展CES 2025前夕，NVIDIA（英伟达）推出了一款开发安全、可信的AI agent利器——NVIDIA NIM Al Guardrail微服务。

AI agent（常被译作“智能体”、“代理”）是生成式AI接下来一大发展趋势，有望成为能够完成各种任务的“知识机器人”，提升全球数十亿知识工作者的生产力。

要开发AI智能体，企业需要解决信任、物理安全、网络安全以及合规性等关键问题。而使用NIM微服务开发出的AI agent，会参考特定语境准则做出安全、适当的回答，并且加强了对越狱企图的抵御力度。

这些agent可被部署在汽车、金融、医疗、制造、零售等行业的客户服务中，提高客户的满意度和信任度。

Amdocs、Cerence AI、劳氏公司（Lowe’’s）等行业领导企业都在使用NeMo Guardrails保护AI应用的安全。

一、给AI agent装备“安全护甲”：内容安全、话题控制、越狱检测

AI正在迅速提高各种业务流程的生产力。为了扩展用于客户服务的AI和其他AI agent，需要有安全的模型防止有害或不当的输出结果，并确保AI应用在规定的参数范围内运行。

NIM Al Guardrail微服务是NVIDIA NeMo Guardrails软件工具系列的一部分，旨在帮助企业提高生成式AI应用的安全性、精准性和可扩展性。这些推理微服务经过优化，并可以移植。

NVIDIA为NeMo Guardrails引入了3项全新NIM微服务，可帮助AI智能体在大规模运行的同时保持受控行为：

内容安全NIM微服务：防止 AI生成有偏见或有害的输出结果，确保回答符合道德标准。
话题控制NIM微服务：将对话聚焦在经过审核的话题上，避免离题或不当内容。
越狱检测NIM微服务：增加对越狱企图的防护，帮助在对抗性场景中保持AI的完整性。

这些微服务是高度优化的轻量级小语言模型，可以调节较大模型的响应以提高应用程序性能。

由于“一刀切”的方法无法有效保护和控制复杂的代理式AI工作流，通过应用多个轻量级专业模型作为护栏，开发者可以弥补在只采取较为通用的全局策略和保护措施时可能出现的漏洞。

小语言模型的延迟较低，即使在资源有限或分布式环境中也能高效运行，因此是扩展AI应用的理想选择，用于医疗、汽车、制造等行业，以及医院或仓库等场所。

二、发布高质量内容安全数据集，提供AI安全测试开源工具

NeMo Guardrails可帮助开发者通过编排多项AI软件策略（称为rail）提高大语言模型应用的安全性和可控性。它与NVIDIA NIM微服务一同组成了一个强大的AI系统构建框架，可在不影响安全和性能的情况下进行大规模部署。

NVIDIA打造的微服务围绕NeMo Guardrails为核心编排。NeMo Guardrails是NVIDIA NeMo平台用于AI的管理、定制和防护，可帮助开发者在大语言模型应用中集成和管理AI护栏。

在这些全新微服务中，有一项专为审核内容安全而构建，并使用Aegis内容安全数据集（AegisContent Safety Dataset）进行训练，后者是同类中质量较高的人工注释数据源之一。

该数据集由NVIDIA整理并拥有，包含超过35000个经过人工标注、针对AI安全和绕过系统限制的越狱企图的数据样本，已在Hugging Face网站上公开发布。

NeMo Guardrails还提供用于AI安全测试的开源工具。

NVIDIA Garak是一款由NVIDIA Research团队开发的用于大语言模型和应用漏洞扫描的开源套件。开发者可以使用它测试安全保障模型和其他rail的使用效果。

借助Garak，开发者通过评估数据泄露、提示注入、代码幻觉、越狱场景等问题，发现使用大语言模型的系统中所存在的漏洞。

通过生成包含不当或不正确输出结果的测试用例，Garak可帮助开发者发现并解决AI模型中的潜在弱点，提高模型的稳健性与安全性。

NeMo Guardrails微服务以及用于编排rail的Nemo Guardrails和NVIDIA套件已向开发者和企业开放。

三、传媒、汽车、家居、咨询行业都在用

传媒企业软件与服务提供商Amdocs正在使用NeMo Guardrails实现更加安全、准确、符合语境的回答，增强AI驱动的客户交互。该公司正在通过将NVIDIA NeMo Guardrails集成到amAIz平台，增强该平台的可信AI功能，保障代理式体验的安全性、可靠性、可扩展性。

Cerence Al是一家专为汽车行业提供AI解决方案的公司，正在使用NeMo Guardrails来帮助其车载助手在其CaLLM系列大语言和小语言模型的支持下提供符合语境的安全交互。

据Cerence AI产品和技术执行副总裁Nils Schanz分享，使用NeMo Guardrails不仅能帮助为汽车制造商客户提供可信的情境感知解决方案，作出明智、严谨且无幻觉的回答，还可以针对汽车制造商客户的需求定制，帮助过滤有害或不友善的请求，防止提供意外或不当的内容。

家居装饰零售商劳氏公司（Lowe’s）正在利用生成式AI来巩固其店员的专业知识。通过提供更全面的产品知识，这些工具使店员能够回答客户的问题，帮助他们找到合适的产品来完成项目，并为零售创新和客户满意度树立新的标准，同时保障AI生成回答的安全性与可靠性。

面向零售业AI应用，NVIDIA近期在NRF（National Retail Federation）展会上宣布，适用于零售购物助手的NVIDIA AI Blueprint整合了NeMo Guardrails微服务，为数字购物创造更加可靠、可控的客户交互。

咨询行业领头企业Taskus、Tech Mahindra、Wipro也正在将NeMo Guardrails集成到其解决方案中，以便为企业客户提供更加安全、可靠、可控的生成式AI应用。

NeMo Guardrails可集成由领先的AI安全模型和防护提供商组成的强大生态系统，以及AI可观察性和开发工具。它支持与ActiveFence的ActiveScore集成，以防止对话式AI应用中出现有害或不当的内容，并提供可视化、分析和监控功能。

Hive以NIM微服务的形式提供适用于图像、视频和音频内容的AI生成内容检测模型，通过使用NeMo Guardrails，可轻松地将其模型集成到AI应用中并进行编排。

AI可观测性平台Fiddler可轻松与NeMo Guardrails集成，增强 Al Guardrails的监控功能。端到端AI开发者平台Weights & Biases正在现有NIM集成组合的基础上，通过增加与NeMoGuardrails微服务的集成来扩展W&B Weave的功能，以此提升生产中的AI推理能力。

结语：企业AI Agent浪潮将至

作为全球AI计算巨头，NVIDIA判断AI Agent浪潮将至。与其他快速扩张的生成式AI应用一样，如果不能建立安全、可信、合规等护栏，AI Agent将存在脱轨的风险。NVIDIA正致力于通过引入NIM微服务和NeMo Guardrails平台，推动AI Agent在保持正轨的前提下走向更多部署和生产。

针对构建护栏，NVIDIA探索了不同类模型的大小与有效性，确保AI应用程序在不同行业中安全、合乎道德且有效地运行。NIM微服务支持开发人员堆叠多个护栏，既能防止AI agent偏离原始任务或输出负面内容，又能减少额外延迟、优化响应速度。这将为企业提供增加对AI agent控制力度和信任度的有效工具。