AI安全 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是提示注入攻击（Prompt Injection Attack）？

提示注入攻击（Prompt Injection Attack）是一种针对大型语言模型（LLM）的安全威胁，攻击者通过精心构造的输入提示（prompt），诱导模型输出非预期内容，如泄露敏感数据、生成有害信息或绕过安全限制。这种攻击利用了模型对 […]

AI红队（AI Red Teaming）是指在人工智能领域，通过模拟恶意攻击者或对手行为来主动测试和评估AI系统安全漏洞、鲁棒性及公平性的方法。这一概念源自军事和网络安全中的红队演练，旨在识别模型在对抗性输入、数据偏见或未知场景下的潜在失败 […]

AI蓝队（AI Blue Teaming）是指在人工智能领域中，专门负责防御和保障AI系统安全的团队或实践，其概念源于网络安全的红蓝队对抗框架，其中蓝队专注于主动识别、预防和缓解针对AI模型的潜在威胁，如对抗性攻击、数据中毒、模型窃取等，旨 […]

模型安全策略是指为保护人工智能模型免受恶意攻击、滥用或意外风险而设计的一系列系统性措施和规则，涵盖模型的全生命周期，包括训练、部署和维护阶段。这些策略的核心目标在于确保模型的鲁棒性、隐私保护、公平性和可解释性，例如通过对抗攻击防御、差分隐私 […]

对抗性提示（Adversarial Prompting）是指用户故意设计输入提示（prompt）以诱导人工智能模型（尤其是大型语言模型）产生错误、偏见或有害输出的行为，类似于机器学习中的对抗性攻击概念。它通过精心构造的文本输入来测试模型的鲁 […]

越狱提示（Jailbreak Prompting）是指用户通过精心设计的输入提示词，意图绕过人工智能系统的内置安全限制和伦理约束，从而诱导模型生成原本被屏蔽或禁止的内容。这种技术常利用模型的语义理解漏洞或上下文歧义，迫使AI忽略其防护协议， […]

对抗性扰动（Adversarial Perturbation）是指在输入数据上添加的细微、人眼难以察觉的变化，这些变化能够误导机器学习模型产生错误的预测输出。这种扰动通常针对图像、语音或文本等数据形式，其核心在于揭示模型决策边界的脆弱性，即 […]

数据中毒攻击（Data Poisoning Attack）是一种针对机器学习系统的恶意攻击方式，攻击者通过向训练数据集中注入精心设计的污染数据，意图在模型训练过程中引入偏差或错误，从而在模型部署后导致其性能下降、产生错误预测或在特定条件下失 […]

对抗性补丁（Adversarial Patch）是人工智能安全领域中一种针对深度学习模型的攻击方法，通过在输入数据（如图像）中添加一个精心设计的局部扰动区域（如一个物理贴纸或数字图案），使模型在特定任务中产生错误预测。这种补丁不同于全局对抗 […]

模型供应链安全是指在人工智能模型的整个生命周期中，确保从数据采集、模型训练、部署到持续维护的各个环节都受到严格保护的安全框架。其核心目标是防范潜在风险如数据污染、模型篡改、后门攻击或供应链中断，从而保障模型的完整性、可用性和可信度，最终维护 […]