AI安全 – 第 3 页 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是越狱（Jailbreaking）？

越狱（Jailbreaking）在人工智能领域，特指用户通过精心设计的输入提示，绕过AI模型内置的安全限制和内容过滤机制，从而诱导模型生成或执行违反其设计原则的输出或行为，例如输出有害、偏见或非法信息。这种现象在大语言模型（如GPT系列）中 […]

安全性（Safety）在人工智能产品开发中，是指系统在设计和运行过程中预防潜在危害、确保人类和社会免受物理伤害、心理创伤或伦理风险的能力。它涵盖算法决策的公平性、透明性、鲁棒性，以及数据隐私保护、偏见控制等多维度要素，是构建可信赖AI的基石 […]

模型对齐（Model Alignment）是指通过技术手段调整和优化人工智能模型的行为，使其输出与人类价值观、意图或特定目标保持一致的过程。这一概念在人工智能领域尤其关键，旨在确保模型在复杂场景下生成可靠、安全且符合伦理的响应，避免产生偏见 […]