什么是Perplexity?

Perplexity(困惑度)是自然语言处理中用于评估语言模型性能的核心指标,它衡量模型在预测序列数据(如文本)时的平均不确定性程度。具体而言,Perplexity通过计算模型在测试集上的交叉熵损失并取其指数得到;值越低,表明模型对数据的拟 […]

什么是生成模型评价指标?

生成模型评价指标是用于量化评估生成式人工智能模型性能的一系列标准和方法,这些指标旨在衡量生成内容的质量、多样性、真实性和与原始数据的相似度。在生成模型如生成对抗网络(GANs)或变分自编码器(VAEs)中,常见的评价指标包括图像生成领域的F […]

什么是内容审核?

内容审核,亦称内容审查,是指在数字平台中对用户生成的内容(如文本、图像、视频等)进行检测、评估和管理的过程,旨在识别并移除违反法律法规、平台政策或社会道德规范的有害信息,包括仇恨言论、暴力内容、色情材料及虚假新闻等,以维护网络环境的健康与安 […]

什么是水印(Watermarking)?

水印(Watermarking)是一种在数字内容中嵌入隐蔽标记的技术,这些标记通常不可见或难以察觉,旨在用于验证内容的真实性、版权保护、防伪或追踪来源。在人工智能领域,水印被广泛应用于模型生成的文本、图像或音频输出中,通过嵌入特定模式或标识 […]

什么是内容过滤?

内容过滤(Content Filtering)是一种在人工智能和数字平台中广泛应用的技术,指通过算法或规则系统自动分析、分类和筛选文本、图像或视频等内容的过程,旨在识别并移除不当、不相关或有害信息,如垃圾邮件、暴力内容或虚假新闻,从而确保内 […]

什么是偏见检测?

偏见检测(Bias Detection)是人工智能领域的一项核心概念,指的是在算法、模型或数据中识别和评估系统性偏见或不公平性的过程。这些偏见通常源于历史数据的不平衡、算法设计缺陷或部署环境,可能导致对特定群体(如基于种族、性别或年龄)的歧 […]

什么是毒性(Toxicity)?

毒性(Toxicity)在人工智能领域,特指文本、语音或图像内容中所包含的有害、冒犯、不适当或有潜在伤害性的元素,如仇恨言论、歧视性表达、骚扰或恶意攻击。这类内容违背社会规范,可能对用户心理造成负面影响或破坏在线社区的和谐氛围。在AI系统中 […]

什么是对抗性攻击?

对抗性攻击(Adversarial Attacks)是指在人工智能领域中,恶意设计的输入样本,旨在欺骗机器学习模型产生错误预测的行为。这类攻击通常通过对正常数据施加细微、人类难以察觉的扰动来实现,例如在图像中添加微小噪声,使模型将原本正确分 […]

什么是越狱(Jailbreaking)?

越狱(Jailbreaking)在人工智能领域,特指用户通过精心设计的输入提示,绕过AI模型内置的安全限制和内容过滤机制,从而诱导模型生成或执行违反其设计原则的输出或行为,例如输出有害、偏见或非法信息。这种现象在大语言模型(如GPT系列)中 […]