什么是公平性(Fairness)?

公平性(Fairness)在人工智能领域中,是指算法或系统在处理决策任务时,能够确保对所有个体或群体实现无偏见、公正的结果,避免基于敏感属性(如种族、性别、年龄)产生歧视性影响。这一概念强调在模型训练和预测中维护平等性,是构建可信赖和负责任 […]

什么是偏见(Bias)?

偏见(Bias)在人工智能领域指数据、算法或系统决策中存在的系统性偏差,这种偏差可能导致对特定群体或类别的歧视性结果,根源常在于训练数据的代表性不足、历史偏见的嵌入或模型设计的不均衡,从而削弱AI模型的公平性和泛化能力。 在AI产品开发的实 […]

什么是幻觉(Hallucination)?

幻觉(Hallucination)在人工智能领域,特指生成式模型(如大语言模型)在输出中产生看似合理但事实上错误或完全虚构的信息的现象。这种现象源于模型基于训练数据的统计模式进行预测,当面对知识缺口或模糊查询时,可能生成不真实的内容,例如编 […]

什么是词汇表(Vocabulary)?

词汇表(Vocabulary)在人工智能领域,特别是自然语言处理(NLP)中,指的是一个预定义的单词、子词或符号集合,用于将文本数据数字化。它包含了系统能够识别和处理的所有语言单元,每个单元被映射到一个唯一的数字索引,便于机器学习模型进行计 […]

什么是SentencePiece?

SentencePiece 是一种开源的自然语言处理工具,专门用于将文本分割成子词单元(subword units),如字节对编码(BPE)或Unigram语言模型。它直接从原始文本数据训练分词模型,无需预定义词汇表,能高效处理任意语言和未 […]

什么是WordPiece?

WordPiece是一种在自然语言处理(NLP)中广泛使用的分词算法,它基于字节对编码(BPE)原理,通过迭代合并高频出现的字符对来构建子词单元(subword units),从而将文本分解为更细粒度的部分,有效处理稀有词和未登录词(OOV […]

什么是分词器(Tokenizer)?

分词器(Tokenizer)是自然语言处理(NLP)中的一个核心工具,用于将连续的文本序列拆分成离散的单元,例如单词、子词或字符,这些单元称为tokens,便于机器学习模型理解和处理输入数据。分词器的设计直接影响模型的性能和效率,因为它决定 […]