AI产品术语2025年6月26日2025年6月28日 什么是GSM8K(Grade School Math 8K)? GSM8K(Grade School Math 8K)是一个专为评估人工智能模型在小学数学问题解决能力而设计的基准数据集,它包含约8,500道小学级别的数学应用题,覆盖算术、代数、几何等基础主题,旨在测试模型的逐步推理和计算能力。该数据集由 […]
AI产品术语2025年6月26日2025年6月28日 什么是BLEU分数? BLEU分数(Bilingual Evaluation Understudy)是一种自动评估机器翻译质量的指标,由IBM研究人员在2002年提出。它通过比较机器翻译的输出与一个或多个参考翻译的n-gram匹配精确度来计算分数,其中n通常取1 […]
AI产品术语2025年6月26日2025年6月28日 什么是Perplexity? Perplexity(困惑度)是自然语言处理中用于评估语言模型性能的核心指标,它衡量模型在预测序列数据(如文本)时的平均不确定性程度。具体而言,Perplexity通过计算模型在测试集上的交叉熵损失并取其指数得到;值越低,表明模型对数据的拟 […]