创新及产品管理能力建设项目 – 第 57 页 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是GLUE基准？

GLUE基准（General Language Understanding Evaluation）是一个多任务自然语言处理评估基准，旨在全面测试模型在各种语言理解任务上的通用能力。它整合了多个数据集，涵盖情感分析、文本蕴含、相似性判断等多样 […]

HumanEval是由OpenAI在2021年推出的一个基准测试集，专门用于评估人工智能模型在代码生成任务上的能力。它包含164个手动编写的编程问题，覆盖多种难度和领域，每个问题都配有单元测试以验证生成代码的正确性，旨在提供人类水平的评估标 […]

GSM8K（Grade School Math 8K）是一个专为评估人工智能模型在小学数学问题解决能力而设计的基准数据集，它包含约8,500道小学级别的数学应用题，覆盖算术、代数、几何等基础主题，旨在测试模型的逐步推理和计算能力。该数据集由 […]

MMLU（Massive Multitask Language Understanding）是一个大规模多任务语言理解基准测试，专为评估大型语言模型在零样本设置下对多种知识领域的综合理解和推理能力而设计。它涵盖57个主题领域，包括科学、技术 […]

模型能力评估基准是指用于系统衡量人工智能模型在特定任务上性能表现的标准测试集或评价指标集合。它通过提供统一的数据集、任务定义和评估方法，使不同模型的优劣得以公平比较，从而推动模型优化和技术进步。常见的基准包括图像识别中的ImageNet、自 […]

人类评估（Human Evaluation）是指在人工智能系统的开发过程中，通过邀请真实人类参与者（如用户、专家或众包工作者）对模型输出进行主观或客观评判的方法，旨在评估其质量、准确性和用户体验。这种方法强调补充自动化指标（如准确率或召回率 […]

CIDEr分数（Consensus-based Image Description Evaluation）是一种专门用于评估图像描述或字幕生成质量的自动化指标，旨在衡量AI系统生成的描述文本与一组人工参考描述之间的相似度和共识性。该指标通过 […]

METEOR分数（Metric for Evaluation of Translation with Explicit ORdering）是一种用于评估机器翻译和文本生成质量的自动度量指标，它通过计算单词级别的匹配，综合考量精确度、召回率、 […]

ROUGE分数（Recall-Oriented Understudy for Gisting Evaluation）是一种广泛应用于自然语言处理领域的评估指标，专用于量化自动生成的文本摘要或机器翻译输出与参考文本之间的相似度。它通过计算n- […]

BLEU分数（Bilingual Evaluation Understudy）是一种自动评估机器翻译质量的指标，由IBM研究人员在2002年提出。它通过比较机器翻译的输出与一个或多个参考翻译的n-gram匹配精确度来计算分数，其中n通常取1 […]