AI产品术语2025年6月26日2025年6月28日 什么是一样本学习(One-shot Learning)? 一样本学习(One-shot Learning)是机器学习中的一种范式,旨在使模型能够仅凭一个或极少的训练样本就高效地学习和识别新类别或任务。与传统机器学习方法依赖大量标注数据不同,一样本学习通过元学习、迁移学习或特定模型设计,赋予模型强大 […]
AI产品术语2025年6月26日2025年6月28日 什么是零样本学习(Zero-shot Learning)? 零样本学习(Zero-shot Learning,简称ZSL)是一种机器学习范式,它使模型能够在训练过程中从未接触过的新类别上进行识别和推理。核心在于利用类别间的语义关系或属性描述(如文本嵌入、知识图谱),通过已有知识泛化到未知领域,从而无 […]
AI产品术语2025年6月26日2025年6月28日 什么是提示工程(Prompt Engineering)? 提示工程(Prompt Engineering)是指通过精心设计和优化输入提示(prompt)来引导人工智能模型(特别是大型语言模型)生成更准确、相关和有用输出的技术实践。它要求深入理解模型的内在机制,通过迭代测试不同提示策略,提升模型在特 […]
AI产品术语2025年6月26日2025年6月28日 什么是奖励模型(Reward Model)? 奖励模型(Reward Model)是强化学习中的一种关键组件,用于预测代理(Agent)在特定状态下执行动作后所能获得的预期奖励值。它模拟环境的反馈机制,通过量化行为的好坏来指导代理学习最优策略,从而最大化累积奖励。该模型在训练过程中充当 […]
AI产品术语2025年6月26日2025年6月28日 什么是近端策略优化(Proximal Policy Optimization, PPO)? 近端策略优化(Proximal Policy Optimization, PPO)是一种强化学习算法,专为高效优化策略函数而设计。其核心在于引入一个代理目标函数,并通过裁剪机制限制策略更新的步长,从而避免训练中的剧烈波动,提升样本利用效率和 […]
AI产品术语2025年6月26日2025年6月28日 什么是强化学习人类反馈(Reinforcement Learning from Human Feedback, RLHF)? 强化学习人类反馈(Reinforcement Learning from Human Feedback, RLHF)是一种机器学习范式,它结合强化学习与人类输入的反馈机制。在该方法中,人类评估者通过比较或评分AI行为(如文本生成或决策)提供 […]
AI产品术语2025年6月26日2025年6月28日 什么是监督式微调(Supervised Fine-tuning, SFT)? 监督式微调(Supervised Fine-tuning, SFT)是一种机器学习技术,指在预训练模型(如大型语言模型)的基础上,使用有标签的数据集进行进一步训练,以优化模型在特定任务上的性能。预训练模型通常在大规模无标签数据上学习通用表示 […]
AI产品术语2025年6月26日2025年6月28日 什么是指令微调(Instruction Tuning)? 指令微调(Instruction Tuning)是一种针对大型语言模型(LLM)的微调技术,旨在提升模型理解和执行自然语言指令的能力。通过在包含指令-输出对的数据集上进行监督学习,模型学习如何将用户指令映射到期望的响应,从而增强其在零样本或 […]
AI产品术语2025年6月26日2025年6月28日 什么是微调(Fine-tuning)? 微调(Fine-tuning)是机器学习中的一种关键技术,属于迁移学习的范畴,指在预训练模型(通常在大规模通用数据集上训练而成)的基础上,使用特定任务的小规模数据集进行进一步训练,以优化模型参数并快速适应新任务的需求。这一过程保留了预训练模 […]
AI产品术语2025年6月26日2025年6月28日 什么是预训练? 预训练是人工智能领域的一个基础概念,特指在特定应用任务之前,模型在大规模无标签数据上进行初步训练的过程,旨在学习通用特征表示和知识。这种方法使模型能够捕获数据中的基础模式,如语言结构或图像特征,从而减少后续微调所需的数据量和时间成本。在自然 […]