Transformer – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是旋转位置编码（Rotary Positional Embedding, RoPE）？

旋转位置编码（Rotary Positional Embedding, RoPE）是一种专为Transformer架构设计的位置编码技术，它通过旋转操作将序列中的位置信息融入键和查询向量中，从而高效捕捉相对位置关系。相较于传统绝对位置编码， […]

相对位置编码（Relative Position Encoding）是一种在序列模型中用于表示输入元素之间相对距离的技术，它不依赖于固定的绝对位置索引，而是基于元素之间的偏移量来编码位置关系。这种机制广泛应用于Transformer架构的自 […]

掩码注意力（Masked Attention）是一种在自注意力机制中应用的技术，通过在注意力计算中引入一个掩码矩阵来屏蔽序列中的特定位置，从而限制模型只能关注序列中当前或过去的信息，而不能访问未来的位置。这种设计在训练序列模型（如语言模型） […]

仅解码器模型（Decoder-Only Model）是一种在人工智能领域中基于Transformer架构的神经网络模型，它仅包含解码器部分，而不使用编码器，专门用于序列生成任务如文本生成、语言建模和对话系统。这种模型通过自回归机制预测序列中 […]

仅编码器模型（Encoder-Only Model）是Transformer架构的一种特定实现形式，仅包含编码器模块，专注于将输入序列（如文本或图像）转化为高维的上下文表示，而不涉及解码器用于生成输出序列。这类模型通过自注意力机制捕获输入数 […]

位置编码（Positional Encoding）是一种在序列建模中为深度学习模型注入元素位置信息的关键技术。由于Transformer等自注意力模型本身不具备处理序列顺序的能力，位置编码通过为输入序列的每个元素添加一个独特的位置向量来表示 […]

多头注意力（Multi-head Attention）是一种在深度学习模型中广泛应用的注意力机制扩展形式，其核心在于将输入序列通过多个独立的“注意力头”并行处理，每个头在不同的表示子空间中计算元素间的相关性，最终合并结果以增强模型捕捉长距离 […]

自注意力机制是Transformer架构中的核心组件，它使模型在处理序列数据（如文本或时间序列）时，能够动态计算每个元素对其他所有元素的注意力权重。具体而言，每个输入元素通过生成查询、键和值向量，引导模型聚焦于序列中最相关的部分，从而高效捕 […]

大型语言模型（LLM，Large Language Model）是一种基于深度学习的人工智能模型，专门设计用于理解和生成人类自然语言文本。它通过在庞大的文本数据集上进行预训练，学习语言的统计模式和语义关系，从而能够执行多种语言任务，如文本生 […]