AI产品术语 – 第 16 页 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是模型推理服务器？

模型推理服务器是一种专门用于执行人工智能模型推理任务的服务器系统，它部署在云端或本地环境中，负责接收客户端发送的输入数据，运行预训练的AI模型（如深度学习模型）进行预测或分类，并将结果高效返回给请求方。这种服务器设计时注重性能优化、可扩展性 […]

TensorRT是由NVIDIA开发的高性能深度学习推理优化器和运行时库，专为加速训练好的模型在生产环境中的推理阶段而设计。它通过层融合、内核自动调优、动态内存管理和多精度支持（如FP16或INT8）等技术，在保持模型准确性的同时显著减少延 […]

Mace（Mobile AI Compute Engine）是由百度开源的一款轻量级深度学习推理框架，专为移动和嵌入式设备设计，旨在优化人工智能模型在资源受限环境中的部署和执行效率。它支持跨平台运行，通过高效的计算调度和模型压缩技术，显著提 […]

编译器优化技术是指在编译器将高级编程语言源代码转换为机器可执行代码的过程中，所应用的一系列自动化技术方法，旨在提升生成代码的执行效率、减少资源消耗（如内存占用或CPU时间），同时严格保持程序的外部行为和语义不变。这些技术包括循环展开、常量折 […]

图优化（Graph Optimization）是一种数学优化方法，用于在图结构模型中求解最优解，其中图由节点（表示变量或实体）和边（表示约束或关系）构成，目标是通过最小化或最大化特定目标函数来调整节点状态，从而高效处理变量间的相互依赖和约束 […]

异构计算（Heterogeneous Computing）是一种计算架构范式，它整合多种不同类型的处理器（如中央处理器CPU、图形处理器GPU、现场可编程门阵列FPGA或专用集成电路ASIC），每种处理器针对特定计算任务进行优化（如CPU处 […]

神经形态计算（Neuromorphic Computing）是一种受生物神经系统启发的计算范式，它通过模拟大脑神经元和突触的结构与功能，在硬件层面实现事件驱动、并行处理的信息操作，旨在提供高效、低功耗的实时计算能力。与传统冯·诺依曼架构不同 […]

量子机器学习（Quantum Machine Learning, QML）是一门新兴的交叉学科，它结合量子计算的原理与机器学习的方法，旨在利用量子力学特性（如量子叠加和量子纠缠）来提升传统算法的效率或开发全新范式。通过量子比特（qubits […]

模型服务（Model Serving）是指将训练完成的机器学习模型部署到生产环境，使其能够实时接收输入数据、执行推理操作并输出预测结果的技术过程。它作为AI系统从研发到实际应用的核心环节，确保模型在真实场景中高效、可靠地运行，支持低延迟和高 […]

ONNX Runtime是一个开源的高性能推理引擎，专为执行ONNX（Open Neural Network Exchange）格式的机器学习模型而设计。ONNX作为一种开放标准，支持模型在不同深度学习框架（如PyTorch和TensorF […]