LLM模型之PowerInfer

可爱可倾2024-08-082025-08-08

PowerInfer

PowerInfer 1.0

PowerInfer 是一款在配备单个消费级 GPU 的个人计算机 (PC) 上运行的高速大型语言模型 (LLM) 推理引擎。PowerInfer 设计的关键在于利用 LLM 推理固有的高局部性，其特点是神经元激活呈现幂律分布。

这种分布表明，一小部分神经元（称为热神经元）在输入过程中始终处于激活状态，而大多数神经元（冷神经元）则根据特定输入而变化。PowerInfer 利用这种洞察力设计了 GPU-CPU 混合推理引擎：热激活神经元预加载到 GPU 上以便快速访问，而冷激活神经元则在 CPU 上计算，从而显著减少 GPU 内存需求和 CPU-GPU 数据传输。PowerInfer 进一步集成了自适应预测器和神经元感知稀疏运算符，优化了神经元激活和计算稀疏性的效率。

以局部为中心的设计：利用稀疏激活和“热”/“冷”神经元概念进行高效的 LLM 推理，确保在较低的资源需求下实现较高的速度。
混合 CPU/GPU 利用率：无缝集成 CPU 和 GPU 的内存/计算能力，实现工作负载平衡和处理速度更快。

PowerInfer 2.0

PowerInfer-2 是一个为智能手机上大型语言模型(LLM)高速推理而设计的框架，特别适用于大小超过设备内存容量的模型。核心是将 LLM 推理中典型的粗粒度矩阵计算分解为细粒度神经元集群计算。PowerInfer-2以神经元簇的粒度进行计算和I/O操作，神经元簇可以在计算过程中动态地由多个激活的神经元组成，神经元的数量由计算单元的计算能力决定，从而可以充分利用具有不同计算能力的XPU。

在线部分提供神经元簇粒度的推理，包括四个协作组件：多态神经元引擎、内存中神经元缓存、灵活的神经元加载和神经元簇级别 I /O 管道。
离线部分描述在线推理中涉及的每个组件的具体配置并指导在线过程。

Turbo Sparse

提出了一种新的基于drelu的稀疏化方法，在保持性能的同时，将模型稀疏性提高到90%，在推理中实现了2-5倍的加速。

将 ReLU 化过程中的原始基于 SwiGLU 的前馈网络（FFN）替换为基于 dReLU 的前馈网络（FFN）。
在第一种改进的基础上，通过稀疏机制进一步优化模型性能，通过控制稀疏水平来调整模型的激活值。