LLM模型之Mistral

Mistral AI

Mistral-7B

  1. 采用了分组查询注意力(GQA),显著加快了推理速度,还减少了解码期间的内存需求,允许更高的批处理大小,从而提高吞吐量
  2. 结合滑动窗口注意力(SWA)以有效处理任意长度的序列
    1. 每个token最多可以关注来自上一层的W个token(注,滑动窗口之外的token仍然影响下一个单词预测)
    2. 固定的注意力长度意味着可以使用滚动缓存来限制的缓存大小

Mixtral-8x7B

图1:Mistral-8x7B
  1. FFN从一组 8 个不同的参数组中进行选择
  2. 在每一层,对于每个token,路由器网络选择其中的两个组(“专家”)来处理token并通过组合相加得到它们的输出
  3. 在各个层中仅有experts部分(FFN)是独立存在的,其余的部分(Attention等)则是各个expert均有共享的
  4. 路由(Gating/Router)本质是一个线性层,输入维度为隐层维度hidden_dim、输出维度为expert数num_experts。