LLM模型之Mistral

LLM模型之Mistral
可爱可倾Mistral AI
Mistral-7B
- 采用了分组查询注意力(GQA),显著加快了推理速度,还减少了解码期间的内存需求,允许更高的批处理大小,从而提高吞吐量
- 结合滑动窗口注意力(SWA)以有效处理任意长度的序列
- 每个token最多可以关注来自上一层的W个token(注,滑动窗口之外的token仍然影响下一个单词预测)
- 固定的注意力长度意味着可以使用滚动缓存来限制的缓存大小
Mixtral-8x7B
图1:Mistral-8x7B
- FFN从一组 8 个不同的参数组中进行选择
- 在每一层,对于每个token,路由器网络选择其中的两个组(“专家”)来处理token并通过组合相加得到它们的输出
- 在各个层中仅有experts部分(FFN)是独立存在的,其余的部分(Attention等)则是各个expert均有共享的
- 路由(Gating/Router)本质是一个线性层,输入维度为隐层维度hidden_dim、输出维度为expert数num_experts。
评论
匿名评论隐私政策
TwikooGiscus
✅ 若未加载出评论区,请刷新页面~






