分页: 1 / 1

#1 动态图解mixture of expert架构

发表于 : 2025年 2月 25日 12:29
Caravel

#2 Re: 动态图解mixture of expert架构

发表于 : 2025年 2月 25日 14:42
wdong
decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。

#3 Re: 动态图解mixture of expert架构

发表于 : 2025年 2月 25日 15:36
Caravel
wdong 写了: 2025年 2月 25日 14:42 decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。
就是把蓝色框框里面的dense model换成一堆小一点的dense网络,每次只通过一其中一部分吧

#4 Re: 动态图解mixture of expert架构

发表于 : 2025年 2月 25日 15:40
wdong
Caravel 写了: 2025年 2月 25日 15:36 就是把蓝色框框里面的dense model换成一堆小一点的dense网络,每次只通过一其中一部分吧
正是