新未名空间

decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut，这就是resnet)。上面那部分是self-attention，两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和，是非常noisy的，需要降噪。方法是先project到一个超高维空间，然后用一个linear layer把其中部分维度清零，然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程，图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。

wdong 写了： 2025年 2月 25日 14:42 decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut，这就是resnet)。上面那部分是self-attention，两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和，是非常noisy的，需要降噪。方法是先project到一个超高维空间，然后用一个linear layer把其中部分维度清零，然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程，图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。

就是把蓝色框框里面的dense model换成一堆小一点的dense网络，每次只通过一其中一部分吧

Caravel 写了： 2025年 2月 25日 15:36 就是把蓝色框框里面的dense model换成一堆小一点的dense网络，每次只通过一其中一部分吧

正是

新未名空间

动态图解mixture of expert架构

#1 动态图解mixture of expert架构

#2 Re: 动态图解mixture of expert架构

#3 Re: 动态图解mixture of expert架构

#4 Re: 动态图解mixture of expert架构