MoE(Mixture of Experts)架构,即专家混合架构,是一种通过多个专家模块并行处理不同子任务,由门控网络依据输入数据动态分配,决定各专家模块参与度,以实现更高效、灵活处理复杂任务,提升模型表现与泛化能力的技术。
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
大纲 | 小节 | 链接 |
---|---|---|
MOE 基本介绍 | 01 MOE 架构剖析 | PPT, 视频 |
MOE 前世今生 | 02 MOE 前世今生 | PPT, 视频 |
MOE 核心论文 | 03 MOE 奠基论文 | PPT, 视频 |
MOE 核心论文 | 04 MOE 初遇RNN | PPT, 视频 |
MOE 核心论文 | 05 GSard 解读 | PPT, 视频 |
MOE 核心论文 | 06 Switch Trans 解读 | PPT, 视频 |
MOE 核心论文 | 07 GLaM & ST-MOE解读 | PPT, 视频 |
MOE 核心论文 | 08 DeepSeek MOE 解读 | PPT, 视频 |
MOE 架构原理 | 01 | PPT, 视频 |
大模型遇 MOE | 01 | PPT, 视频 |
手撕 MOE 代码 | 01 | PPT, 视频 |
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AISys ,希望您多多鼓励和参与进来!!!
文字课程开源在 AISys,系列视频托管B 站和油管,PPT 开源在github,欢迎取用!!!
非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!
欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!