【完整版】DeepSeek-R1大模型学习笔记(架构、训练、Infra、复现代码)文章浏览阅读7k次,点赞26次,收藏73次。MoE在每次推理时选择性地激活部分模型参数,在不成比例增加计算成本的情况下,可以扩展模型参数。在DeepSeek-V...2025-04-21阅读(6)