更加精简模型的讨论，是否可以实现可解释性的专家模型？ #509

yryd · 2025-02-26T13:15:52Z

问题

在DeepSeekv3基座大模型中有许多的知识冗余，DeepSeek使用MOE专家模型在部署后的运行中，很好地节约了这些成本，在推理时每个专家负责不同部分。然而671B的模型对于小型化部署来说，还是太庞大了；而1.5B-14B等小型模型确实各方面的性能都存在下降，而且下降的很平均。作为小型化部署，并不希望有太多的知识储备，但需要具备一定的推理能力，在671B的模型中，不需要的知识占了大部分参数。如果比喻来说671B的模型是一个懂得世间所有知识的全才，而我仅需要一个有高中知识储备具有推理能力的庸才，在MOE模型中可能仅需要部分模型，这样才能大范围应用。MOE的专家模型是学习出来的，对于每个专家并没有语义或者可解释性上的责任划分，耦合性太强，这也是不能将大模型拆分成小模型的关键。

可行的解决？

是否可以从词嵌入embedding开始使用最小的词汇表（大多数词汇都是由最小的语言集合通过各种标签定义出来的，保证词之间尽量正则化），将最小词汇表作为Token向量的维度进行预训练，以促使学习后的模型具有一定的可解释性，来促使MOE专家可以模块化发展？在训练的数据中仅采用小学初中高中渐进的教材训练（或使用大模型生成），来减少模型通用的参数量。

本人非专业出身，仅了解部分原理，如有常规性错误还请谅解。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

更加精简模型的讨论，是否可以实现可解释性的专家模型？ #509

更加精简模型的讨论，是否可以实现可解释性的专家模型？ #509

yryd commented Feb 26, 2025

更加精简模型的讨论，是否可以实现可解释性的专家模型？ #509

更加精简模型的讨论，是否可以实现可解释性的专家模型？ #509

Comments

yryd commented Feb 26, 2025

问题

可行的解决？