Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

更加精简模型的讨论,是否可以实现可解释性的专家模型? #509

Open
yryd opened this issue Feb 26, 2025 · 0 comments
Open

Comments

@yryd
Copy link

yryd commented Feb 26, 2025

问题

在DeepSeekv3基座大模型中有许多的知识冗余,DeepSeek使用MOE专家模型在部署后的运行中,很好地节约了这些成本,在推理时每个专家负责不同部分。然而671B的模型对于小型化部署来说,还是太庞大了;而1.5B-14B等小型模型确实各方面的性能都存在下降,而且下降的很平均。作为小型化部署,并不希望有太多的知识储备,但需要具备一定的推理能力,在671B的模型中,不需要的知识占了大部分参数。如果比喻来说671B的模型是一个懂得世间所有知识的全才,而我仅需要一个有高中知识储备具有推理能力的庸才,在MOE模型中可能仅需要部分模型,这样才能大范围应用。MOE的专家模型是学习出来的,对于每个专家并没有语义或者可解释性上的责任划分,耦合性太强,这也是不能将大模型拆分成小模型的关键。

可行的解决?

是否可以从词嵌入embedding开始使用最小的词汇表(大多数词汇都是由最小的语言集合通过各种标签定义出来的,保证词之间尽量正则化),将最小词汇表作为Token向量的维度进行预训练,以促使学习后的模型具有一定的可解释性,来促使MOE专家可以模块化发展?在训练的数据中仅采用小学初中高中渐进的教材训练(或使用大模型生成),来减少模型通用的参数量。

本人非专业出身,仅了解部分原理,如有常规性错误还请谅解。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant