去评论
dz插件网

30美元复现DeepSeek模型

镖师
2025/02/06 14:11:39
斯坦福大学地下室,三个学生干了件大事,用30美元成本复现了估值百亿的DeepSeek核心模型。


学生团队核心秘籍是知识蒸馏,把1750亿参数大模型浓缩成70亿参数精华版,数据来源也巧妙,大部分开源,合成成本才17美元,训练靠谷歌免费显卡,电费13美元。


他们用开源工具搭积木,HuggingFace微调方案、MoE架构组装等,还借助梯度缓存提升训练效率。项目火了,GitHub星标四千,大家都纳闷大公司咋没想到。


测试结果令人意外,MMLU基准测试72.3分,和原版差距极小。推理速度稍慢但用户几乎无感,能效比虽有损耗但成本低可忽略。网友实测,生成小说电费不到半分,大家都在思考企业级AI是否还值得高价购买。


这一事件引发行业地震,DeepSeek估值蒸发17亿美元。投资人慌了,专利律师核查侵权。复现团队收到高薪邀请,印度创业潮兴起,单周注册420家AI公司。