DeepSeek R1本地部署
DeepSeek大火,但天下苦服务器繁忙,请稍后再试久矣.
近期,DeepSeek大模型大火,一举超越ChatGPT登顶下载榜首.
DeepSeek从很少人知道一下子变成了人尽皆知的大厂,招聘薪资更是开出了年薪百万的价格,应届生都可以去.可谓是梦中情厂.
但是,就连DeepSeek自己可能都没想到自己这么火.因此招架不住大家的热情,频繁的出现服务器繁忙,请稍后再试.
使用体验实在糟糕.
好在,DeepSeek开源了自己的大模型,我们可以将DeepSeek部署到本地进行使用,这样的话就可以不再担心服务器繁忙了.可以尽情的蹂躏DeepSeek了!!!
关于DeepSeek的技术有兴趣的可以看看他们的论文. DeepSeekR1论文
- DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
- DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model=‘deepseek-reasoner’ 即可调用。
- DeepSeek 官网与 App 即日起同步更新上线。
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
环境准备
硬件要求
- 需要至少一个 CPU 核心(推荐使用多核处理器)。
- 内存建议至少 4GB,具体内存可以根据实际需求调整。
- 磁盘空间建议至少 20GB 可用空间。
操作系统
- Windows、Linux 或 macOS 均可支持。
蒸馏模型
DeepSeek本地部署的基本是蒸馏模型,简单理解为阉割版.
为什么?因为本地无法支持真正大模型的算力.
蒸馏模型虽然无法和完整版一样,但是胜在我们可以本地部署,自己玩.还避免了服务器繁忙的苦恼.毕竟,东西再好,你用不了也是白搭啊.
DeepSeek 在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6个小模型开源给社区,其中 32B 和
评论前必须登录!
注册