手把手教你本地部署DeepSeek:6G显存也能流畅运行的AI模型!

一、为什么选择DeepSeek本地部署?

   在AI技术爆发的今天,大语言模型不再是云端专属!本地部署模型既能保护隐私,又能随时调用。但许多人对本地化存在误解:


❌ 需要顶级显卡?


❌ 动辄百亿参数才能用?


❌ 部署复杂如天书?

实测告诉你:一台RTX 3060笔记本(显存6GB)+ 7B小模型,即可实现流畅对话、角色扮演甚至代码辅助!


   别担心自己是小白,这篇文章手把手带你完成 DeepSeek-R1 蒸馏模型的本地部署!从最基础的软件下载,到如何挑选合适的模型,每一步都给你安排得明明白白。

二、部署准备

软件安装

   在浏览器搜索 “https://lmstudio.ai/”(百度可能搜不到,国内可访问此域名),选择 Windows 版本下载安装包,下载完成后双击安装,安装后会在桌面创建快捷方式,打开即可。

中文语言设置(看个人需求):

右下角小齿轮→Language→简体中文

模型选择与配置

模型下载:

科学上网方法:

1、侧边栏→发现→Model Search。

2、浏览器打开https://huggingface.co/搜索模型→files→下载模型

无需科学上网方法:

浏览器打开https://hf-mirror.com/搜索下载模型

模型选择:

初次部署建议使用deepseek 1.5b模型,

例如:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B;

或者自行根据显存选择模型

  1. 参数越大越好,但要注意显存占用

   模型的显存占用与非常多的因素有关,它主要受参数的数量影响,但还有量化的方式,精度差异等等。由于语言模型的文件通常很大,所以在下载之前,一定要确保你的显存足够使用它。 (如何查看显存:打开任务管理器→性能→GPU→专用GPU内存)

2、选择合适的量化型号:Q5_K_M至Q8_0

    GGUF 模型文件通常会有不同的量化型号,例如Q5_0,Q5_K_S,Q5_K_M,Q6_0,Q8_0

等等。

    对于这些型号,基本可以理解为数字越大则模型越接近原始模型,但占用空间更大,计

算速度也更慢。所以Q5_0,Q5_K_S,Q5_K_M,Q6_0,Q8_0的的质量和文件大小是逐渐增加的,而计算速度是逐渐降低的。

   通常来说,如果显存足够,最大的Q8_0是首选;但如果显存有限,那么就性价比而言,

Q5_K_M 是最好的选择,它占用的显存更小,而且不会损失太多精度。如果低于 Q5_K_M,

则输出的质量会开始下降,而且越来越明显。

推荐选择参数

显存大小       4GB        6GB    8GB      12GB+

推荐参数       7B           8B      14B        32B

推荐量化    Q3_K_M           Q4_K_M

理论显存占用 3.2GB    4.5GB  6.8GB  10GB+

Qwen与Llama区别

模型名称           Qwen 系              Llama 系

基座架构         通义千问架构        LLaMA 架构

理论上的特点    中文理解强             英语能力优

                        支持长文本             插件成熟

3、选择合适模型下载

举例:确认参数为8b和量化版本为Q4后,在hf搜索deepseek r1 8b Q4,建议将排序更换为“Most download“,点击第一个,点击files,下滑找到模型文件,单击下载

注意:若在浏览器下载模型,需手动将模型放入lmstudio的模型目录,模型目录可在“我的模型”界面查看和更改

防火墙设置(根据个人需求选择是否操作,此步骤的作用是让软件离线运行)

打开”高级安全 Windows Defender 防火墙”,依次设置出站规则和入站规则。

  1. 新建入站规则,选择程序,浏览安装路径,选择LM Studio.exe,选择阻止链接,可自行添加描述。

出站规则同理;

2、对安装路径下resources文件夹里面的 elevate.exe同样设置出入站规则阻止链接。

3、找到 C 盘-用户-用户名下的 .lmstudio文件夹(需打开“查看隐藏的项目”) 中的 bin文件夹下的 lms.exe 程序,设置出入站规则为阻止链接。

模型配置

点击侧边栏“聊天”→点击上方“选择要加载的模型

选择模型之后会弹出模型参数设置,首次部署推荐参数:

上下文长度1024

GPU卸载:根据显卡性能和模型大小调整,模型越大设置得越大,不建议拉满,1.5b设置0即可

CPU Thread Pool Size:可以往大设置,不建议拉满。

其余设置默认

参考设置:

模型测试:输入“3.9和3.11哪个大”,看是否成功输出结果。

测试结果:

以下是我部署的两个模型的测试结果:

先说结论

Llama-8B专业化场景(代码/规则设计)表现显著优于Qwen-7B,但在文化创意深度上稍逊。

具体测试过程

PC性能参数: 1、GPU 0:Intel(R)UHD Graphics: GPU内存:0.4GB

2、GPU 1:NVIDIA GeForce RTX 3060 Laptop GPU:专用 GPU 内存 0.4/6.0 GB;共享 GPU 内存 0.2/7.9 GB;GPU 内存 0.6/13.9 GB。

测试时参数变动:1、GPU 0:Intel(R)UHD Graphics: GPU内存:7.9GB

2、GPU 1:NVIDIA GeForce RTX 3060 Laptop GPU:专用 GPU 内存 5.3/6.0 GB;共享 GPU 内存 0.2/7.9 GB;GPU 内存 5.5/13.9 GB。

3、GPU利用率:GPU0: 50-70% GPU1: 30%-75%

4、CPU温度:<70°C

一、Deepseek R1 Distill Qwen 7B Imat Q5_K_M

模型设置参数: 上下文长度:4096

GPU卸载层数:24层

CPU Thread Pool Size : 8

测试题目与结果:

测试一、推理运算

测试题目

思考过程

输出结果

最终结论

硬件性能评估

测试二、场景测试

中文情景对话

测试题目

思考过程

输出结果

最终结论

优点

  1. 信息结构化清晰(分步骤建议)

  2. 专业术语使用准确(如"防止感染")

不足

  1. 紧急处理建议重复(如"尽快送医"出现两次)

  2. 亲和力不足(表情符号使用缺失)

文化常识应用

测试题目

思考过程

输出结果

最终结论

亮点

  1. 武侠元素融合新颖(亢龙有悔×赛龙舟)

  2. 古诗创作格式工整

问题

  1. 网络梗使用生硬("雷ape"与节日关联弱)

  2. 世界观混乱(白骨精乱入端午)

游戏场景

测试题目

思考过程

输出结果

最终结论

优点

  1. 量子修仙设定大胆有趣

  2. 门派特征差异化明显

缺陷

  1. 科技元素过载(冲击波枪破坏沉浸感)

  2. 关键元素标注混乱(🌿菜叶与世界观无关)

写作能力

测试题目

思考过程

输出结果

最终结论

优点

  1. 人设颠覆合理(CTO悟空×网红八戒)

  2. 商业术语活用(抓手/闭环/赋能)

缺点

  1. 解决方案理想化(AI系统开发周期未提及)

  2. 反转铺垫不足(高层兴趣转变突兀)

二、Deepseek R1 Distill Llama 8B Abliterated Q4 _K_M

模型设置参数: 上下文长度:2560

GPU卸载层数:30层

CPU Thread Pool Size : 6

测试题目与结果:

测试一、推理运算

测试题目

思考过程

输出结果:

最终结论

结果准确性:正确

关键错误点:准确计算数字和=18,正确判断

性能指标分析: 生成速度 (tok/s):7.56 预期参考值:8-10

首Token 延迟:0.60s 预期参考值:<1.0s

显存占用: ~5.0GB 预期参考值:<6.0GB

GPU利用率:GPU0: 50-70% GPU1: 30%

结论:准确性合格,但速度偏低

测试二、场景测试

日常场景

测试题目

思考过程

输出结果

最终结论

优点

  1. 中英文任务分离清晰(流程用中文,特征描述用英文)

  2. 结构化响应符合预期(分步骤+符号表情)

缺点

  1. 英文报告未完全基于输入(缺少"中空帆布包"原文依据)

  2. 表情符号使用模式化(可增加动态性如🌪️表示紧急处理)

专业场景

测试题目

思考过程

输出结果

最终结论

亮点

  1. 准确识别边界情况(空列表、变量命名、效率问题)

  2. 防御性编程示例规范(类型检查+异常捕捉)

问题

  1. 术语混合不彻底(未实现要求的中英术语交替使用如"循环(loop)")

  2. 性能对比表缺少量化数据(如循环 vs sum() 的实际耗时对比)

以下场景共同测试,思考过程:

游戏场景

测试题目

输出结果

最终结论

优点

  1. 中英术语严格对应(量子贸易风波 ↔ Quantum Trade Dispute)

  2. 异常处理具备可操作性(骰子掉落规则合理)

不足

  1. 策略提示未体现跨语言特色(中文提示可加入成语,英文提示可用俚语)

  2. 税率计算规则模糊(未说明D20=15时是否包含豁免)

测试三、压力测试

测试题目

输出结果

最终结论

一致性保持

  1. 坐标引用准确(大雁塔→特斯拉工厂→Alpha Centauri)

  2. 关键元素贯穿(星图、猫妖、数据流)

缺失部分

  1. 未展开Alpha Centauri场景细节(仅提及未描述)

  2. 青鸾的机器人特性未充分体现(可加入硬件破解等赛博元素)、

两个模型测试的对比结论

   逻辑严谨性                  

Llama-8B     代码审查零错误,数学推导更可靠 

Qwen-7B      文化元素融合更自然

多语言处理

Llama-8B     中英切换严格分离,术语精准

Qwen-7B     网络流行语运用灵活

上下文管理

Llama-8B     长文本关键元素保持稳定

Qwen-7B     创意发散性更强

硬件适配

Llama-8B     CPU负载高但可控

Qwen-7B      GPU温度压力更大

   至此,DeepSeek 本地部署教程及模型测试就全部介绍完啦!希望大家通过这篇文章,都能成功在本地部署 DeepSeek 模型,开启属于自己的 AI 探索之旅。

   希望大家可以来测测我的Deepseek【天道轮回】修仙模拟一起优化得更好

   要是你在部署/测试或游玩过程中有了新发现、新体验,欢迎分享出来!

免责声明:本文是在广泛收集和整理网络上多篇教学资料的基础上总结而成。由于资料来源的多样性和网络教学内容的普遍性,文章前半部分在概念阐述、理论讲解等基础性内容方面,可能会与其他网络教学总结存在一定程度的雷同情况,并非刻意抄袭

   文章后半部分的测试内容,均为本人通过实际操作、亲身实践后进行的自测总结。虽本人力求测试过程科学严谨、测试结果准确可靠,但由于测试环境、个人操作等因素可能存在差异,测试结果仅供参考,不构成任何专业领域的绝对标准或权威性建议

   基于上述情况,若因本文内容与其他资料雷同而产生任何版权方面的质疑或纠纷,本人愿意积极配合相关调查,澄清事实。对于因参考本文测试内容而做出的任何决策或行动所导致的一切后果,本人不承担任何直接或间接的法律责任和经济责任。请使用者在参考本文时,结合自身实际情况,谨慎做出判断和决策。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com