2025年开年最火的两件事就是一件是哪吒2,另一件事就是Deepseek了。由于本地部署的软件和模型需要梯子和加速器才能下载下来,本文章我已经把模型上传至百度网盘,可以直接下载使用。
Deepseek就不过多介绍了,百度一搜全都有,本文章只是部署过程和所需软件和模型的下载分享。部署有两种方式,一种是Ollama+Chatbox图形界面部署,一种是LM Studio方式部署。相对而已LM Studio更简单一点。
1.Ollama+Chatbox部署
1.1安装Ollama
首先下载Ollama软件,官方下载链接为https://ollama.com/download,或者从网盘下载。点击Download for Windows即可下载最新版本。其他版本本文不做讲解。
下载完成后,双击OllamaSetup.exe即可直接安装,如果需要安装到其他目录,请shift+右键当前文件夹空白处,点击“在此处打开命令窗口”。
输入OllamaSetup.exe /DIR="E:\Ollama",即可将软件安装在E:\Ollama下面,或者替换DIR="XXXXXX"自定义目录。
弹出窗口点击Install即可安装,安装完成后任务栏会出现一个猪的图标。
1.2.配置环境变量
打开系统环境变量设置,查看系统变量,点击新建,变量名填写OLLAMA_MODELS,变量值填写放置模型的目录。点击确定。
变量设置完成后需要关闭Ollama重新启动一下程序。如果重启不了直接任务管理器结束掉Ollama和Ollama.exe即可。结束任务管理器中下面这两个进程。
ollama其他环境变量列表
1. OLLAMA_HOST:这个变量定义了Ollama监听的网络接口。通过设置参数值为 0.0.0.0,我们可以让Ollama监听所有可用的网络接口,从而允许外部网络访问。
2. OLLAMA_MODELS:这个变量指定了模型镜像的存储路径。通过设置参数值为新模型所在路径,如E:\ollama\models,我们可以将模型镜像存储在E盘,避免C盘空间不足的问题。
3. OLLAMA_KEEP_ALIVE:这个变量控制模型在内存中的存活时间。设置参数值为24h可以让模型在内存中保持24小时,提高访问速度。
4. OLLAMA_PORT:这个变量允许我们更改Ollama的默认端口。例如,设置参数值为8080可以将服务端口从默认的11434更改为8080。
5. OLLAMA_NUM_PARALLEL:这个变量决定了Ollama可以同时处理的用户请求数量。设置参数值为4可以让Ollama同时处理两个并发请求。
6. OLLAMA_MAX_LOADED_MODELS:这个变量限制了Ollama可以同时加载的模型数量。设置参数值为4可以确保系统资源得到合理分配。
7. OLLAMA_ORIGINS: 允许的源列表,星号*或使用逗号分隔。
8.OLLAMA_GPU_LAYER:使用独显,变量值: cuda(NVIDIA)或 directml(AMD/Intel)
9.CUDA_VISIBLE_DEVICES:使用哪一个GPU,变量值: 0(代表第一张显卡)0,1,2,3(代表4张显卡)
10.OLLAMA_NUM_PARALLEL:这个变量决定了Ollama可以同时处理的用户请求数量。设置参数值为4可以让Ollama同时处理两个并发请求。
11.OLLAMA_MAX_LOADED_MODELS:这个变量限制了Ollama可以同时加载的模型数量。设置参数值为4可以确保系统资源得到合理分配。
打开CMD,输入ollama -v,会输出版本号,如果有输出则安装完成。
1.3.下载模型
1.3.1.在线下载模型
下载模型,根据自己的配置进行下载模型,一般笔记本建议使用1.5b和7b,高性能台式机就可以14b和32b,如果你是线程撕裂者这种的可以跑70b,如果你是那种GPU服务器那种超高配则可以用671b了。
这里下载最小的1.5b为例,打开cmd输入ollama run deepseek-r1:1.5b回车,则会自动下载模型。没有使用加速器的情况下会很慢。可使用迅游等其他支持Deepseek的游戏加速器进行下载。或者使用本文最后网盘链接下载。
其他模型下请使用以下的命令:
deepseek-r1:1.5b(1.04GB):ollama run deepseek-r1:1.5b
deepseek-r1:7b(4.36GB):ollama run deepseek-r1:7b
deepseek-r1:8b(4.58GB):ollama run deepseek-r1:8b
deepseek-r1:14b(8.37GB):ollama run deepseek-r1:14b
deepseek-r1:32b(18.4GB):ollama run deepseek-r1:32b
deepseek-r1:70b(39.5GB):ollama run deepseek-r1:70b
deepseek-r1:671b(376GB):ollama run deepseek-r1:671b
下载完成后会出现Seed a message则已经完成。
1.3.2.离线模型
下载本文网盘链接下“模型”文件夹内的模型。需要哪个下那个即可。解压到你之前设置的模型路径下即可,解压密码Demon。
譬如你的模型路径为E:\Ollama\Models,则解压到E:\Ollama\下即可,有重复的文件请直接点覆盖。
下载完成后使用ollama list可查看当前安装的模型。
1.4使用
再次使用的情况下请先在开始菜单打开Ollama软件,任务栏右下角有猪的图标后,打开cmd输入:ollama run deepseek-r1:1.5b即可开始使用。
ollama run --verbose deepseek-r1:1.5b 添加--verbose选项可以显示token速度。
1.5使用GPU(可选)
具体步骤请查看:https://www.bilibili.com/opus/1031430460507422720
或者这个文章:https://blog.csdn.net/weixin_52677672/article/details/135853106
步骤 1:确认 GPU 兼容性:
1.NVIDIA GPU:需要安装 CUDA 工具包(推荐 CUDA 11+)和对应驱动。
2.AMD/Intel GPU:可能需要 ROCm 或 DirectML 支持(取决于 Ollama 版本)。
步骤 2:安装必要组件:
NVIDIA 用户:
1.安装最新 NVIDIA 驱动。
2.安装 CUDA Toolkit(版本需与 Ollama 兼容,并不能超过自身显卡支持的版本)。
3.安装 cuDNN(可选,但推荐)。
CUDA Toolkit和cuDNN安装教程:https://www.jianshu.com/p/ddca439c85e8
AMD/Intel 用户:
1.安装最新 GPU 驱动。
2.确认 Ollama 是否支持 DirectML(Windows 默认支持的 GPU 加速框架)。
步骤 3:设置环境变量:
打开环境变量设置:
右键点击 开始菜单 → 系统 → 高级系统设置 → 环境变量。
新建系统变量:
变量名: OLLAMA_GPU_LAYER
变量值: cuda(NVIDIA)或 directml(AMD/Intel)
(可选)强制指定 GPU 设备(多 GPU 时):
变量名: CUDA_VISIBLE_DEVICES
变量值: 0(使用第一个 GPU,或者0,1,2,4 使用4个GPU)
如果需要指定特定的 GPU,可以添加以下环境变量:
变量名:CUDA_VISIBLE_DEVICES
变量值:GPU的UUID(按编号有时找不到,所以使用UUID)
使用powershell在控制台输入nvidia-smi -L,即可查看GPU的UUID。
步骤 4:确认设置:
打开 PowerShell,运行 echo $env:OLLAMA_GPU_LAYER 检查变量是否生效。
使用GPU后,当计算的时候就会使用GPU了。
1.6安装GUI界面
这里我们使用Chatbox进行图形界面,官方下载地址为:https://chatboxai.app/zh。或使用网盘下载。建议使用第一项安装。
安装完成后自动打开Chatbox,选择使用自己的API。
选择Ollama API。
选择使用的模型即可开始对话。
如果你安装多个模型可进行切换。
到此Windows本地部署已经完成。
2.LM Studio部署
2.1安装LM Studio
下载LM Studio软件,官网为https://lmstudio.ai/,选择下载Windows版本。或者网盘下载。
仍旧选择所有用户安装。
安装完成后会打开软件。右下角齿弹出设置,可改中文。不过大多数都没翻译,但不影响使用。
点击左边栏文件夹图标,设置模型目录。
这里模型必须要放在模型目录下2级菜单,才能识别到,建议按图片格式设置。
2.2下载模型
模型下载网站是(需要梯子):https://huggingface.co/lmstudio-community
这是国内访问的模型镜像地址:https://hf-mirror.com/lmstudio-community
这是国内的模型地址:https://www.modelscope.cn/models
这里以https://www.modelscope.cn/models这个为例,本次需要下载GGUF格式的。
1.5b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/files
7b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/files
8b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF/files
14b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/files
32b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF/files
70b模型下载地址:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF/files
下载最新版的模型,可以直接粘贴到迅雷中下载,速度还行。
下载完成后安装下图命名方式放入模型目录中。重启LM Studio即可看到模型。
2.3使用
点击软件上方选择加载模型,会出现已经导入好的模型文件。
然后直接点击加载模型即可。
到此LM Studio部署完成。
3.网盘分流地址:
年费VIP可直接查看,其他会员请使用本文中官方网站下载。
网盘内文件解释:
[Ollama懒人安装版]:
1.将模型放至E:\Ollama\Models目录下。
2.可将Ollama安装至E:\Ollama目录下。
3.运行exe可自动安装模型,或手动下载放置E:\Ollama\Models目录下。
[模型]文件夹:内为Ollama部署用的模型文件,需要哪个下哪个。
Chatbox-x.x.x-Setup.exe:为Ollama部署的GUI界面,不用这个就用CMD界面。
LM-Studio-x.x.xx-x-x64.exe:为LM-Studio软件下载。
LM-Studio模型可直接使用迅雷下载,就不放网盘链接了。
[说明]:一些常用的命令和变量值,批处理添加变量和批处理安装指定目录。
更新日志:
20250314——Ollama更新至v0.6.0.0,Chatbox更新至v1.1.0.5,LM-Studio更新至v0.3.13-2。
20250311——更新了一个懒人包,可直接运行相应的模型。
EXE分为1.5b,7b,14b,32b,70b六个版本。如果没有模型,双击EXE会自动下载模型。如果有模型或者已经下载了离线模型,双击EXE会直接运行相应的版本,无需手动输入命令启动。
20250307——Ollama更新至v0.5.13.0,Chatbox更新至v1.10.4,LM-Studio更新至v0.3.11-1。
20250228——Ollama更新至v0.5.12.0,Chatbox更新至v1.10.2。
20250220——Ollama更新至v0.5.11.0。Chatbox更新至v1.9.8。