Day38——晚课开源大模型实战：本地部署与调优

系列教程说明

这是「AI零基础学习」系列教程的第38天晚课，共70天140篇。

今天是第6周第3天：AI工具实战周。

上篇回顾

今天早课我们了解了开源大模型的概念——什么是开源模型、为什么它重要、主流开源模型有哪些。你已经知道Llama、Qwen、DeepSeek、Mistral这些名字了。

晚课的重点是动手实操：把一个开源大模型真正跑在你自己的电脑上。

!开源大模型本地部署

为什么要本地部署？

你可能会问：ChatGPT、Claude这些在线工具不是很好用吗，为什么还要折腾本地部署？

三个核心原因：

隐私保护：你的对话内容不会上传到任何服务器。写日记、处理敏感文件、讨论商业计划——所有数据都在你自己的硬盘上。

零成本使用：没有月费、没有token限制。只要你的电脑能跑，想用多久用多久。

深度定制：你可以微调模型，让它更懂你的专业领域。这是在线API做不到的。

第一步：认识Ollama——本地部署的”一键安装器”

过去，部署一个大模型需要懂Linux、会配CUDA、能编译代码。现在有了Ollama，一切都变得简单了。

Ollama是什么？一句话：大模型界的Docker。它帮你处理了所有底层复杂性，你只需要一条命令就能运行模型。

安装Ollama

Mac用户：

`bash

brew install ollama

Linux用户：

`bash

curl -fsSL https://ollama.com/install.sh | sh

Windows用户：

去 ollama.com 下载安装包，双击安装即可。

安装完成后，打开终端，输入：

`bash

ollama –version

看到版本号就说明安装成功了。

启动Ollama服务

`bash

ollama serve

这条命令会启动Ollama的后台服务。保持这个终端窗口不要关闭，再开一个新终端窗口继续操作。

第二步：下载并运行你的第一个模型

选择合适的模型

模型大小和你的电脑配置直接相关。这里有一个简单的对照表：

你的内存	推荐模型	体验预期

|———|———|———|

8GB	qwen2.5:3b 或 llama3.2:3b	基本对话，速度较快
16GB	qwen2.5:7b 或 llama3.1:8b	流畅对话，质量不错
32GB	qwen2.5:14b 或 deepseek-coder:16b	高质量，接近在线水平
64GB+	qwen2.5:72b 或 llama3.1:70b	顶级质量，需要耐心等待

不确定自己内存多大？ Mac用户点击左上角苹果图标→关于本机；Windows用户按Ctrl+Shift+Esc打开任务管理器→性能→内存。

下载并运行模型

以Qwen2.5 7B为例，这是目前性价比最高的中文开源模型之一：

`bash

ollama run qwen2.5:7b

第一次运行会自动下载模型（约4.5GB），下载完成后直接进入对话界面。你可以直接和它聊天了！

试试输入：

请用简单的语言解释什么是机器学习，举一个生活中的例子。

如果它能正常回答，恭喜你——你已经在本地成功运行了一个大模型！

第三步：理解模型参数——数字背后的含义

当你在Ollama库浏览模型时，会看到类似这样的标注：

qwen2.5:7b
llama3.1:8B
deepseek-coder:6.7B

这个数字代表参数量（Parameters），是衡量模型能力的核心指标。

参数量与能力的关系：

1B-3B：能完成简单对话、基础问答，像一个实习生
7B-8B：能处理大多数日常任务，像一个初级员工
13B-14B：能处理复杂推理和专业任务，像一个资深员工
70B+：接近商业模型水平，像一个专家

参数量与硬件的关系：

简单记忆：每1B参数大约需要1GB内存。所以7B模型需要约7-8GB内存，70B模型需要约70-80GB内存。

!命令行操作

第四步：常用Ollama命令

掌握这几个命令，你就能自如地管理本地模型了：

查看已安装的模型

`bash

ollama list

下载模型（不运行）

`bash

ollama pull qwen2.5:14b

运行模型

`bash

ollama run qwen2.5:7b

删除模型

`bash

ollama rm qwen2.5:7b

查看模型信息

`bash

ollama show qwen2.5:7b

查看正在运行的模型

`bash

ollama ps

第五步：用Open WebUI获得可视化界面

命令行对话不够直观？试试Open WebUI——它是一个开源的Web界面，让你像使用ChatGPT一样使用本地模型。

一行命令安装（需要Docker）

`bash

docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main

安装完成后，打开浏览器访问 http://localhost:3000

首次使用需要注册一个账号（纯本地，不联网）。

Open WebUI的核心功能

多模型切换：在界面左上角选择不同的本地模型，随时切换对比。

对话历史：所有对话自动保存在本地，随时回看。

文件上传：可以直接上传文档，让模型帮你分析。

Prompt模板：预设常用的提示词模板，一键使用。

!Web界面操作

第六步：进阶调优——让模型更适合你

调整Modelfile

Ollama支持通过Modelfile自定义模型行为。创建一个文件叫 Modelfile：

FROM qwen2.5:7b

# 设置系统提示词

SYSTEM “你是一位专业的Python编程助手，擅长用简洁清晰的代码解决问题。回答时优先给出可运行的代码示例。”

# 调整温度参数（0-1，越低越确定，越高越有创意）

PARAMETER temperature 0.7

# 设置上下文窗口大小

PARAMETER num_ctx 4096

然后创建自定义模型：

`bash

ollama create python-helper -f Modelfile

ollama run python-helper

这样你就有了一个专门的Python编程助手！

关键参数说明

temperature（温度）：控制回答的随机性。

0.1-0.3：适合代码生成、事实问答（确定性高）
0.5-0.7：适合日常对话（平衡）
0.8-1.0：适合创意写作（更有想象力）

num_ctx（上下文长度）：模型能”记住”多少对话内容。

2048：最低，省内存但容易”忘记”
4096：默认，日常够用
8192+：长文档分析，需要更多内存

第七步：多模型对比实战

让我们用同一个问题测试不同模型，感受它们的差异。

测试问题：”请解释量子计算的基本原理，用一个高中生能听懂的方式。”

你可以依次运行：

`bash

ollama run qwen2.5:3b

ollama run qwen2.5:7b

ollama run llama3.1:8b

对比维度：

回答长度：是简明扼要还是详细展开？
准确性：类比是否恰当？有没有明显错误？
中文表达：哪个模型的中文更自然？
逻辑结构：回答是否有条理？

通过这样的对比，你会逐渐了解不同模型的特点，知道什么任务用什么模型最合适。

今日行动项

安装Ollama：按照上面的步骤完成安装
下载一个模型：根据你的内存选择合适的模型大小
完成一次对话：问模型一个你真正关心的问题
（选做）安装Open WebUI：获得更好的可视化体验
（选做）创建Modelfile：定制一个专属助手

地铁深读：开源模型的前世今生

从GPT-2的”意外开源”说起

2019年，OpenAI发布了GPT-2，声称”太危险了不敢公开”。这番操作反而激发了社区的逆反心理——有人自己复现了类似模型，有人把GPT-2的权重泄露到了网上。最终OpenAI不得不分阶段公开了完整模型。

这个事件揭示了一个深刻的矛盾：AI能力越强，开源的争议越大。

Meta的”开源豪赌”

2023年，Meta（Facebook母公司）做出了一个大胆决定：开源Llama系列模型。这一举动彻底改变了AI行业的格局。

为什么Meta要这么做？原因很现实：

打乱对手节奏：OpenAI和Google靠闭源API赚钱，Meta用开源让这些API的定价权被削弱
吸引人才：开发者喜欢开源，Meta因此吸引了大量AI人才
建立生态：Llama社区产生的工具、教程、微调方案，都为Meta的AI生态添砖加瓦

中国的开源力量

2024-2025年，中国开源模型异军突起：

Qwen（通义千问）：阿里巴巴出品，中文能力顶尖，社区活跃
DeepSeek：以极低成本训练出接近GPT-4水平的模型，震惊业界
GLM：清华大学团队出品，学术背景深厚
Yi：零一万物出品，中英双语能力均衡

这些模型在Hugging Face上的下载量屡创新高，证明了中国在开源AI领域的实力。

思考题：开源模型会取代商业模型吗？

这个问题没有标准答案，但有几个值得关注的趋势：

开源模型的能力差距正在快速缩小
本地部署的硬件门槛在持续降低
企业对数据隐私的要求越来越高
微调技术让开源模型可以高度定制

也许未来的AI生态不是”开源vs闭源”的二选一，而是混合使用——日常任务用本地开源模型，复杂任务用云端商业模型。

推荐资源

Ollama官方模型库：浏览所有可用模型
Hugging Face：全球最大的开源AI社区
r/LocalLLaMA：Reddit上的本地模型讨论社区
LMSYS Chatbot Arena：在线对比不同模型的回答质量

下篇预告

明天早上8点：Day39早课——AI编程工具：Cursor与Copilot

明晚5点：Day39晚课——AI编程工具实战

Day38——晚课 开源大模型实战：本地部署与调优

系列教程说明

上篇回顾

为什么要本地部署？

第一步：认识Ollama——本地部署的”一键安装器”

安装Ollama

启动Ollama服务

第二步：下载并运行你的第一个模型

选择合适的模型

下载并运行模型

第三步：理解模型参数——数字背后的含义

第四步：常用Ollama命令

查看已安装的模型

下载模型（不运行）

运行模型

删除模型

查看模型信息

查看正在运行的模型

第五步：用Open WebUI获得可视化界面

一行命令安装（需要Docker）

Open WebUI的核心功能

第六步：进阶调优——让模型更适合你

调整Modelfile

关键参数说明

第七步：多模型对比实战

今日行动项

地铁深读：开源模型的前世今生

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介