系列教程说明
这是「AI专家养成计划」系列教程的第76篇,共140篇。本系列从零基础出发,每天两篇(早课理论+晚课实践),带你系统掌握AI核心技能。无论你是职场人、学生还是创业者,都能在这里找到适合自己的AI学习路径。
上篇回顾
昨天我们深入探索了Claude——Anthropic打造的对话AI。三个核心要点:
- Claude的”宪法AI”训练方法:通过一套原则体系自我约束,而非简单的人类反馈,这让Claude在安全性和有用性之间找到了独特平衡
- Projects功能:可以上传文档建立专属知识库,让Claude基于你的资料回答问题,相当于给AI配了一个”私人图书馆”
- Artifacts可视化输出:Claude能直接生成可交互的图表、代码和文档,把对话变成了一个”创作工坊”
今天我们换一个完全不同的视角——不依赖云端API,把大模型直接装进你自己的电脑。
为什么要本地部署大模型?
在前面的课程中,我们用的ChatGPT、Claude都是云端服务——你的问题发送到它们的服务器,处理完再返回结果。这种方式简单方便,但有几个绕不开的问题:
隐私顾虑:你发送的每一个字,都会经过别人的服务器。如果你处理的是公司机密、个人隐私或敏感数据,这可能是个隐患。
网络依赖:没有网络,云端AI就是一堆废铁。出差、飞机上、偏远地区,都可能面临”断网焦虑”。
成本累积:API调用按量计费,用得越多花得越多。对于个人学习者和小团队来说,长期成本不容忽视。
定制受限:云端模型是”一刀切”的,你无法根据自己的需求调整模型的行为。
而本地部署恰好能解决这些问题——模型运行在你自己的设备上,数据不出本机,不需要网络,没有额外费用,还能自由定制。
开源大模型的”百花齐放”
2023年以来,开源大模型迎来了爆发式增长。几个最值得关注的”玩家”:
Meta的Llama系列:开源大模型的”扛把子”。从Llama 2到Llama 3再到Llama 4,每一代都在性能上逼近甚至超越闭源模型。Llama 3的70B参数版本,在很多任务上已经能和GPT-4掰手腕。
阿里的通义千问(Qwen):中文能力极强的开源模型。Qwen2.5系列在中文理解、代码生成、数学推理等方面表现出色,是国内开发者的首选之一。
DeepSeek(深度求索):以”极致性价比”著称。DeepSeek-V3和R1模型用更少的参数实现了惊人的性能,特别是在推理和代码任务上。
Mistral AI:法国团队出品,以”小而精”闻名。Mistral 7B虽然只有70亿参数,但在很多基准测试上打败了比它大几倍的模型。
Google的Gemma:Google开源的轻量级模型,适合在消费级硬件上运行,性能稳定。
这些模型有一个共同特点:你可以免费下载、自由使用、甚至商用(在许可协议范围内)。
Ollama:一键部署的”魔法工具”
说到本地部署,很多人的第一反应是:”听起来好复杂,需要GPU、需要配置环境、需要……”
别担心,Ollama让这一切变得像安装微信一样简单。
Ollama是什么?一句话:它是一个让你在自己电脑上运行大模型的工具,开箱即用。
为什么推荐Ollama?
- 极简安装:一行命令搞定,不需要配置Python环境、CUDA驱动那些让人头大的东西
- 模型管理:内置模型库,像逛应用商店一样浏览和下载模型
- 跨平台:支持macOS、Linux、Windows,不管你用什么电脑都能跑
- 兼容性强:支持Llama、Qwen、DeepSeek、Mistral等主流开源模型
- API接口:启动后自动提供OpenAI兼容的API,其他应用可以直接调用
实战:在你的电脑上跑一个大模型
第一步:安装Ollama
macOS和Linux用户,打开终端,输入:
`bash
curl -fsSL https://ollama.com/install.sh | sh
`
Windows用户,访问 ollama.com 下载安装包,双击安装即可。
安装完成后,验证一下:
`bash
ollama –version
`
看到版本号就说明安装成功了。
第二步:下载并运行模型
运行一个模型只需要一行命令。比如,想试试Llama 3的8B版本:
`bash
ollama run llama3
`
Ollama会自动下载模型文件(约4.7GB),下载完成后直接进入对话界面。就这么简单!
其他热门模型的一键命令:
`bash
# 通义千问2.5(中文能力强)
ollama run qwen2.5
# DeepSeek-R1(推理能力强)
ollama run deepseek-r1
# Mistral(轻量高效)
ollama run mistral
# Gemma 2(Google出品)
ollama run gemma2
`
第三步:开始对话
模型下载完成后,你会看到一个命令行提示符。直接输入问题就行:
`
>>> 用简单的语言解释什么是量子计算
>>> 帮我写一封求职邮件
>>> 用Python写一个快速排序算法
`
想退出对话?输入 /bye 或按 Ctrl+D。
第四步:查看已安装的模型
`bash
ollama list
`
这会列出你电脑上所有已下载的模型,包括名称、大小和下载时间。
你的电脑能跑多大的模型?
这是大家最关心的问题。简单说:模型越大越聪明,但也越吃资源。
| 模型参数 | 最低内存 | 推荐内存 | 适合场景 |
|---|
|———|———|———|———|
| 1B-3B | 4GB | 8GB | 简单问答、文本分类 |
|---|---|---|---|
| 7B-8B | 8GB | 16GB | 日常对话、写作辅助 |
| 13B-14B | 16GB | 32GB | 专业任务、代码生成 |
| 70B+ | 48GB | 64GB+ | 复杂推理、研究用途 |
关键提示:这里的”内存”指的是运行内存(RAM),不是硬盘空间。模型文件存在硬盘上,但运行时需要加载到内存中。
没有GPU也能跑!Ollama支持纯CPU运行,只是速度会慢一些。有NVIDIA或AMD显卡的话,速度会快很多。
本地模型 vs 云端模型:怎么选?
这不是一个”非此即彼”的选择,而是根据场景灵活搭配:
选本地模型的场景:
- 处理敏感数据(公司文件、个人信息)
- 网络不稳定或无网络环境
- 需要长时间批量处理(成本可控)
- 想深入学习模型原理和调优
选云端模型的场景:
- 需要最强性能(GPT-4、Claude Opus级别)
- 多模态任务(图像理解、语音交互)
- 需要联网搜索最新信息
- 不想占用本地资源
最佳实践:日常轻度使用用本地模型,重要任务和创意工作用云端模型。就像在家做饭和下馆子,各有各的好。
今日总结
- 开源大模型已经非常成熟,Llama、Qwen、DeepSeek等模型可以免费下载和使用
- Ollama是本地部署的最佳入门工具,一行命令就能跑起来
- 本地部署解决了隐私、网络、成本三大痛点,是AI学习者的重要技能
今日行动项
- 安装Ollama,运行
ollama run llama3,和本地AI聊聊天 - 试试不同的模型(qwen2.5、deepseek-r1),感受它们各自的”性格”
- 用本地模型处理一个你日常遇到的小任务,体验”离线AI”的自由
🚇 地铁深读:开源大模型的”军备竞赛”
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
从”不可想象”到”遍地开花”
2023年初,当Meta宣布开源Llama时,整个AI圈都震惊了。在此之前,能打的大模型都是闭源的——OpenAI的GPT、Google的PaLM,你想用只能调API,看不到模型长什么样。
Llama的开源像一颗石子投入平静的湖面,激起了层层涟漪。社区迅速围绕它构建了微调工具、量化方案、部署框架。Alpaca、Vicuna等一系列衍生模型如雨后春笋般涌现。
2024年的转折点是DeepSeek的出现。这家中国公司用远低于行业平均水平的成本,训练出了性能媲美GPT-4的模型。他们的”混合专家”(MoE)架构证明了:不一定需要最多的算力,关键是架构和数据的巧妙设计。
2025年,开源模型继续加速。Qwen2.5在中文任务上全面超越闭源模型,Llama 3.1的405B版本让开源模型首次在综合能力上与GPT-4平起平坐。
量化技术:让大模型”瘦身”
你可能会好奇:一个70B参数的模型需要140GB显存,普通电脑怎么跑?答案是量化。
量化的核心思想是:把模型参数从高精度(如32位浮点数)压缩到低精度(如4位整数),模型大小直接缩小到原来的1/8,精度损失却很小。
Ollama默认使用的就是GGUF格式的量化模型。这就是为什么你用16GB内存就能跑一个8B模型——它已经被”瘦身”过了。
思考题
- 开源模型和闭源模型的根本区别是什么?仅仅是”能不能看到代码”吗?
- 如果你是一家创业公司的CTO,你会选择开源模型还是闭源API?考虑哪些因素?
- 本地部署的模型在哪些场景下可能比云端模型更好用?反过来呢?
推荐资源
- Ollama官方模型库:ollama.com/library — 浏览所有可用模型
- Hugging Face Open LLM Leaderboard:huggingface.co/spaces/open-llm-leaderboard — 开源模型性能排行榜
- 《动手学大模型》:GitHub上的中文开源教程,从零理解大模型原理
下篇预告
明天早上8点:Day39——AI编程工具:Cursor与Copilot。AI如何成为你的编程搭档?
今天下午5点:Day38晚课——开源大模型实战:本地部署与调优。手把手教你配置模型参数、搭建本地AI助手。
发表回复