📚 AI专家养成计划 · 第9篇(共140篇)| 补发
⏱️ 阅读时间:正文10-15分钟 + 地铁深读5-10分钟
🎯 适合人群:零基础,想搞懂”AI模型”到底是什么的你
!AI模型
☀️ 上篇回顾:昨晚我们学了什么
昨晚我们用Excel跑了一个AI预测算法——线性回归。来回顾3个核心要点:
1. AI的底层原理就是”找规律”
从数据中找到规律(公式),用公式预测新数据。Excel的趋势线和ChatGPT在本质上做的是同一件事。
2. 线性回归是最基础的AI算法
y = ax + b,200多年前发明的,至今仍是使用最广泛的机器学习算法之一。
3. R²值告诉你预测靠不靠谱
越接近1越好。AI模型也有类似的”置信度”指标,告诉你它的预测有多可信。
💡 核心收获:昨晚你亲手用Excel体验了AI的”训练”过程——从数据中学规律。今天我们来搞清楚:训练完成后得到的那个”东西”,到底是什么?
🎯 今天的话题:什么是”模型”?
你一定听过这些词:
- “GPT-4是一个大模型”
- “Stable Diffusion模型”
- “微调模型”
- “下载一个模型到本地”
但”模型”到底是什么?
一句话解释:模型 = 训练好的算法 + 学到的参数。
打个比方:
| 概念 | 比喻 | AI中的对应 |
|---|
|——|——|———–|
| 算法 | 菜谱 | 线性回归、神经网络 |
|---|---|---|
| 数据 | 食材 | 训练数据集 |
| 训练 | 做菜的过程 | 让算法从数据中学习 |
| 模型 | 做好的菜 | 训练完成后保存的文件 |
你昨晚用Excel做的线性回归,得到的公式 y = 2.94x + 0.12,这个公式就是一个模型。
- 算法是”线性回归”
- 参数是
2.94和0.12 - 模型就是”用这两个参数的线性公式”
🧠 模型的三个关键属性
属性1:参数量
参数就是模型”学到的数字”。
| 模型 | 参数量 | 类比 |
|---|
|——|——–|——|
| 你的Excel线性回归 | 2个 | 一张便签 |
|---|---|---|
| 图像分类模型(ResNet) | 2500万 | 一本书 |
| GPT-3 | 1750亿 | 一个图书馆 |
| GPT-4 | 估计万亿级 | 一个国家图书馆 |
参数越多,模型越”聪明”,但也越耗资源。
属性2:文件大小
模型本质上是一个文件,保存了所有学到的参数。
| 模型 | 文件大小 |
|---|
|——|———|
| 你的Excel公式 | 几十字节 |
|---|---|
| Whisper语音识别 | 1.5GB |
| Llama 3 8B | 16GB |
| Stable Diffusion | 4GB |
你下载一个”AI模型”,其实就是下载一个很大的数据文件。
属性3:推理能力
“推理”不是指逻辑推理,而是指用模型做预测的过程。
你输入一张图片 → 模型输出”这是猫”
你输入一段文字 → 模型输出下一句话
你输入一个公式 → 模型输出预测值
这个过程叫”推理”(inference),和”训练”(training)是相对的:
- 训练:从数据中学规律,生成模型(慢,需要大量算力)
- 推理:用模型做预测(快,普通电脑就行)
🔍 不同类型的模型
分类模型
做什么:把东西分到不同的类别
例子:
- 邮件:垃圾邮件 / 正常邮件
- 图片:猫 / 狗 / 鸟
- 医学影像:正常 / 异常
生活中的应用:手机相册自动分类、垃圾邮件过滤、人脸识别
回归模型
做什么:预测一个连续的数字
例子:
- 预测明天的气温
- 预测房价
- 预测销售额
你昨晚用Excel做的就是回归模型!
生成模型
做什么:创造新的内容
例子:
- ChatGPT:生成文字
- Stable Diffusion:生成图片
- Suno:生成音乐
这是最近两年最火的模型类型。
📖 地铁深读:模型是怎么”炼”出来的?
训练的三步曲
第1步:前向传播(Forward Pass)
把数据喂给模型,看模型输出什么。
比如你给模型一张猫的图片,模型说”这是狗”。错了。
第2步:计算损失(Loss)
量化模型错得有多离谱。”说是狗,其实是猫,误差 = 0.8″
第3步:反向传播(Backward Pass)
根据误差调整模型的参数。把参数往”减少误差”的方向微调一点点。
然后重复这三步,几百万次。
`
数据 → 模型预测 → 计算误差 → 调整参数 → 再预测 → 再调整 → … → 误差足够小 → 完成!
`
就像你学骑自行车:歪了→调整→又歪了→再调整→越来越稳→学会了。
为什么训练需要GPU?
因为”几百万次”的参数调整,每次都需要大量的矩阵运算。
CPU一次算一个,GPU一次算一万个。
训练一个大语言模型需要几千块GPU跑几个月,电费就要几百万美元。这就是为什么只有大公司能训练顶级模型。
迁移学习:站在巨人肩膀上
如果你要训练一个”识别猫和狗”的模型,不需要从零开始。
可以下载一个已经在几百万张图片上训练好的模型(比如ResNet),然后只在你的猫狗数据上”微调”一下。
这叫迁移学习——就像你已经会骑自行车了,学摩托车就快多了。
✅ 今日总结
3个关键要点:
- 模型 = 训练好的算法 + 学到的参数——它本质上是一个文件,保存了从数据中学到的所有”知识”。
- 参数量决定模型能力——你的Excel公式有2个参数,GPT-4有万亿个参数。参数越多越”聪明”,但也越耗资源。
- 训练和推理是两个阶段——训练是”学习”(慢、贵),推理是”做预测”(快、便宜)。
📝 今日行动项
- [ ] 搜索”HuggingFace”(huggingface.co),看看世界上最大的开源AI模型库长什么样
- [ ] 找一个模型页面(比如”bert-base-chinese”),看看它的参数量和文件大小
- [ ] 回顾一下你Excel里的公式——那就是你训练出的第一个AI模型!
📅 下篇预告
今晚 Day05:零代码!用Google Teachable Machine训练你的第一个AI
不用写代码,用浏览器拖拖拽拽就能训练一个图像分类模型。你将亲手体验”训练→推理”的完整过程。
明天早课 Day06:机器学习vs深度学习——大圈套小圈,一次讲清楚
机器学习和深度学习是什么关系?为什么深度学习突然这么火?
🎓 早课合集 | 每天早上8点更新
💡 学完记得动手!去HuggingFace逛一逛
🔖 本文已收录至「AI专家养成计划·早课」合集
发表回复