Day06——早课机器学习vs深度学习：大圈套小圈，一次讲清楚

📚 AI专家养成计划 · 第10篇（共140篇）

⏱️ 阅读时间：10-15分钟

🎯 适合人群：零基础，想搞清楚AI技术家族关系的你

🌙 上篇回顾：昨晚我们做了什么

昨晚的晚课，我们用Google Teachable Machine亲手训练了第一个AI模型！来回顾3个核心要点：

1. 模型训练的核心流程是”数据→训练→推理”

你用摄像头录了手势照片（数据），点击Train Model（训练），然后AI就能实时识别新手势（推理）。这个三步走的流程，是所有AI系统的通用范式。

2. 迁移学习是AI民主化的关键

Teachable Machine之所以能30秒训练出模型，是因为它站在了MobileNet这个”巨人”的肩膀上。你不需要从零教AI什么是”边缘”和”纹理”，只需要教它”这种纹理组合=大拇指”。

3. 数据质量决定模型质量

多角度、多样化的训练数据，比单纯增加数量更重要。你换了角度、换了距离录的手势照片，让模型变得更”聪明”。

💡 核心收获：昨晚你亲手体验了AI的完整工作流程。今天我们来搞明白——这些技术背后的”家族关系”。

🎯 今天的主题：一张图搞懂AI技术家族

学了5天了，你可能已经听过这些词：

人工智能、机器学习、深度学习、神经网络、大模型……

它们到底是什么关系？谁包含谁？谁比谁”高级”？

今天，我要用一张图帮你彻底理清这个关系。

很多科普文章喜欢把这几个概念混着用，搞得云里雾里。其实它们的关系非常简单——大圈套小圈。

🔵 最外面的大圈：人工智能（AI）

人工智能（Artificial Intelligence） 是最大的那个圈。

它的定义很简单：让机器表现得像有智能一样。

注意，这里说的是”表现得像”，不是”真的有”。你的扫地机器人会避障，手机会人脸解锁，这些都算AI。

AI这个概念从1956年就有了，比你我出生都早。它包含了很多种实现方式：

规则驱动的AI：程序员手写规则，比如”如果温度>30°C，就开空调”
机器学习：让机器从数据中自动学习规则
专家系统：把人类专家的知识编码成规则库

用运维的类比来说：

AI就像”自动化运维”这个大概念。你可以用Shell脚本实现自动化，也可以用Ansible，也可以用AI。手段不同，目标一样——让机器自己干活。

关键理解：AI不一定需要”学习”，它也可以是手写规则的。

🟢 中间的圈：机器学习（Machine Learning）

机器学习（Machine Learning） 是AI的一个子集。

它的核心思想是：不手写规则，让机器从数据中自己学到规则。

还记得Day4早课我们聊的”算法是菜谱”吗？机器学习就是：

传统编程：程序员写规则 → 机器执行

机器学习：程序员给数据 → 机器自己学出规则

这是一个范式转换！以前是人告诉机器怎么做，现在是人给机器看例子，让机器自己悟。

机器学习的三大类型

类型	比喻	例子

|——|——|——|

监督学习	有老师教的学霸	给1000张猫狗照片，每张都标好了”这是猫””这是狗”，让AI学会区分
无监督学习	自学成才的天才	给1000张照片，不告诉AI是什么，让它自己分出”这一堆看起来像猫，那一堆像狗”
强化学习	打游戏练出来的高手	AI自己摸索，做对了奖励，做错了惩罚，慢慢学会最优策略

用运维类比：

机器学习就像用监控系统自动学习基线。传统方式是你手动设定阈值（CPU>80%报警），机器学习方式是让系统自己学习”正常状态长什么样”，异常了再报。Prometheus的异常检测就是这个思路。

机器学习的典型算法

在机器学习这个圈里，有很多经典的算法：

线性回归：画一条线拟合数据（预测房价）
决策树：一系列if-else判断（审批贷款）
随机森林：一堆决策树投票（更准确的判断）
SVM（支持向量机）：找到最佳分界线（分类邮件）
K近邻：看看周围邻居是什么类（推荐系统）
K-Means聚类：自动分堆（客户分群）

这些算法都是2012年之前AI领域的主流方法。它们有个共同特点：

需要人工设计”特征”（Feature Engineering）

什么意思？比如你要做一个猫狗分类器，你得先告诉机器：”看耳朵形状、看毛色、看体型”——这些就是特征。机器只负责根据你给的特征来分类。

问题来了：谁来决定看哪些特征？靠人！

这就像是一个运维工程师手动定义监控规则：”CPU高了看负载，负载高了看进程，进程多了看哪个进程”——全靠经验。

🔴 最里面的圈：深度学习（Deep Learning）

深度学习（Machine Learning的一个子集） 是2012年之后火起来的。

它的革命性突破在于：不需要人工设计特征，机器自己学！

“深度”是什么意思？

“深度”指的是神经网络的层数多。

还记得Day5晚课我们用的Teachable Machine吗？它底层用的MobileNet就是一个深度神经网络，有几十层。

层数越多，网络能学到的特征就越复杂：

第1层：学到”边缘、线条”

第2层：学到”纹理、形状”

第3层：学到”耳朵、眼睛”

第4层：学到”猫脸、狗脸”

第5层：学到”这是一只猫”

用运维类比：

深度学习就像现代的AIOps系统。传统的监控是人工定义规则（CPU>80%报警），深度学习的监控是系统自己看历史数据，自动学到”什么情况是异常”——包括那些你根本想不到的异常模式。

为什么深度学习突然火了？

三个条件在2012年同时成熟：

1. 数据够多了（大数据时代）

互联网爆发，ImageNet数据集有1400万张标注图片。深度学习是”数据饥渴型”的，数据越多越强。

2. 算力够强了（GPU崛起）

NVIDIA的GPU本来是打游戏用的，结果发现特别适合做矩阵运算——这正是神经网络需要的。一块GPU顶100个CPU。

3. 算法突破了（AlexNet）

2012年，Alex Krizhevsky用深度CNN在ImageNet比赛中碾压传统方法，错误率从26%降到16%。整个学术界震动了。

💡 关键洞察：深度学习不是什么全新的理论，神经网络1943年就有了。它火起来是因为”天时地利人和”——数据、算力、算法三箭齐发。

📊 一张图总结：大圈套小圈

┌─────────────────────────────────────────────┐

│ 人工智能 (AI) │

│ “让机器表现得像有智能” │

│ │

│ ┌─────────────────────────────────────┐ │

│ │ 机器学习 (ML) │ │

│ │ “从数据中学习规则” │ │

│ │ │ │

│ │ ┌─────────────────────────────┐ │ │

│ │ │ 深度学习 (DL) │ │ │

│ │ │ “用深层神经网络自动学特征” │ │ │

│ │ │ │ │ │

│ │ │ CNN RNN Transformer GPT │ │ │

│ │ └─────────────────────────────┘ │ │

│ │ │ │

│ │ 决策树 SVM 随机森林 KNN … │ │

│ └─────────────────────────────────────┘ │

│ │

│ 规则引擎专家系统搜索算法 … │

└─────────────────────────────────────────────┘

记住这个关系：

AI ⊃ ML ⊃ DL（包含关系）
深度学习是机器学习的一个子集
机器学习是人工智能的一个子集
ChatGPT、Stable Diffusion、自动驾驶都属于深度学习

🆚 机器学习 vs 深度学习：关键区别

对比项	传统机器学习	深度学习

|——–|————-|———|

特征提取	人工设计特征	自动学习特征
数据需求	几百到几千条	几万到几亿条
算力需求	CPU就够	需要GPU/TPU
可解释性	强（能看懂决策过程）	弱（黑箱）
适用场景	结构化数据（表格）	非结构化数据（图片、文字、语音）
训练时间	分钟级	小时到天级
典型应用	房价预测、客户分群	图像识别、语音识别、NLP

什么时候用哪个？

用传统机器学习：

数据量小（几千条）
数据是结构化的（Excel表格）
需要解释”为什么这么判断”（比如银行审批贷款）
算力有限（没有GPU）

用深度学习：

数据量大（几万条以上）
数据是非结构化的（图片、文字、语音、视频）
不需要解释过程，只要结果好就行
有GPU算力支持

用运维类比：

传统机器学习就像用Zabbix做监控——你得手动定义监控项、阈值、触发器，但出了问题你能很清楚地知道为什么报警。

深度学习就像用AIOps平台——它自动学习所有指标的关联，能发现你想不到的异常模式，但出了问题你可能不知道它为什么报警（黑箱问题）。

📖 地铁深读：深度学习的”深度”到底有多深？

层数的进化史

年份	模型	层数	参数量	突破

|——|——|——|——–|——|

2012	AlexNet	8层	6000万	图像识别突破
2014	VGGNet	19层	1.38亿	更深更准
2015	ResNet	152层	2500万	残差连接，突破深度限制
2018	BERT	24层	3.4亿	NLP革命
2020	GPT-3	96层	1750亿	大模型时代开启
2023	GPT-4	未公开	万亿级	多模态理解
2025	DeepSeek-V3	61层(混合)	6710亿(激活370亿)	MoE架构，效率革命

从8层到上百层，从6000万参数到万亿参数——这就是”深度”的进化。

为什么更深就更强？

想象一下你是一个新来的运维工程师：

浅层网络（1-2层）：你只能看到表面现象——”服务器挂了”
中层网络（5-10层）：你能看到关联——”服务器挂了，因为内存满了，因为有个进程泄漏”
深层网络（50+层）：你能看到根因——”服务器挂了，因为内存泄漏，因为代码第347行有个循环引用，因为上周的需求变更改了缓存策略”

层数越多，能捕捉的”抽象层次”越高。

但也不是越多越好——层数太多会出现”梯度消失”问题（后面的层学不动了）。ResNet的”残差连接”就是为了解决这个问题，让梯度能”跳过”中间层直接传回去。

深度学习的主要架构

深度学习内部又分为很多”流派”：

1. CNN（卷积神经网络）—— 图像专家

擅长：图像识别、目标检测、图像生成
代表：ResNet、YOLO、Stable Diffusion
原理：用”卷积核”扫描图像，提取局部特征

2. RNN/LSTM（循环神经网络）—— 序列专家

擅长：时间序列、语音识别、早期的NLP
代表：LSTM、GRU
原理：有”记忆”功能，能记住前面的信息

3. Transformer —— 全能王者

擅长：NLP、多模态、几乎一切
代表：BERT、GPT、Llama、Qwen
原理：注意力机制，能同时看到所有信息
状态：2026年的绝对主流，正在”一统江湖”

💡 这三种架构我们后面都会深入讲解，今天只需要知道它们的关系就好。

🤔 一个常见误区

很多人以为”深度学习比机器学习更好”，这是不对的。

深度学习不是机器学习的”升级版”，而是”不同的适用场景”。

就像你不能说”Kubernetes比Shell脚本更好”——它们解决的问题不同。简单的自动化任务用Shell就够了，复杂的容器编排才需要K8s。

同样：

预测明天的天气？深度学习可能过度了，传统回归模型就够
识别X光片中的肿瘤？深度学习碾压传统方法
分析用户购买行为？随机森林可能比深度学习更合适，而且能解释”为什么”

选择合适的工具，比追求最新最强的工具更重要。

✅ 今日总结

3个关键要点：

AI ⊃ 机器学习 ⊃ 深度学习，三者是包含关系，不是并列关系。深度学习是机器学习的一个子集，机器学习是人工智能的一个子集。

深度学习的核心突破是”自动学习特征”——不需要人工设计特征，机器自己从数据中学到。代价是需要更多数据和更强算力。

深度学习不是万能的——数据少、需要可解释性、结构化数据的场景，传统机器学习仍然是更好的选择。选对工具比追求最新技术更重要。

📝 今日行动项

[ ] 画出AI、机器学习、深度学习的包含关系图（手绘或用工具都行）
[ ] 想一想你工作中遇到的问题，判断它适合用传统机器学习还是深度学习
[ ] 在搜索引擎搜索”机器学习 vs 深度学习”，看看其他人的解释和我们讲的有什么不同

📅 下篇预告

今晚晚课 Day06：传统编程 vs AI编程——思维方式的革命性转变

从”写规则”到”给数据”，编程思维的范式转换。用一个对比实验，让你体会AI编程的威力。

明天早课 Day07：AI五感——视觉、听觉、语言、推理、创造

AI能看、能听、能说、能想、能创造？一次讲清AI的五大能力，看看哪些已经超过人类。

🎓 早课合集 | 每天早上8点更新

💡 学完记得打卡！在评论区分享你对机器学习和深度学习的理解

🔖 本文已收录至「AI专家养成计划·早课理论」合集（album_id: 4522388014890975236）

Day06——早课 机器学习vs深度学习：大圈套小圈，一次讲清楚

🌙 上篇回顾：昨晚我们做了什么

🎯 今天的主题：一张图搞懂AI技术家族

🔵 最外面的大圈：人工智能（AI）

🟢 中间的圈：机器学习（Machine Learning）

机器学习的三大类型

机器学习的典型算法

🔴 最里面的圈：深度学习（Deep Learning）

“深度”是什么意思？

为什么深度学习突然火了？

📊 一张图总结：大圈套小圈

🆚 机器学习 vs 深度学习：关键区别

什么时候用哪个？

📖 地铁深读：深度学习的”深度”到底有多深？

层数的进化史

为什么更深就更强？

深度学习的主要架构

🤔 一个常见误区

✅ 今日总结

📝 今日行动项

📅 下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day06——晚课 传统编程vs AI编程：思维方式的革命性转变

AI专家养成计划·午课 5月22日速报

Open Design系列教程（三）：实战案例篇——从0到1设计一个攀岩者网站

Open Design系列教程（二）：核心概念篇——模式×Skill×Design System×Agent

Day06——早课机器学习vs深度学习：大圈套小圈，一次讲清楚

发表回复取消回复

Day06——晚课传统编程vs AI编程：思维方式的革命性转变