Day06——早课 机器学习vs深度学习:大圈套小圈,一次讲清楚

作者:

📚 AI专家养成计划 · 第10篇(共140篇)

⏱️ 阅读时间:10-15分钟

🎯 适合人群:零基础,想搞清楚AI技术家族关系的你


🌙 上篇回顾:昨晚我们做了什么

昨晚的晚课,我们用Google Teachable Machine亲手训练了第一个AI模型!来回顾3个核心要点:

1. 模型训练的核心流程是”数据→训练→推理”

你用摄像头录了手势照片(数据),点击Train Model(训练),然后AI就能实时识别新手势(推理)。这个三步走的流程,是所有AI系统的通用范式。

2. 迁移学习是AI民主化的关键

Teachable Machine之所以能30秒训练出模型,是因为它站在了MobileNet这个”巨人”的肩膀上。你不需要从零教AI什么是”边缘”和”纹理”,只需要教它”这种纹理组合=大拇指”。

3. 数据质量决定模型质量

多角度、多样化的训练数据,比单纯增加数量更重要。你换了角度、换了距离录的手势照片,让模型变得更”聪明”。

💡 核心收获:昨晚你亲手体验了AI的完整工作流程。今天我们来搞明白——这些技术背后的”家族关系”。


🎯 今天的主题:一张图搞懂AI技术家族

学了5天了,你可能已经听过这些词:

人工智能、机器学习、深度学习、神经网络、大模型……

它们到底是什么关系?谁包含谁?谁比谁”高级”?

今天,我要用一张图帮你彻底理清这个关系。

很多科普文章喜欢把这几个概念混着用,搞得云里雾里。其实它们的关系非常简单——大圈套小圈


🔵 最外面的大圈:人工智能(AI)

人工智能(Artificial Intelligence) 是最大的那个圈。

它的定义很简单:让机器表现得像有智能一样。

注意,这里说的是”表现得像”,不是”真的有”。你的扫地机器人会避障,手机会人脸解锁,这些都算AI。

AI这个概念从1956年就有了,比你我出生都早。它包含了很多种实现方式:

  • 规则驱动的AI:程序员手写规则,比如”如果温度>30°C,就开空调”
  • 机器学习:让机器从数据中自动学习规则
  • 专家系统:把人类专家的知识编码成规则库

用运维的类比来说:

AI就像”自动化运维”这个大概念。你可以用Shell脚本实现自动化,也可以用Ansible,也可以用AI。手段不同,目标一样——让机器自己干活。

关键理解:AI不一定需要”学习”,它也可以是手写规则的。


🟢 中间的圈:机器学习(Machine Learning)

机器学习(Machine Learning) 是AI的一个子集。

它的核心思想是:不手写规则,让机器从数据中自己学到规则。

还记得Day4早课我们聊的”算法是菜谱”吗?机器学习就是:

`

传统编程:程序员写规则 → 机器执行

机器学习:程序员给数据 → 机器自己学出规则

`

这是一个范式转换!以前是人告诉机器怎么做,现在是人给机器看例子,让机器自己悟。

机器学习的三大类型

类型 比喻 例子

|——|——|——|

监督学习 有老师教的学霸 给1000张猫狗照片,每张都标好了”这是猫””这是狗”,让AI学会区分
无监督学习 自学成才的天才 给1000张照片,不告诉AI是什么,让它自己分出”这一堆看起来像猫,那一堆像狗”
强化学习 打游戏练出来的高手 AI自己摸索,做对了奖励,做错了惩罚,慢慢学会最优策略

用运维类比:

机器学习就像用监控系统自动学习基线。传统方式是你手动设定阈值(CPU>80%报警),机器学习方式是让系统自己学习”正常状态长什么样”,异常了再报。Prometheus的异常检测就是这个思路。

机器学习的典型算法

在机器学习这个圈里,有很多经典的算法:

  • 线性回归:画一条线拟合数据(预测房价)
  • 决策树:一系列if-else判断(审批贷款)
  • 随机森林:一堆决策树投票(更准确的判断)
  • SVM(支持向量机):找到最佳分界线(分类邮件)
  • K近邻:看看周围邻居是什么类(推荐系统)
  • K-Means聚类:自动分堆(客户分群)

这些算法都是2012年之前AI领域的主流方法。它们有个共同特点:

需要人工设计”特征”(Feature Engineering)

什么意思?比如你要做一个猫狗分类器,你得先告诉机器:”看耳朵形状、看毛色、看体型”——这些就是特征。机器只负责根据你给的特征来分类。

问题来了:谁来决定看哪些特征?靠人!

这就像是一个运维工程师手动定义监控规则:”CPU高了看负载,负载高了看进程,进程多了看哪个进程”——全靠经验。


🔴 最里面的圈:深度学习(Deep Learning)

深度学习(Machine Learning的一个子集) 是2012年之后火起来的。

它的革命性突破在于:不需要人工设计特征,机器自己学!

“深度”是什么意思?

“深度”指的是神经网络的层数多

还记得Day5晚课我们用的Teachable Machine吗?它底层用的MobileNet就是一个深度神经网络,有几十层。

层数越多,网络能学到的特征就越复杂:

`

第1层:学到”边缘、线条”

第2层:学到”纹理、形状”

第3层:学到”耳朵、眼睛”

第4层:学到”猫脸、狗脸”

第5层:学到”这是一只猫”

`

用运维类比:

深度学习就像现代的AIOps系统。传统的监控是人工定义规则(CPU>80%报警),深度学习的监控是系统自己看历史数据,自动学到”什么情况是异常”——包括那些你根本想不到的异常模式。

为什么深度学习突然火了?

三个条件在2012年同时成熟:

1. 数据够多了(大数据时代)

互联网爆发,ImageNet数据集有1400万张标注图片。深度学习是”数据饥渴型”的,数据越多越强。

2. 算力够强了(GPU崛起)

NVIDIA的GPU本来是打游戏用的,结果发现特别适合做矩阵运算——这正是神经网络需要的。一块GPU顶100个CPU。

3. 算法突破了(AlexNet)

2012年,Alex Krizhevsky用深度CNN在ImageNet比赛中碾压传统方法,错误率从26%降到16%。整个学术界震动了。

💡 关键洞察:深度学习不是什么全新的理论,神经网络1943年就有了。它火起来是因为”天时地利人和”——数据、算力、算法三箭齐发。


📊 一张图总结:大圈套小圈

`

┌─────────────────────────────────────────────┐

│ 人工智能 (AI) │

│ “让机器表现得像有智能” │

│ │

│ ┌─────────────────────────────────────┐ │

│ │ 机器学习 (ML) │ │

│ │ “从数据中学习规则” │ │

│ │ │ │

│ │ ┌─────────────────────────────┐ │ │

│ │ │ 深度学习 (DL) │ │ │

│ │ │ “用深层神经网络自动学特征” │ │ │

│ │ │ │ │ │

│ │ │ CNN RNN Transformer GPT │ │ │

│ │ └─────────────────────────────┘ │ │

│ │ │ │

│ │ 决策树 SVM 随机森林 KNN … │ │

│ └─────────────────────────────────────┘ │

│ │

│ 规则引擎 专家系统 搜索算法 … │

└─────────────────────────────────────────────┘

`

记住这个关系:

  • AI ⊃ ML ⊃ DL(包含关系)
  • 深度学习是机器学习的一个子集
  • 机器学习是人工智能的一个子集
  • ChatGPT、Stable Diffusion、自动驾驶都属于深度学习

🆚 机器学习 vs 深度学习:关键区别

对比项 传统机器学习 深度学习

|——–|————-|———|

特征提取 人工设计特征 自动学习特征
数据需求 几百到几千条 几万到几亿条
算力需求 CPU就够 需要GPU/TPU
可解释性 强(能看懂决策过程) 弱(黑箱)
适用场景 结构化数据(表格) 非结构化数据(图片、文字、语音)
训练时间 分钟级 小时到天级
典型应用 房价预测、客户分群 图像识别、语音识别、NLP

什么时候用哪个?

用传统机器学习:

  • 数据量小(几千条)
  • 数据是结构化的(Excel表格)
  • 需要解释”为什么这么判断”(比如银行审批贷款)
  • 算力有限(没有GPU)

用深度学习:

  • 数据量大(几万条以上)
  • 数据是非结构化的(图片、文字、语音、视频)
  • 不需要解释过程,只要结果好就行
  • 有GPU算力支持

用运维类比:

传统机器学习就像用Zabbix做监控——你得手动定义监控项、阈值、触发器,但出了问题你能很清楚地知道为什么报警。

>

深度学习就像用AIOps平台——它自动学习所有指标的关联,能发现你想不到的异常模式,但出了问题你可能不知道它为什么报警(黑箱问题)。


📖 地铁深读:深度学习的”深度”到底有多深?

层数的进化史

年份 模型 层数 参数量 突破

|——|——|——|——–|——|

2012 AlexNet 8层 6000万 图像识别突破
2014 VGGNet 19层 1.38亿 更深更准
2015 ResNet 152层 2500万 残差连接,突破深度限制
2018 BERT 24层 3.4亿 NLP革命
2020 GPT-3 96层 1750亿 大模型时代开启
2023 GPT-4 未公开 万亿级 多模态理解
2025 DeepSeek-V3 61层(混合) 6710亿(激活370亿) MoE架构,效率革命

从8层到上百层,从6000万参数到万亿参数——这就是”深度”的进化。

为什么更深就更强?

想象一下你是一个新来的运维工程师:

  • 浅层网络(1-2层):你只能看到表面现象——”服务器挂了”
  • 中层网络(5-10层):你能看到关联——”服务器挂了,因为内存满了,因为有个进程泄漏”
  • 深层网络(50+层):你能看到根因——”服务器挂了,因为内存泄漏,因为代码第347行有个循环引用,因为上周的需求变更改了缓存策略”

层数越多,能捕捉的”抽象层次”越高。

但也不是越多越好——层数太多会出现”梯度消失”问题(后面的层学不动了)。ResNet的”残差连接”就是为了解决这个问题,让梯度能”跳过”中间层直接传回去。

深度学习的主要架构

深度学习内部又分为很多”流派”:

1. CNN(卷积神经网络)—— 图像专家

  • 擅长:图像识别、目标检测、图像生成
  • 代表:ResNet、YOLO、Stable Diffusion
  • 原理:用”卷积核”扫描图像,提取局部特征

2. RNN/LSTM(循环神经网络)—— 序列专家

  • 擅长:时间序列、语音识别、早期的NLP
  • 代表:LSTM、GRU
  • 原理:有”记忆”功能,能记住前面的信息

3. Transformer —— 全能王者

  • 擅长:NLP、多模态、几乎一切
  • 代表:BERT、GPT、Llama、Qwen
  • 原理:注意力机制,能同时看到所有信息
  • 状态:2026年的绝对主流,正在”一统江湖”

💡 这三种架构我们后面都会深入讲解,今天只需要知道它们的关系就好。


🤔 一个常见误区

很多人以为”深度学习比机器学习更好”,这是不对的。

深度学习不是机器学习的”升级版”,而是”不同的适用场景”。

就像你不能说”Kubernetes比Shell脚本更好”——它们解决的问题不同。简单的自动化任务用Shell就够了,复杂的容器编排才需要K8s。

同样:

  • 预测明天的天气?深度学习可能过度了,传统回归模型就够
  • 识别X光片中的肿瘤?深度学习碾压传统方法
  • 分析用户购买行为?随机森林可能比深度学习更合适,而且能解释”为什么”

选择合适的工具,比追求最新最强的工具更重要。


✅ 今日总结

3个关键要点:

  1. AI ⊃ 机器学习 ⊃ 深度学习,三者是包含关系,不是并列关系。深度学习是机器学习的一个子集,机器学习是人工智能的一个子集。
  1. 深度学习的核心突破是”自动学习特征”——不需要人工设计特征,机器自己从数据中学到。代价是需要更多数据和更强算力。
  1. 深度学习不是万能的——数据少、需要可解释性、结构化数据的场景,传统机器学习仍然是更好的选择。选对工具比追求最新技术更重要。

📝 今日行动项

  • [ ] 画出AI、机器学习、深度学习的包含关系图(手绘或用工具都行)
  • [ ] 想一想你工作中遇到的问题,判断它适合用传统机器学习还是深度学习
  • [ ] 在搜索引擎搜索”机器学习 vs 深度学习”,看看其他人的解释和我们讲的有什么不同

📅 下篇预告

今晚晚课 Day06:传统编程 vs AI编程——思维方式的革命性转变

从”写规则”到”给数据”,编程思维的范式转换。用一个对比实验,让你体会AI编程的威力。

明天早课 Day07:AI五感——视觉、听觉、语言、推理、创造

AI能看、能听、能说、能想、能创造?一次讲清AI的五大能力,看看哪些已经超过人类。


🎓 早课合集 | 每天早上8点更新

💡 学完记得打卡!在评论区分享你对机器学习和深度学习的理解

🔖 本文已收录至「AI专家养成计划·早课理论」合集(album_id: 4522388014890975236)

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注