系列教程说明
这是「AI专家养成计划」系列教程的第7篇,共140篇。
本系列专为零基础学习者设计,从最简单的概念开始,逐步深入到AI开发实战。每天2篇,早上理论讲透,晚上动手实践,坚持70天,你就能从AI小白变成AI专家。
适合人群:对AI感兴趣但不知道从哪开始的任何人。
上篇回顾
昨天晚上,我们用百度飞桨EasyDL平台,用手机照片训练了一个AI图像分类器。
三个核心要点:
- 零代码也能训AI——EasyDL让你上传照片、打标签、点”训练”按钮就能得到AI模型,全程不需要写一行代码
- 数据质量决定AI效果——多角度、多背景、多光线拍摄,每个类别15-20张照片,AI才能学得”泛化”
- AI训练本质是”喂数据”的过程——上传照片→打标签→训练→测试→导出,AI从大量样本中自动提取规律
好,昨天你亲手训了一个AI。
但你有没有想过一个问题:
同样的照片数据,换一种训练方法,结果会一样吗?
答案是:完全不一样。
这就引出了今天的主题——算法。
一、先聊个厨房的故事
假设你和朋友同时拿到一模一样的食材:鸡蛋、西红柿、葱、盐、油。
你做了西红柿炒鸡蛋,朋友做了西红柿蛋花汤。
食材相同,菜不同。
为什么?因为菜谱不同。
在AI的世界里:
- 食材 = 数据(我们昨天学的)
- 菜谱 = 算法(今天要学的)
- 做出来的菜 = 模型(明天会讲)
这三样东西,是AI的三大基石。少了任何一个,AI都跑不起来。
二、算法到底是什么?
用最简单的话说:
算法就是解决问题的步骤。
你每天都在用算法,只是没意识到而已。
例子1:找钥匙
你出门前找钥匙,你的”算法”可能是:
- 先看玄关的钥匙挂钩
- 没有?翻翻昨天穿的裤子口袋
- 还没有?看看桌上、沙发上
- 找到了→出门;找不到→打电话给室友
这就是一个搜索算法——按优先级逐个位置查找。
例子2:整理书架
你有一堆书要按字母顺序排列,你的”算法”可能是:
- 拿起第一本书
- 跟后面的书比较,如果顺序不对就交换位置
- 重复这个过程,直到所有书都排好
这就是冒泡排序算法——虽然效率不高,但确实能解决问题。
例子3:猜数字
朋友让你猜1到100之间的数字,你的策略可能是:
- 策略A:从1开始一个一个猜(1, 2, 3, 4…)→ 最坏猜100次
- 策略B:先猜50,大了猜25,小了猜75 → 最坏猜7次
两种策略都能找到答案,但效率天差地别。
这就是算法的核心:同样的问题,不同的解法,效率可能差千倍万倍。
三、AI里的算法,跟日常有什么不同?
日常算法是你手动设计的步骤,AI的算法是让机器自己从数据中”学”出步骤。
这个区别非常重要,我再用厨房来类比:
传统编程(你写菜谱)
`
如果鸡蛋颜色是红色:
这是西红柿
如果鸡蛋颜色是白色:
这是鸡蛋
`
你得自己告诉机器每一步怎么做。规则是你写的,机器只是执行。
AI/机器学习(机器自己学菜谱)
`
给机器看1000张西红柿的照片和1000张鸡蛋的照片
→ 机器自己总结出规律
→ “哦,红色的圆的是西红柿,白色椭圆的是鸡蛋”
`
你不告诉机器规则,只给它数据,让它自己找规律。
这就是”机器学习”这个名字的由来——机器自己学习。
四、几种经典的AI算法
别被名字吓到,我用生活例子来解释每一个。
1. 线性回归——画一条趋势线
生活场景:你发现公司销售额每个月都在涨,你想预测下个月能卖多少。
你把过去12个月的数据画在图上,然后画一条直线,让它尽量贴近所有数据点。
这条直线就是线性回归的结果。
延伸这条线,就能预测未来的趋势。
运维类比:这就像看服务器负载的周趋势图——负载每周一高、周末低,你画条线就能预测下周的峰值。
2. 决策树——20个问题游戏
生活场景:你在网上买手机,客服问你:
- 预算多少?→ 3000以下
- 要拍照好的还是性能强的?→ 拍照好
- 要大屏还是小屏?→ 大屏
- 推荐:这款Redmi Note系列
这就是决策树——通过一连串是/否的问题,逐步缩小范围,得出结论。
AI的决策树算法做的事情完全一样,只不过它能处理的问题复杂得多,问的问题也可能有几百个。
3. K近邻——物以类聚
生活场景:你搬到一个新小区,想知道附近哪家餐馆好吃。
你问了5个邻居,3个说”A餐馆好”,2个说”B餐馆好”。
你选了A餐馆——因为多数人的选择更可靠。
K近邻算法的思路完全一样:看一个新数据点周围最近的K个邻居,多数属于哪类,它就属于哪类。
4. 神经网络——模仿大脑
生活场景:你教小朋友认猫。
一开始他分不清猫和狗,你给他看100只猫和100只狗,每次告诉他对错。
慢慢地,他学会了:”尖耳朵、细长瞳孔、会呼噜的是猫”。
神经网络模仿的就是这个过程——层层抽象,从简单特征组合出复杂判断。
这是目前最火的AI算法,ChatGPT、图像识别、自动驾驶背后都是它。
五、同样的数据,为什么不同算法结果不同?
这是今天最重要的问题。
我用一个具体例子来说明。
假设你有一组数据:1000个人的身高和体重,你想预测一个人是否偏胖。
算法A:线性回归
它会画一条直线来分割”胖”和”不胖”的区域。
优点:简单、快速、容易理解。
缺点:如果”胖”和”不胖”的边界不是直线(比如肌肉型的人体重重但不胖),它就搞不定。
算法B:决策树
它会问一系列问题:”身高超过170吗?”→”体重超过80吗?”→”BMI超过25吗?”
优点:规则清晰,可以解释为什么做出这个判断。
缺点:容易”死记硬背”训练数据,对新数据表现不好。
算法C:神经网络
它会自动学习身高和体重之间的复杂非线性关系。
优点:能处理非常复杂的模式,准确率通常最高。
缺点:需要大量数据,训练慢,而且”黑箱”——你很难解释它为什么做出这个判断。
对比总结
| 维度 | 线性回归 | 决策树 | 神经网络 |
|---|
|——|———-|——–|———-|
| 准确率 | 中等 | 中等偏上 | 通常最高 |
|---|---|---|---|
| 可解释性 | 高 | 很高 | 低(黑箱) |
| 数据需求 | 少 | 中等 | 大量 |
| 训练速度 | 快 | 快 | 慢 |
| 适用场景 | 线性关系 | 规则明确 | 复杂模式 |
没有”最好的”算法,只有”最适合的”算法。
就像你不会用微波炉来炒菜,也不会用炒锅来热牛奶——每种厨具都有自己的最佳场景。
六、算法选择的”运维思维”
如果你是运维,选算法就像选监控工具:
- 要看趋势(CPU使用率变化)→ 用时序数据库(InfluxDB)
- 要看日志(错误排查)→ 用ELK Stack
- 要看链路(微服务调用)→ 用Jaeger/Zipkin
你不会用ELK来做时序监控,也不会用InfluxDB来查日志。
选对工具比优化工具更重要。
AI算法选择也是一样的道理:
- 数据少、需要可解释 → 决策树/逻辑回归
- 数据多、追求准确率 → 神经网络
- 需要实时预测、资源有限 → 轻量级算法(KNN、朴素贝叶斯)
- 数据有时间序列特征 → RNN/LSTM
七、算法的”好坏”怎么衡量?
你可能会问:我怎么知道一个算法在这个问题上表现好不好?
AI用几个指标来衡量:
准确率(Accuracy)
100个预测里,多少个是对的?
90%准确率 = 100个里有90个预测正确。
精确率(Precision)
在AI说”是”的预测里,有多少真的是”是”?
比如AI说”这10封是垃圾邮件”,其中8封确实是垃圾 → 精确率80%。
召回率(Recall)
在所有真正的”是”里,AI找到了多少?
比如实际有100封垃圾邮件,AI只找到了80封 → 召回率80%。
运维类比
这就像监控告警:
- 准确率 = 所有判断中正确的比例
- 精确率 = 告警中真正是问题的比例(别老误报)
- 召回率 = 真正问题中被发现的比例(别漏报)
你肯定不想要一个精确率100%但召回率只有10%的监控——那意味着它不误报,但90%的问题它都漏掉了。
📖 地铁深读:算法竞赛——AI界的”奥林匹克”
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
你知道Kaggle吗?
Kaggle(kaggle.com)是全球最大的数据科学竞赛平台,Google旗下。
在Kaggle上,企业和研究机构会发布真实的AI问题,比如:
- 预测房价
- 识别皮肤癌
- 预测客户流失
- 检测信用卡欺诈
全球的数据科学家和AI爱好者会组队参加,用各种算法来解决这些问题。
为什么Kaggle重要?
- 真实数据——不是教科书里的玩具数据,是企业真实业务数据
- 免费GPU——Kaggle提供免费的GPU计算资源(每周30小时),用来训练模型
- 学习资源——每个比赛都有公开的解决方案和讨论区,是最好的AI学习材料
- 求职加分——Kaggle排名高的人,在AI公司求职非常受欢迎
Kaggle的经典比赛
泰坦尼克号生存预测——几乎所有AI入门者的第一场比赛。
给你泰坦尼克号乘客的数据(年龄、性别、船舱等级、票价等),让你预测谁活下来、谁遇难。
这个比赛的有趣之处在于:很多人用了不同的算法,结果差异巨大。
用逻辑回归:准确率约78%
用随机森林:准确率约82%
用神经网络:准确率约80%
用集成学习(多个算法组合):准确率约85%
同样的数据,不同的算法,准确率差了7个百分点。
在真实业务场景中,这7个百分点可能意味着数百万的收入差异。
推荐的入门比赛
如果你感兴趣,可以先试试这几个:
- Titanic(泰坦尼克号)——最经典的入门比赛,数据量小,问题简单
- House Prices(房价预测)——回归问题入门
- Digit Recognizer(手写数字识别)——图像分类入门
- Spaceship Titanic(太空船版泰坦尼克)——更新的入门比赛
所有比赛都可以在 kaggle.com 上免费参加,还能用免费GPU训练模型。
今日总结
三个关键要点:
- 算法就是”菜谱”——同样的数据(食材),不同的算法(菜谱),会得出不同的结果(菜品)。AI的三大基石是:数据、算法、模型
- 没有”最好”的算法,只有”最合适”的——线性回归简单快速、决策树可解释、神经网络准确率高,选哪个取决于你的数据和场景
- AI算法的本质是”让机器自己学习”——传统编程是你写规则,机器执行;机器学习是你给数据,机器自己找规律
今日行动项
三个小任务,帮你巩固今天的学习:
- 用生活场景理解算法——今天观察你做决策的过程(选餐馆、找路线、整理文件),想想这属于哪种”算法”类型
- 注册Kaggle试试——打开 kaggle.com,注册账号,找到Titanic比赛,看看排行榜上第一名用了什么算法(需要科学上网)
- 思考你公司的AI场景——你公司有什么业务问题可以用AI解决?比如:客户流失预测、需求预测、异常检测……用今天学的”选算法”思路,想想哪种算法适合
下篇预告
今晚5点:Day04——晚课 Excel就能跑AI!用电子表格演示预测算法
你没看错——Excel就能跑AI算法。今晚我带你用Excel的简单功能,演示线性回归和预测算法的原理。不需要Python,不需要写代码,只需要你平时办公用的Excel。这个实践会让你真正理解”算法就是数学公式”这句话。
发表回复