Day03——晚课动手！用你的手机照片训练一个AI图像识别

系列教程说明

这是「AI专家养成计划」系列教程的第7篇，共140篇。

本系列专为零基础学习者设计，从最简单的概念开始，逐步深入到AI开发实战。每天2篇，早上理论讲透，晚上动手实践，坚持70天，你就能从AI小白变成AI专家。

适合人群：对AI感兴趣但不知道从哪开始的任何人。

上篇回顾

今天早上，我们聊了AI的”粮食”——数据。你可能还记得一个让人震惊的事实：一个AI模型90%的时间都花在处理数据上，真正”学习”的时间可能只有10%。

三个核心要点：

数据是AI的粮食，算法是菜谱——再好的厨师，没有食材也做不出菜。同理，再好的算法，没有高质量的数据也训练不出好的AI模型。这就是为什么互联网大厂最值钱的资产不是代码，而是数据

数据质量比数据数量更重要——1000张标注准确的图片，效果可能好过10000张乱标的图片。就像你学做菜，跟着一个好菜谱学10道菜，比跟着100个错误菜谱学更有用

数据标注是AI行业最”苦”但最关键的环节——那些你可能听说过的”数据标注员”，每天标注几千张图片，就是为了让AI能”看懂”世界。没有他们的苦活，就没有今天的AI

好，理论讲完了，今天晚上咱们真的动手——用你手机里的照片，训练一个能认东西的AI！

为什么选”图像识别”作为第一个实战项目？

你可能会问：AI那么多能力，为什么先学图像识别？

原因很简单——图像识别是最直观的AI应用。你训练完，马上就能看到效果：给AI一张照片，它告诉你”这是猫”还是”这是狗”。不像自然语言处理（NLP）那样抽象，图像是”看得见摸得着”的。

用运维的话说：这就像你第一次部署服务——选一个最简单的Nginx静态网站，先跑通整个流程（写代码→部署→访问→看效果），而不是一上来就搞微服务架构。

今天的目标：用Google Teachable Machine这个零代码平台，用你自己的手机照片，训练一个能区分不同物体的AI图像分类器。

全程不需要写一行代码。

第一步：认识Teachable Machine

Teachable Machine是Google推出的一个免费AI训练平台，专门为零基础用户设计。

它的网址是：teachablemachine.withgoogle.com

这个工具的厉害之处在于：你只需要拖拽图片进去，点击”训练”按钮，就能得到一个AI模型。

用运维的话来说：这就像Docker Hub上的现成镜像——你不需要从零编译，直接pull下来就能用。Teachable Machine帮你搞定了所有底层的模型架构、训练算法、参数调优，你只需要提供”数据”（也就是你的照片）。

打开浏览器，输入上面的网址，你会看到三个选项：

Image Project（图像项目）—— 今天用这个
Audio Project（音频项目）—— 以后会用到
Pose Project（姿势项目）—— 识别身体动作

点击”Image Project”，进入图像分类的训练界面。

第二步：准备你的训练数据

进入界面后，你会看到左边有一个”Class”（类别）区域。这就是你要教AI区分的不同类别。

设计你的分类任务

先想一个简单有趣的分类任务。以下是几个适合新手的建议：

方案一：区分两种饮料

Class 1：咖啡杯
Class 2：茶杯

方案二：区分两种水果

Class 1：苹果
Class 2：橙子

方案三：区分室内和室外

Class 1：室内场景
Class 2：室外场景

方案四（推荐）：区分你的两件物品

Class 1：你的水杯
Class 2：你的手机

选哪个都行，关键是两样东西要明显不同，这样AI更容易学会。

拍摄训练照片

选好类别后，每个类别至少拍15-20张照片。

拍的时候注意以下几点，这和我们早上讲的”数据质量”直接相关：

1. 多角度拍摄

不要只从一个角度拍。正面、侧面、俯视、仰视——每个角度都来几张。就像你教小朋友认苹果，不能只给他看正面，还得让他看看侧面和上面。

2. 变换背景

不要所有照片都在同一个地方拍。桌子上的、地板上的、窗台上的——背景越多样，AI学得越”泛化”。

3. 变换光线

白天拍几张，晚上灯光下拍几张。太暗的照片可以开闪光灯。光线变化能让AI更”鲁棒”（robust，也就是更皮实）。

4. 变换距离

近拍、远拍、中距离——不同距离的照片各来几张。

5. 每个类别15-20张

少于10张效果会很差（AI”看”的样本太少），多于50张也没必要（这个简单任务用不了那么多）。

运维类比：这就像做压力测试——你不能只测一种场景（比如正常流量），还得测高并发、低带宽、异常请求，这样测出来的结果才有参考价值。

第三步：上传照片并训练

照片拍好了，接下来就是把它们”喂”给AI。

上传照片

在Teachable Machine界面中：

点击左边”Class 1″旁边的”Upload”按钮
选择你拍的第一类物品的所有照片
等待上传完成
点击”Add a class”添加第二个类别
同样上传第二类物品的照片

上传完成后，你会在界面上看到两个类别的缩略图网格。每个类别下面显示了照片数量。

开始训练

照片上传完毕后，点击界面中间大大的绿色按钮——“Train Model”。

然后？等待。

训练时间取决于你的照片数量和电脑性能，通常在30秒到2分钟之间。

运维类比：这就像编译代码——你点了”build”之后，能做的就是等。但这次编译的”代码”是你的照片，编译出来的”二进制”是一个AI模型。

训练过程中，你会看到一个进度条。训练完成后，界面右边会出现一个实时预览区域。

第四步：测试你的AI

训练完成！现在来测试一下你的AI到底学得怎么样。

实时摄像头测试

如果你的电脑有摄像头（或者你用手机浏览器打开），可以：

点击右边预览区域的”Webcam”选项
把你的物品放在摄像头前面
观察AI的判断结果

你会看到两个进度条，分别代表AI认为这张图片是”Class 1″和”Class 2″的概率。哪个进度条更长，AI就认为图片属于哪个类别。

试试这些测试：

拿出你训练用的物品，看看AI能不能正确识别
换一个角度，看看AI还能不能认出来
拿一个完全不同的东西，看看AI怎么反应

上传图片测试

如果你没有摄像头，也可以：

点击”Upload”上传一张新照片（不是训练时用过的）
观察AI的判断结果

观察AI的”信心值”

注意看两个类别旁边的百分比数字。这就是AI的”信心值”（confidence）。

90%以上：AI非常确定，基本不会错
70%-90%：AI比较确定，但有小概率错
50%-70%：AI不太确定，两种可能性都有
接近50%/50%：AI完全”懵”了，它觉得两种都有可能

运维类比：这就像监控告警的阈值——CPU使用率90%说明肯定有问题，70%可能是正常波动，50%说明系统状态模糊，需要人工判断。

第五步：改进你的AI

测试完了，你可能会发现一些问题：

问题一：某些角度识别不准

原因：训练数据中缺少这个角度的照片。

解决：补充这个角度的训练照片，重新训练。

问题二：换了背景就认不出来

原因：训练时背景太单一，AI把背景也当成了”特征”。

解决：增加不同背景的训练照片。这就是为什么我们第二步强调要变换背景。

问题三：把别的东西认成了你的物品

原因：两个类别之间的差异不够明显，或者训练数据中有”噪声”（比如Class 1的照片里混进了Class 2的东西）。

解决：检查训练数据，确保每个类别里的照片都是”干净”的。

问题四：两个类别的概率总是很接近

原因：两个物品太相似了，AI分不清。

解决：换两个差异更大的物品，或者增加训练数据。

改进后，点击”Train Model”重新训练。 你会发现，加了更多数据后，AI的识别准确率明显提高了。

运维类比：这就像调优Nginx配置——第一版配置能用，但性能不好。你分析日志，发现问题（比如缓存命中率低），改配置，重启服务，再测试。AI训练也是这个”测试→发现问题→改进→重新训练”的循环。

第六步：导出你的AI模型

训练满意了，你可能想：这个AI模型能不能用在别的地方？

答案是可以的！Teachable Machine支持导出模型。

点击界面上方的”Export Model”按钮，你会看到三个选项：

选项一：TensorFlow.js

这是在浏览器中运行的模型格式。你可以把它嵌入到网页中，让任何人都能用你的AI。

选项二：TensorFlow Lite

这是在手机上运行的模型格式。你可以把它集成到Android或iOS应用中。

选项三：TensorFlow（完整版）

这是最完整的格式，可以在服务器上用Python运行。

运维类比：这就像打包Docker镜像——你可以把训练好的AI模型”打包”成不同格式，部署到不同的”运行环境”（浏览器、手机、服务器）。

对于今天的课程，我们先不深入导出的内容，后面的课程会详细讲解。现在你只需要知道：你亲手训练的AI模型，是可以拿出来用的。

动手试试：三个进阶挑战

完成基础训练后，试试这三个挑战，加深理解：

挑战一：增加到三个类别

在原来两个类别的基础上，增加第三个类别。比如：

苹果 vs 橙子 → 苹果 vs 橙子 vs 香蕉

你会发现，类别越多，AI需要的训练数据越多，训练时间也越长。这和我们早上讲的”数据量和任务复杂度成正比”是一致的。

挑战二：故意用”脏数据”训练

在Class 1（比如咖啡杯）的照片里，故意混入几张Class 2（比如茶杯）的照片。

然后测试AI，看看准确率下降了多少。

这就是我们早上讲的”数据质量”问题——错误的标注数据会严重拖累AI的表现。

挑战三：用最少的数据训练

只用3-5张照片训练一个类别，看看效果如何。

然后再增加到20张，对比一下准确率的提升。

你会发现一个有趣的规律：从3张到10张，准确率提升很快；从10张到20张，提升变慢了；从20张到50张，几乎没变化。 这就是所谓的”边际收益递减”——数据量到了一定程度，再多也没太大用。

今日总结

今天晚上，你完成了人生中第一个AI训练项目！

回顾一下你学到的东西：

AI训练的完整流程：准备数据→上传数据→训练模型→测试效果→改进数据→重新训练。这个流程适用于所有的机器学习项目，不管多复杂

数据质量决定AI质量：你亲眼看到了——角度单一、背景单一的照片会让AI”学偏”；多角度、多背景的照片让AI更”泛化”

AI不是魔法，是可以调试的系统：就像你调优服务器一样，AI也需要”测试→发现问题→改进→重新部署”的循环

零代码也能训练AI：Teachable Machine证明了，训练AI不需要写代码。但理解背后的原理（数据、算法、模型），能让你用得更好

运维总结：今天你做的，就像用Ansible部署了一台服务器——你不需要手动编译每个软件包，但你需要理解服务器架构，才能部署得又快又好。

今日行动项

完成你的第一个AI分类器：用Teachable Machine，选两样物品，各拍15张照片，训练并测试。把测试结果截图保存

做”脏数据”实验：在训练数据里故意混入几张错误标注的照片，重新训练，观察准确率变化

给家人朋友演示：打开Teachable Machine，让家人/朋友站在摄像头前，看看AI能不能区分不同的人。这是最直观的AI演示方式

地铁深读：AI训练师——一个你可能没听过的职业

这个板块专为地铁通勤设计，每篇5-10分钟。赶时间可以跳过，不影响主线学习。

AI训练师：比你想象的更重要

2026年，中国有一个超过50万人从事的职业，叫做”人工智能训练师”。他们的工作，就是我们今天做的事情——给AI准备训练数据。

但和我们今天”拍几张照片”不同，专业的AI训练师每天要处理几千甚至几万张图片。他们标注图片中的每一个物体（”这是一辆汽车”、”这是一个行人”、”这是红绿灯”），为自动驾驶、医疗影像、安防监控等AI系统提供”教材”。

一个真实的行业案例

某自动驾驶公司需要训练一个能识别路上所有物体的AI。他们收集了100万张道路图片，然后请了2000名标注员，花了6个月时间，给每张图片中的每个物体画了”边界框”并标注了类别。

这100万张标注好的图片，就是AI的”教材”。没有这些标注员的工作，自动驾驶AI就是”睁眼瞎”。

这就是为什么AI行业有一句话：有多少人工，就有多少智能。

数据标注的困境

你可能觉得，标注图片这种工作太机械了，应该让AI自己来做。

事实上，确实有”自动标注”的技术，但效果目前还不够好。因为AI在学习之前，根本不知道什么是”猫”什么是”狗”，它怎么自动标注呢？

这就像一个完全不懂中文的人，你让他给中文文章做批注——他连字都不认识，怎么批？

所以目前，人工标注仍然是AI训练的”刚需”。这也催生了一个庞大的产业链：数据标注公司、众包标注平台、标注工具开发……

深度思考题

想一个问题：如果未来AI能自动标注数据了，还需要人类AI训练师吗？

答案可能是：需要，但工作内容会变。

就像运维行业——以前运维要手动装服务器、手动配置网络。现在有了Ansible、Terraform、Kubernetes，很多工作自动化了。但运维工程师并没有消失，他们转向了更高层次的工作——架构设计、容量规划、故障分析。

AI训练师也会走这条路：从”标注数据”转向”设计标注规范”、”评估数据质量”、”优化训练流程”。

2026年5月最新动态

数据标注行业规模突破千亿：根据IDC最新报告，2026年中国数据标注市场规模预计达到1200亿元，同比增长35%。

合成数据崛起：越来越多的AI公司开始用”合成数据”（由AI生成的训练数据）来替代人工标注。比如NVIDIA的Omniverse平台可以生成逼真的3D场景，用于自动驾驶训练。

多模态标注成为新趋势：不只是标注图片，还要标注图片中的文字、语音、动作——这叫”多模态标注”。2026年，多模态标注的需求增长了200%。

下篇预告

明天早上8点：算法——AI的菜谱！同样的数据为何结果不同。你会理解为什么用同样的食材，不同的厨师做出来的菜味道天差地别。

明晚5点：Excel就能跑AI！用电子表格演示预测算法。用你最熟悉的工具，理解AI最核心的”学习”过程。

系列课程：AI专家养成计划 70天140篇

适合人群：零基础、对AI感兴趣的任何人

互动：有问题欢迎在评论区留言，我会一一回复

Day03——晚课 动手！用你的手机照片训练一个AI图像识别