系列教程说明
这是「AI专家养成计划」系列教程的第5篇,共140篇。
本系列专为零基础学习者设计,从最简单的概念开始,逐步深入到AI开发实战。每天2篇,早上理论讲透,晚上动手实践,坚持70天,你就能从AI小白变成AI专家。
适合人群:对AI感兴趣但不知道从哪开始的任何人。
上篇回顾
今天早上,我们用服务器发展史做类比,走了一遍AI从1950年代到2026年的70年进化之路。
三个核心要点:
- AI有70年历史,不是突然冒出来的——从1956年达特茅斯会议到2026年的ChatGPT,AI经历了三次寒冬和三次复兴,每次复兴都由真正的技术突破驱动
- AI爆发的三个条件:数据+算力+算法——2010年代这三个条件同时成熟,才有了今天的AI大爆发。GPU、互联网数据、深度学习算法缺一不可
- 2023年是AI的”iPhone时刻”——ChatGPT让AI从”技术圈的玩具”变成了”人人都能用的工具”,就像iPhone让智能手机从极客变成了大众
好,今天早上的历史课上完了。
现在你知道AI怎么来的了。但光知道历史还不够——你得知道现在AI到底有哪些技术,哪些在真正改变世界,哪些只是在”吹牛”。
这篇晚课,我带你做一件事:像运维巡检机房一样,把2026年的AI技术”巡检”一遍。
不讲理论,只讲”这东西能干嘛,你能不能用上”。
第一章:大语言模型——AI的”CPU”
如果说整个AI是一台服务器,那大语言模型(LLM)就是它的CPU。2026年,几乎所有AI应用都跑在大语言模型上面。
什么是大语言模型?
简单说,就是读了海量文字之后,学会了”接话”的AI。你给它一句话开头,它能猜出后面最可能的内容。
这就像你写了10年运维文档,突然有人问你”服务器连不上怎么办”,你脑子里立刻蹦出一套排查流程——不是你背的,是经验积累出来的”直觉”。
大语言模型的”经验”来自互联网上几乎所有的文字:维基百科、GitHub代码、新闻、论坛、书籍……几十TB的训练数据。
2026年的主要玩家
用运维的话说,大语言模型市场就像云计算市场——有”公有云”也有”私有部署”。
闭源阵营(公有云模式):
| 公司 | 模型 | 特点 | 适合场景 |
|---|
|——|——|——|———|
| OpenAI | GPT-4o、o3 | 综合能力最强,推理能力突出 | 通用任务、复杂推理 |
|---|---|---|---|
| Anthropic | Claude 3.5/4 | 安全性最高,长文本能力最好 | 文档分析、代码审查 |
| Gemini 2.0 | 多模态最强,搜索整合最好 | 图文混合任务 |
开源阵营(私有部署模式):
| 公司 | 模型 | 特点 | 适合场景 |
|---|
|——|——|——|———|
| Meta | Llama 3/4 | 社区最活跃,生态最丰富 | 二次开发、私有部署 |
|---|---|---|---|
| 阿里 | Qwen 2.5/3 | 中文能力最强 | 中文场景、国内部署 |
| DeepSeek | DeepSeek-R1 | 推理能力惊艳,性价比极高 | 代码、数学、推理 |
国产闭源模型:
| 公司 | 模型 | 特点 |
|---|
|——|——|——|
| 百度 | 文心一言 4.5 | 搜索整合好,企业功能全 |
|---|---|---|
| 阿里 | 通义千问 | API性价比高 |
| 字节 | 豆包 | 多模态能力强 |
| 月之暗面 | Kimi | 长文本处理能力突出 |
| 智谱 | GLM-4 | 学术场景表现好 |
动手试试:5分钟体验大语言模型
现在就打开浏览器,跟着做:
第一步:打开 https://chatgpt.com (需要注册,免费可用GPT-4o-mini)
第二步:输入这段话:
`
你是一个有10年经验的运维工程师。我是一个新手,刚入职,服务器CPU突然飙到100%,请给我一个排查步骤清单,每一步都解释为什么要做。
`
第三步:观察它的回答——你会发现它给出的步骤不仅有条理,而且每一步都有”为什么”。这就是大语言模型的核心能力:不是简单地搜索答案,而是理解你的意图后组织信息。
第四步:继续追问:
`
第二步你说要看进程列表,具体用什么命令?top和htop有什么区别?
`
这就是大语言模型的”对话”能力——它能记住上下文,连续讨论同一个话题。
第二章:多模态AI——从”能说”到”能看能听”
2024年之前,AI主要处理文字。2025-2026年,AI开始同时理解图片、音频、视频——这叫”多模态”。
为什么多模态很重要?
想象一下:你值班时收到一张服务器拓扑图,以前你得自己看图、分析、手动输入描述。现在你可以直接把图丢给AI:”这张拓扑图里,哪个节点是单点故障风险?”
多模态AI就像给运维人员加了一双”AI眼睛”和”AI耳朵”。
2026年的多模态能力
| 能力 | 代表产品 | 能做什么 |
|---|
|——|———|———|
| 图片理解 | GPT-4o、Gemini | 看截图分析问题、识别图表数据 |
|---|---|---|
| 图片生成 | DALL-E 3、Midjourney | 根据文字描述生成图片 |
| 语音对话 | GPT-4o语音模式、豆包语音 | 直接跟AI语音对话 |
| 视频理解 | Gemini 2.0 | 分析视频内容、提取关键帧 |
| 视频生成 | Sora、可灵 | 文字描述直接生成视频 |
动手试试:让AI”看”一张图片
第一步:打开 https://chatgpt.com
第二步:点击输入框左侧的”附件”图标,上传任意一张图片(比如你的手机截图、一张表格照片)
第三步:输入:
`
请描述这张图片的内容,如果你看到文字,请全部提取出来。
`
第四步:观察AI的回复——它不仅能识别图片中的文字(OCR),还能理解图片的语义。
这就是多模态AI的威力。以前需要专门的OCR软件才能提取图片文字,现在大语言模型”顺便”就能做。
第三章:AI Agent——从”能聊天”到”能干活”
这是2026年AI领域最火的方向,没有之一。
什么是AI Agent?
大语言模型只能”说话”——你问它,它回答。
AI Agent能”行动”——你给它一个任务,它自己拆解步骤、调用工具、执行操作、检查结果。
用运维的话说:
- 大语言模型 = 一个知识渊博的同事,你问他问题他都能答,但他不会帮你动手
- AI Agent = 一个能帮你值班的机器人,你说”把昨天的告警汇总一下发邮件给团队”,它真的会去查告警系统、整理数据、写邮件、发送
Agent的核心能力
`
感知(Perception)
↓
规划(Planning)—— 把大任务拆成小步骤
↓
工具调用(Tool Use)—— 调用搜索引擎、代码执行器、API等
↓
反思(Reflection)—— 检查结果对不对,不对就重来
↓
执行(Execution)—— 完成任务并汇报
`
这就像你写了一个自动化运维脚本,但这个脚本会自己思考——遇到没预料到的情况,它会自己想办法解决,而不是直接报错退出。
2026年的Agent生态
| 框架/产品 | 公司 | 特点 |
|---|
|———–|——|——|
| ChatGPT + Tools | OpenAI | 最简单的Agent体验,网页端直接用 |
|---|---|---|
| Claude Computer Use | Anthropic | 能操作电脑桌面 |
| Manus | 中国创业公司 | 全自主任务执行,2025年爆火 |
| Cursor Agent | Cursor | 编程Agent,能自动写代码、调试、提交 |
| Hermes Agent | Nous Research | 开源Agent框架,可自定义工具链 |
动手试试:在ChatGPT中体验Agent能力
第一步:打开 https://chatgpt.com ,确保使用的是GPT-4o(付费版效果更好)
第二步:输入这个任务:
`
请帮我搜索一下2026年5月最新的AI新闻,整理出最重要的3条,每条用一句话总结,并附上来源链接。
`
第三步:观察ChatGPT的行为——它会自动使用”搜索”工具去查找信息,然后整理结果给你。
第四步:继续追问:
`
把这3条新闻整理成一个表格,包含:新闻标题、一句话摘要、来源、发布日期。然后用Python生成一个Markdown文件保存到桌面。
`
这就是Agent的工作模式:理解意图 → 拆解步骤 → 调用工具 → 产出结果。
第四章:RAG和知识库——让AI读你的私有文档
为什么需要RAG?
大语言模型有个致命弱点:它只知道训练数据里的东西。
你公司的内部文档、产品手册、运维SOP——这些它从来没看过,所以答不上来。
RAG(Retrieval-Augmented Generation,检索增强生成)就是解决这个问题的。它的工作原理是:
`
用户提问
↓
从你的文档库中搜索相关内容(检索)
↓
把搜索结果”喂”给大语言模型(增强)
↓
大语言模型基于你的文档生成回答(生成)
`
用运维的话说:这就像给AI装了一个”知识库插件”——它不再只靠自己的记忆回答,而是先去查你的Wiki/Confluence,然后基于查到的内容回答。
RAG的实际应用
| 场景 | 传统方式 | RAG方式 |
|---|
|——|———|———|
| 查运维SOP | 搜Wiki,翻半天找到 | 问AI”Redis主从切换怎么做”,直接给你步骤 |
|---|---|---|
| 查产品文档 | 在PDF里Ctrl+F | 问AI”产品X的API限流策略是什么”,直接回答 |
| 查会议记录 | 翻聊天记录 | 问AI”上周二讨论的方案是什么结论”,直接总结 |
动手试试:用ChatGPT的”文件上传”体验RAG
第一步:准备一个文档(Word/PDF/TXT都行,比如你公司的某份技术文档)
第二步:打开ChatGPT,点击附件图标上传文档
第三步:输入:
`
请阅读这个文档,然后回答:[某个具体问题]
`
第四步:观察AI的回答——它会基于你上传的文档内容来回答,而不是靠”猜”。
这就是最简单的RAG体验。企业级的RAG系统会把成千上万份文档都索引起来,随时查询。
第五章:AI编程——代码界的”自动驾驶”
AI编程的三个层次
层次一:智能补全(2021年开始)
你写代码时,AI自动提示下一行。就像手机输入法的”联想词”,只不过联想的是代码。
代表产品:GitHub Copilot
层次二:对话式编程(2023年开始)
你用自然语言描述需求,AI帮你写完整代码。比如”写一个Python脚本,监控服务器CPU使用率,超过80%就发钉钉告警”。
代表产品:ChatGPT、Claude
层次三:自主编程Agent(2025年开始)
你给AI一个任务描述,它自己读代码、写代码、运行测试、修bug、提交PR。全程不需要你干预。
代表产品:Cursor Agent、Claude Code、Codex CLI
动手试试:让AI帮你写一个脚本
第一步:打开任意一个AI对话工具(ChatGPT、Kimi、豆包都行)
第二步:输入:
`
帮我写一个Python脚本,功能是:
- 读取当前目录下所有.log文件
- 统计每个文件中包含”ERROR”的行数
- 输出一个表格:文件名 | ERROR数量 | 最后一次ERROR的时间
`
第三步:把AI生成的代码复制到一个文件里(比如叫log_check.py)
第四步:在终端运行 python3 log_check.py
你会惊讶地发现——一段你可能要写半小时的脚本,AI 10秒钟就生成了,而且大概率能直接跑。
第六章:AI的”基础设施层”
除了上面这些”看得见”的技术,还有一些”看不见”但同样重要的基础设施。
向量数据库
AI需要一种特殊的数据库来存储和搜索”语义”——不是按关键词匹配,而是按意思匹配。
比如你搜”服务器挂了”,传统数据库只能找包含”挂了”这两个字的文档。向量数据库能找到”服务器宕机”、”服务不可用”、”主机故障”——因为这些表达的意思相近。
代表产品:Pinecone、Milvus、Chroma、Weaviate
AI开发框架
就像Web开发有Django/Flask,AI开发也有自己的框架:
| 框架 | 用途 | 特点 |
|---|
|——|——|——|
| LangChain | AI应用开发 | 最流行的AI应用框架 |
|---|---|---|
| LlamaIndex | RAG开发 | 专注于文档检索和问答 |
| Hugging Face | 模型训练和部署 | AI界的GitHub |
| Ollama | 本地模型运行 | 在自己电脑上跑大模型 |
模型推理服务
大语言模型动辄几十GB,需要专门的推理服务来高效运行:
| 服务 | 特点 |
|---|
|——|——|
| vLLM | 高并发推理,企业级 |
|---|---|
| Ollama | 本地一键运行,适合个人 |
| llama.cpp | CPU推理,不需要显卡 |
第七章:一张图看清2026年AI技术全景
我把2026年的AI技术栈整理成了一张”技术全景图”,用运维人熟悉的分层结构:
`
┌─────────────────────────────────────────────────┐
│ 应用层 │
│ AI写作 AI编程 AI客服 AI搜索 AI设计 AI视频 │
├─────────────────────────────────────────────────┤
│ Agent层 │
│ ChatGPT Agent Claude Code Manus Cursor │
├─────────────────────────────────────────────────┤
│ 模型层 │
│ GPT-4o Claude Gemini Llama Qwen DeepSeek │
├─────────────────────────────────────────────────┤
│ 基础设施层 │
│ 向量数据库 推理引擎 训练框架 数据标注 │
├─────────────────────────────────────────────────┤
│ 算力层 │
│ NVIDIA GPU 云计算 边缘计算 专用AI芯片 │
└─────────────────────────────────────────────────┘
`
每一层都很重要,但作为初学者,你只需要关注应用层和Agent层——这是你最可能直接用到的东西。模型层和基础设施层,等你深入学习后再了解不迟。
今日总结
- 2026年AI技术分为六大方向——大语言模型是”CPU”,多模态是”五感”,Agent是”手脚”,RAG是”记忆”,AI编程是”专业技能”,基础设施是”机房”
- 大语言模型市场分为闭源和开源两大阵营——闭源(GPT/Claude/Gemini)开箱即用,开源(Llama/Qwen/DeepSeek)可以自己部署。国产模型在中文场景已经很强
- AI Agent是2026年最值得关注的方向——从”能聊天”到”能干活”,这是AI能力的质变。你可以现在就开始体验
今日行动项
花10分钟完成这三个小任务:
- 体验:打开ChatGPT(或Kimi、豆包),让它帮你做一件你工作中实际需要做的事情——写邮件、整理数据、解释报错信息,什么都行
- 对比:分别用ChatGPT和Kimi问同一个问题(比如”帮我写一个Shell脚本清理30天前的日志”),看看两个AI的回答有什么不同
- 思考:你工作中有哪些重复性的任务可以用AI Agent来自动化?把它们列出来——这是我们后面课程要重点攻克的方向
地铁深读:AI行业的”军备竞赛”正在发生什么
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
算力战争:谁在囤积GPU?
2026年,AI行业最大的”军备竞赛”不是模型参数量,而是算力。
训练一个GPT-4级别的模型,需要大约25000张NVIDIA A100显卡,训练3-4个月,电费就要几千万美元。所以你会看到:
- 微软向OpenAI投资了超过130亿美元,其中大部分用于建设数据中心
- Meta在2025年宣布采购35万张NVIDIA H100显卡
- 字节跳动是NVIDIA在中国的最大客户之一
- 沙特阿拉伯成立了专门的AI投资基金,目标是建设中东最大的算力中心
用运维的话说:这就像2010年代的”云计算大战”,只不过这次争的不是云服务器,而是GPU集群。
中国AI的”突围战”
中国在AI领域面临一个独特挑战:美国限制向中国出口高端AI芯片(NVIDIA H100/A100)。
但中国AI行业并没有因此停滞,而是走了几条”突围”路线:
路线一:国产替代
- 华为昇腾910B:性能约为H100的70-80%,但已经能用于训练
- 寒武纪MLU370:推理性能不错,价格有优势
- 国产GPU在2026年已经能满足大部分推理需求
路线二:算法优化
- DeepSeek证明了:用更少的算力,通过更好的算法,也能训练出很强的模型
- 量化技术让大模型在消费级显卡上也能跑
- 这就像你用一台4核8G的服务器,通过优化配置,跑出了别人16核32G的效果
路线三:应用创新
- 中国AI的优势不在”造最大的模型”,而在”用AI改造最多的行业”
- 中国的移动互联网生态(微信、支付宝、抖音)为AI应用提供了天然的落地场景
一个有趣的现象:开源正在追赶闭源
2023年,GPT-4遥遥领先,开源模型连GPT-3.5的水平都达不到。
2025年,Llama 3在多项基准测试上已经接近GPT-4。
2026年,DeepSeek-R1在推理能力上甚至超越了GPT-4。
这意味着什么?AI的”护城河”比想象中浅。闭源公司的领先优势可能只能维持6-12个月,开源社区很快就能追上。
用运维的话说:这就像Linux追赶Windows——一开始差距巨大,但开源的力量在于”众人拾柴火焰高”,最终总能追上甚至超越。
深度思考题
想一个问题:AI技术的发展,会像电力一样成为”通用基础设施”吗?
100年前,电力是一种”高科技”,需要专门的知识才能使用。今天,你按下开关就有电,不需要知道发电机怎么工作。
AI会不会也走这条路?今天的AI还需要你学习怎么”提示”、怎么”调参”。但未来的AI可能就像电力一样——你只需要说出你的需求,AI自动完成一切。
如果这个判断是对的,那我们学习AI的重点就不应该是”怎么用某个工具”,而是”AI能解决什么问题”——因为工具会变,但问题的本质不变。
2026年5月最新动态
OpenAI GPT-5开发进展:据报道,GPT-5将在推理能力和上下文窗口上有重大突破,预计2026年下半年发布。
Anthropic Claude新版本:Claude在代码能力上持续提升,2026年在编程基准测试中已经超过GPT-4o。
中国AI出海加速:字节的豆包、阿里的通义千问都在东南亚和中东市场快速扩张,这是中国AI的新增长点。
AI芯片新格局:NVIDIA B200芯片开始量产,性能是H100的2.5倍。同时AMD MI300和Intel Gaudi 3也在争夺市场份额。
下篇预告
明天早上8点:数据——AI的粮食!为什么说”数据为王”。你会理解为什么同样的算法,用不同的数据训练出来效果天差地别。
明晚5点:动手!用你的手机照片训练一个AI图像识别。真正动手操作,体验AI”学习”的过程。
系列课程:AI专家养成计划 70天140篇
适合人群:零基础、对AI感兴趣的任何人
互动:有问题欢迎在评论区留言,我会一一回复
发表回复