Day02——晚课 2026年AI格局全景图：哪些技术正在改变世界

系列教程说明

这是「AI专家养成计划」系列教程的第5篇，共140篇。

本系列专为零基础学习者设计，从最简单的概念开始，逐步深入到AI开发实战。每天2篇，早上理论讲透，晚上动手实践，坚持70天，你就能从AI小白变成AI专家。

适合人群：对AI感兴趣但不知道从哪开始的任何人。

上篇回顾

今天早上，我们用服务器发展史做类比，走了一遍AI从1950年代到2026年的70年进化之路。

三个核心要点：

AI有70年历史，不是突然冒出来的——从1956年达特茅斯会议到2026年的ChatGPT，AI经历了三次寒冬和三次复兴，每次复兴都由真正的技术突破驱动

AI爆发的三个条件：数据+算力+算法——2010年代这三个条件同时成熟，才有了今天的AI大爆发。GPU、互联网数据、深度学习算法缺一不可

2023年是AI的”iPhone时刻”——ChatGPT让AI从”技术圈的玩具”变成了”人人都能用的工具”，就像iPhone让智能手机从极客变成了大众

好，今天早上的历史课上完了。

现在你知道AI怎么来的了。但光知道历史还不够——你得知道现在AI到底有哪些技术，哪些在真正改变世界，哪些只是在”吹牛”。

这篇晚课，我带你做一件事：像运维巡检机房一样，把2026年的AI技术”巡检”一遍。

不讲理论，只讲”这东西能干嘛，你能不能用上”。

第一章：大语言模型——AI的”CPU”

如果说整个AI是一台服务器，那大语言模型（LLM）就是它的CPU。2026年，几乎所有AI应用都跑在大语言模型上面。

什么是大语言模型？

简单说，就是读了海量文字之后，学会了”接话”的AI。你给它一句话开头，它能猜出后面最可能的内容。

这就像你写了10年运维文档，突然有人问你”服务器连不上怎么办”，你脑子里立刻蹦出一套排查流程——不是你背的，是经验积累出来的”直觉”。

大语言模型的”经验”来自互联网上几乎所有的文字：维基百科、GitHub代码、新闻、论坛、书籍……几十TB的训练数据。

2026年的主要玩家

用运维的话说，大语言模型市场就像云计算市场——有”公有云”也有”私有部署”。

闭源阵营（公有云模式）：

公司	模型	特点	适合场景

|——|——|——|———|

OpenAI	GPT-4o、o3	综合能力最强，推理能力突出	通用任务、复杂推理
Anthropic	Claude 3.5/4	安全性最高，长文本能力最好	文档分析、代码审查
Google	Gemini 2.0	多模态最强，搜索整合最好	图文混合任务

开源阵营（私有部署模式）：

公司	模型	特点	适合场景

|——|——|——|———|

Meta	Llama 3/4	社区最活跃，生态最丰富	二次开发、私有部署
阿里	Qwen 2.5/3	中文能力最强	中文场景、国内部署
DeepSeek	DeepSeek-R1	推理能力惊艳，性价比极高	代码、数学、推理

国产闭源模型：

公司	模型	特点

|——|——|——|

百度	文心一言 4.5	搜索整合好，企业功能全
阿里	通义千问	API性价比高
字节	豆包	多模态能力强
月之暗面	Kimi	长文本处理能力突出
智谱	GLM-4	学术场景表现好

动手试试：5分钟体验大语言模型

现在就打开浏览器，跟着做：

第一步：打开 https://chatgpt.com （需要注册，免费可用GPT-4o-mini）

第二步：输入这段话：

你是一个有10年经验的运维工程师。我是一个新手，刚入职，服务器CPU突然飙到100%，请给我一个排查步骤清单，每一步都解释为什么要做。

第三步：观察它的回答——你会发现它给出的步骤不仅有条理，而且每一步都有”为什么”。这就是大语言模型的核心能力：不是简单地搜索答案，而是理解你的意图后组织信息。

第四步：继续追问：

第二步你说要看进程列表，具体用什么命令？top和htop有什么区别？

这就是大语言模型的”对话”能力——它能记住上下文，连续讨论同一个话题。

第二章：多模态AI——从”能说”到”能看能听”

2024年之前，AI主要处理文字。2025-2026年，AI开始同时理解图片、音频、视频——这叫”多模态”。

为什么多模态很重要？

想象一下：你值班时收到一张服务器拓扑图，以前你得自己看图、分析、手动输入描述。现在你可以直接把图丢给AI：”这张拓扑图里，哪个节点是单点故障风险？”

多模态AI就像给运维人员加了一双”AI眼睛”和”AI耳朵”。

2026年的多模态能力

能力	代表产品	能做什么

|——|———|———|

图片理解	GPT-4o、Gemini	看截图分析问题、识别图表数据
图片生成	DALL-E 3、Midjourney	根据文字描述生成图片
语音对话	GPT-4o语音模式、豆包语音	直接跟AI语音对话
视频理解	Gemini 2.0	分析视频内容、提取关键帧
视频生成	Sora、可灵	文字描述直接生成视频

动手试试：让AI”看”一张图片

第一步：打开 https://chatgpt.com

第二步：点击输入框左侧的”附件”图标，上传任意一张图片（比如你的手机截图、一张表格照片）

第三步：输入：

请描述这张图片的内容，如果你看到文字，请全部提取出来。

第四步：观察AI的回复——它不仅能识别图片中的文字（OCR），还能理解图片的语义。

这就是多模态AI的威力。以前需要专门的OCR软件才能提取图片文字，现在大语言模型”顺便”就能做。

第三章：AI Agent——从”能聊天”到”能干活”

这是2026年AI领域最火的方向，没有之一。

什么是AI Agent？

大语言模型只能”说话”——你问它，它回答。

AI Agent能”行动”——你给它一个任务，它自己拆解步骤、调用工具、执行操作、检查结果。

用运维的话说：

大语言模型 = 一个知识渊博的同事，你问他问题他都能答，但他不会帮你动手
AI Agent = 一个能帮你值班的机器人，你说”把昨天的告警汇总一下发邮件给团队”，它真的会去查告警系统、整理数据、写邮件、发送

Agent的核心能力

感知（Perception）

↓

规划（Planning）—— 把大任务拆成小步骤

↓

工具调用（Tool Use）—— 调用搜索引擎、代码执行器、API等

↓

反思（Reflection）—— 检查结果对不对，不对就重来

↓

执行（Execution）—— 完成任务并汇报

这就像你写了一个自动化运维脚本，但这个脚本会自己思考——遇到没预料到的情况，它会自己想办法解决，而不是直接报错退出。

2026年的Agent生态

框架/产品	公司	特点

|———–|——|——|

ChatGPT + Tools	OpenAI	最简单的Agent体验，网页端直接用
Claude Computer Use	Anthropic	能操作电脑桌面
Manus	中国创业公司	全自主任务执行，2025年爆火
Cursor Agent	Cursor	编程Agent，能自动写代码、调试、提交
Hermes Agent	Nous Research	开源Agent框架，可自定义工具链

动手试试：在ChatGPT中体验Agent能力

第一步：打开 https://chatgpt.com ，确保使用的是GPT-4o（付费版效果更好）

第二步：输入这个任务：

请帮我搜索一下2026年5月最新的AI新闻，整理出最重要的3条，每条用一句话总结，并附上来源链接。

第三步：观察ChatGPT的行为——它会自动使用”搜索”工具去查找信息，然后整理结果给你。

第四步：继续追问：

把这3条新闻整理成一个表格，包含：新闻标题、一句话摘要、来源、发布日期。然后用Python生成一个Markdown文件保存到桌面。

这就是Agent的工作模式：理解意图 → 拆解步骤 → 调用工具 → 产出结果。

第四章：RAG和知识库——让AI读你的私有文档

为什么需要RAG？

大语言模型有个致命弱点：它只知道训练数据里的东西。

你公司的内部文档、产品手册、运维SOP——这些它从来没看过，所以答不上来。

RAG（Retrieval-Augmented Generation，检索增强生成）就是解决这个问题的。它的工作原理是：

用户提问

↓

从你的文档库中搜索相关内容（检索）

↓

把搜索结果”喂”给大语言模型（增强）

↓

大语言模型基于你的文档生成回答（生成）

用运维的话说：这就像给AI装了一个”知识库插件”——它不再只靠自己的记忆回答，而是先去查你的Wiki/Confluence，然后基于查到的内容回答。

RAG的实际应用

场景	传统方式	RAG方式

|——|———|———|

查运维SOP	搜Wiki，翻半天找到	问AI”Redis主从切换怎么做”，直接给你步骤
查产品文档	在PDF里Ctrl+F	问AI”产品X的API限流策略是什么”，直接回答
查会议记录	翻聊天记录	问AI”上周二讨论的方案是什么结论”，直接总结

动手试试：用ChatGPT的”文件上传”体验RAG

第一步：准备一个文档（Word/PDF/TXT都行，比如你公司的某份技术文档）

第二步：打开ChatGPT，点击附件图标上传文档

第三步：输入：

请阅读这个文档，然后回答：[某个具体问题]

第四步：观察AI的回答——它会基于你上传的文档内容来回答，而不是靠”猜”。

这就是最简单的RAG体验。企业级的RAG系统会把成千上万份文档都索引起来，随时查询。

第五章：AI编程——代码界的”自动驾驶”

AI编程的三个层次

层次一：智能补全（2021年开始）

你写代码时，AI自动提示下一行。就像手机输入法的”联想词”，只不过联想的是代码。

代表产品：GitHub Copilot

层次二：对话式编程（2023年开始）

你用自然语言描述需求，AI帮你写完整代码。比如”写一个Python脚本，监控服务器CPU使用率，超过80%就发钉钉告警”。

代表产品：ChatGPT、Claude

层次三：自主编程Agent（2025年开始）

你给AI一个任务描述，它自己读代码、写代码、运行测试、修bug、提交PR。全程不需要你干预。

代表产品：Cursor Agent、Claude Code、Codex CLI

动手试试：让AI帮你写一个脚本

第一步：打开任意一个AI对话工具（ChatGPT、Kimi、豆包都行）

第二步：输入：

帮我写一个Python脚本，功能是：

读取当前目录下所有.log文件
统计每个文件中包含”ERROR”的行数
输出一个表格：文件名 | ERROR数量 | 最后一次ERROR的时间

第三步：把AI生成的代码复制到一个文件里（比如叫log_check.py）

第四步：在终端运行 python3 log_check.py

你会惊讶地发现——一段你可能要写半小时的脚本，AI 10秒钟就生成了，而且大概率能直接跑。

第六章：AI的”基础设施层”

除了上面这些”看得见”的技术，还有一些”看不见”但同样重要的基础设施。

向量数据库

AI需要一种特殊的数据库来存储和搜索”语义”——不是按关键词匹配，而是按意思匹配。

比如你搜”服务器挂了”，传统数据库只能找包含”挂了”这两个字的文档。向量数据库能找到”服务器宕机”、”服务不可用”、”主机故障”——因为这些表达的意思相近。

代表产品：Pinecone、Milvus、Chroma、Weaviate

AI开发框架

就像Web开发有Django/Flask，AI开发也有自己的框架：

框架	用途	特点

|——|——|——|

LangChain	AI应用开发	最流行的AI应用框架
LlamaIndex	RAG开发	专注于文档检索和问答
Hugging Face	模型训练和部署	AI界的GitHub
Ollama	本地模型运行	在自己电脑上跑大模型

模型推理服务

大语言模型动辄几十GB，需要专门的推理服务来高效运行：

服务	特点

|——|——|

vLLM	高并发推理，企业级
Ollama	本地一键运行，适合个人
llama.cpp	CPU推理，不需要显卡

第七章：一张图看清2026年AI技术全景

我把2026年的AI技术栈整理成了一张”技术全景图”，用运维人熟悉的分层结构：

┌─────────────────────────────────────────────────┐

│ 应用层 │

│ AI写作 AI编程 AI客服 AI搜索 AI设计 AI视频 │

├─────────────────────────────────────────────────┤

│ Agent层 │

│ ChatGPT Agent Claude Code Manus Cursor │

├─────────────────────────────────────────────────┤

│ 模型层 │

│ GPT-4o Claude Gemini Llama Qwen DeepSeek │

├─────────────────────────────────────────────────┤

│ 基础设施层 │

│ 向量数据库推理引擎训练框架数据标注 │

├─────────────────────────────────────────────────┤

│ 算力层 │

│ NVIDIA GPU 云计算边缘计算专用AI芯片 │

└─────────────────────────────────────────────────┘

每一层都很重要，但作为初学者，你只需要关注应用层和Agent层——这是你最可能直接用到的东西。模型层和基础设施层，等你深入学习后再了解不迟。

今日总结

2026年AI技术分为六大方向——大语言模型是”CPU”，多模态是”五感”，Agent是”手脚”，RAG是”记忆”，AI编程是”专业技能”，基础设施是”机房”

大语言模型市场分为闭源和开源两大阵营——闭源（GPT/Claude/Gemini）开箱即用，开源（Llama/Qwen/DeepSeek）可以自己部署。国产模型在中文场景已经很强

AI Agent是2026年最值得关注的方向——从”能聊天”到”能干活”，这是AI能力的质变。你可以现在就开始体验

今日行动项

花10分钟完成这三个小任务：

体验：打开ChatGPT（或Kimi、豆包），让它帮你做一件你工作中实际需要做的事情——写邮件、整理数据、解释报错信息，什么都行

对比：分别用ChatGPT和Kimi问同一个问题（比如”帮我写一个Shell脚本清理30天前的日志”），看看两个AI的回答有什么不同

思考：你工作中有哪些重复性的任务可以用AI Agent来自动化？把它们列出来——这是我们后面课程要重点攻克的方向

地铁深读：AI行业的”军备竞赛”正在发生什么

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

算力战争：谁在囤积GPU？

2026年，AI行业最大的”军备竞赛”不是模型参数量，而是算力。

训练一个GPT-4级别的模型，需要大约25000张NVIDIA A100显卡，训练3-4个月，电费就要几千万美元。所以你会看到：

微软向OpenAI投资了超过130亿美元，其中大部分用于建设数据中心
Meta在2025年宣布采购35万张NVIDIA H100显卡
字节跳动是NVIDIA在中国的最大客户之一
沙特阿拉伯成立了专门的AI投资基金，目标是建设中东最大的算力中心

用运维的话说：这就像2010年代的”云计算大战”，只不过这次争的不是云服务器，而是GPU集群。

中国AI的”突围战”

中国在AI领域面临一个独特挑战：美国限制向中国出口高端AI芯片（NVIDIA H100/A100）。

但中国AI行业并没有因此停滞，而是走了几条”突围”路线：

路线一：国产替代

华为昇腾910B：性能约为H100的70-80%，但已经能用于训练
寒武纪MLU370：推理性能不错，价格有优势
国产GPU在2026年已经能满足大部分推理需求

路线二：算法优化

DeepSeek证明了：用更少的算力，通过更好的算法，也能训练出很强的模型
量化技术让大模型在消费级显卡上也能跑
这就像你用一台4核8G的服务器，通过优化配置，跑出了别人16核32G的效果

路线三：应用创新

中国AI的优势不在”造最大的模型”，而在”用AI改造最多的行业”
中国的移动互联网生态（微信、支付宝、抖音）为AI应用提供了天然的落地场景

一个有趣的现象：开源正在追赶闭源

2023年，GPT-4遥遥领先，开源模型连GPT-3.5的水平都达不到。

2025年，Llama 3在多项基准测试上已经接近GPT-4。

2026年，DeepSeek-R1在推理能力上甚至超越了GPT-4。

这意味着什么？AI的”护城河”比想象中浅。闭源公司的领先优势可能只能维持6-12个月，开源社区很快就能追上。

用运维的话说：这就像Linux追赶Windows——一开始差距巨大，但开源的力量在于”众人拾柴火焰高”，最终总能追上甚至超越。

深度思考题

想一个问题：AI技术的发展，会像电力一样成为”通用基础设施”吗？

100年前，电力是一种”高科技”，需要专门的知识才能使用。今天，你按下开关就有电，不需要知道发电机怎么工作。

AI会不会也走这条路？今天的AI还需要你学习怎么”提示”、怎么”调参”。但未来的AI可能就像电力一样——你只需要说出你的需求，AI自动完成一切。

如果这个判断是对的，那我们学习AI的重点就不应该是”怎么用某个工具”，而是”AI能解决什么问题”——因为工具会变，但问题的本质不变。

2026年5月最新动态

OpenAI GPT-5开发进展：据报道，GPT-5将在推理能力和上下文窗口上有重大突破，预计2026年下半年发布。

Anthropic Claude新版本：Claude在代码能力上持续提升，2026年在编程基准测试中已经超过GPT-4o。

中国AI出海加速：字节的豆包、阿里的通义千问都在东南亚和中东市场快速扩张，这是中国AI的新增长点。

AI芯片新格局：NVIDIA B200芯片开始量产，性能是H100的2.5倍。同时AMD MI300和Intel Gaudi 3也在争夺市场份额。

下篇预告

明天早上8点：数据——AI的粮食！为什么说”数据为王”。你会理解为什么同样的算法，用不同的数据训练出来效果天差地别。

明晚5点：动手！用你的手机照片训练一个AI图像识别。真正动手操作，体验AI”学习”的过程。

系列课程：AI专家养成计划 70天140篇

适合人群：零基础、对AI感兴趣的任何人

互动：有问题欢迎在评论区留言，我会一一回复

Day02——晚课 2026年AI格局全景图：哪些技术正在改变世界

系列教程说明

上篇回顾

第一章：大语言模型——AI的”CPU”

什么是大语言模型？

2026年的主要玩家

动手试试：5分钟体验大语言模型

第二章：多模态AI——从”能说”到”能看能听”

为什么多模态很重要？

2026年的多模态能力

动手试试：让AI”看”一张图片

第三章：AI Agent——从”能聊天”到”能干活”

什么是AI Agent？

Agent的核心能力

2026年的Agent生态

动手试试：在ChatGPT中体验Agent能力

第四章：RAG和知识库——让AI读你的私有文档

为什么需要RAG？

RAG的实际应用

动手试试：用ChatGPT的”文件上传”体验RAG

第五章：AI编程——代码界的”自动驾驶”

AI编程的三个层次

动手试试：让AI帮你写一个脚本

第六章：AI的”基础设施层”

向量数据库

AI开发框架

模型推理服务

第七章：一张图看清2026年AI技术全景

今日总结

今日行动项

地铁深读：AI行业的”军备竞赛”正在发生什么

算力战争：谁在囤积GPU？

中国AI的”突围战”

一个有趣的现象：开源正在追赶闭源

深度思考题

2026年5月最新动态

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day02——晚课 2026年AI格局全景图：哪些技术正在改变世界

Day02——午课 AI速报 5月19日

Day02——早课 AI的前世今生：从图灵到ChatGPT，60年进化史

Day01——早课 别被AI吓到！用3个生活例子彻底搞懂人工智能

发表回复取消回复

Day01——早课别被AI吓到！用3个生活例子彻底搞懂人工智能