Day02——晚课 2026年AI格局全景图:哪些技术正在改变世界


系列教程说明

这是「AI专家养成计划」系列教程的第5篇,共140篇。

本系列专为零基础学习者设计,从最简单的概念开始,逐步深入到AI开发实战。每天2篇,早上理论讲透,晚上动手实践,坚持70天,你就能从AI小白变成AI专家。

适合人群:对AI感兴趣但不知道从哪开始的任何人。


上篇回顾

今天早上,我们用服务器发展史做类比,走了一遍AI从1950年代到2026年的70年进化之路。

三个核心要点:

  1. AI有70年历史,不是突然冒出来的——从1956年达特茅斯会议到2026年的ChatGPT,AI经历了三次寒冬和三次复兴,每次复兴都由真正的技术突破驱动
  1. AI爆发的三个条件:数据+算力+算法——2010年代这三个条件同时成熟,才有了今天的AI大爆发。GPU、互联网数据、深度学习算法缺一不可
  1. 2023年是AI的”iPhone时刻”——ChatGPT让AI从”技术圈的玩具”变成了”人人都能用的工具”,就像iPhone让智能手机从极客变成了大众

好,今天早上的历史课上完了。

现在你知道AI怎么来的了。但光知道历史还不够——你得知道现在AI到底有哪些技术,哪些在真正改变世界,哪些只是在”吹牛”。

这篇晚课,我带你做一件事:像运维巡检机房一样,把2026年的AI技术”巡检”一遍

不讲理论,只讲”这东西能干嘛,你能不能用上”。


第一章:大语言模型——AI的”CPU”

如果说整个AI是一台服务器,那大语言模型(LLM)就是它的CPU。2026年,几乎所有AI应用都跑在大语言模型上面。

什么是大语言模型?

简单说,就是读了海量文字之后,学会了”接话”的AI。你给它一句话开头,它能猜出后面最可能的内容。

这就像你写了10年运维文档,突然有人问你”服务器连不上怎么办”,你脑子里立刻蹦出一套排查流程——不是你背的,是经验积累出来的”直觉”。

大语言模型的”经验”来自互联网上几乎所有的文字:维基百科、GitHub代码、新闻、论坛、书籍……几十TB的训练数据。

2026年的主要玩家

用运维的话说,大语言模型市场就像云计算市场——有”公有云”也有”私有部署”。

闭源阵营(公有云模式)

公司 模型 特点 适合场景

|——|——|——|———|

OpenAI GPT-4o、o3 综合能力最强,推理能力突出 通用任务、复杂推理
Anthropic Claude 3.5/4 安全性最高,长文本能力最好 文档分析、代码审查
Google Gemini 2.0 多模态最强,搜索整合最好 图文混合任务

开源阵营(私有部署模式)

公司 模型 特点 适合场景

|——|——|——|———|

Meta Llama 3/4 社区最活跃,生态最丰富 二次开发、私有部署
阿里 Qwen 2.5/3 中文能力最强 中文场景、国内部署
DeepSeek DeepSeek-R1 推理能力惊艳,性价比极高 代码、数学、推理

国产闭源模型

公司 模型 特点

|——|——|——|

百度 文心一言 4.5 搜索整合好,企业功能全
阿里 通义千问 API性价比高
字节 豆包 多模态能力强
月之暗面 Kimi 长文本处理能力突出
智谱 GLM-4 学术场景表现好

动手试试:5分钟体验大语言模型

现在就打开浏览器,跟着做:

第一步:打开 https://chatgpt.com (需要注册,免费可用GPT-4o-mini)

第二步:输入这段话:

`

你是一个有10年经验的运维工程师。我是一个新手,刚入职,服务器CPU突然飙到100%,请给我一个排查步骤清单,每一步都解释为什么要做。

`

第三步:观察它的回答——你会发现它给出的步骤不仅有条理,而且每一步都有”为什么”。这就是大语言模型的核心能力:不是简单地搜索答案,而是理解你的意图后组织信息

第四步:继续追问:

`

第二步你说要看进程列表,具体用什么命令?top和htop有什么区别?

`

这就是大语言模型的”对话”能力——它能记住上下文,连续讨论同一个话题。


第二章:多模态AI——从”能说”到”能看能听”

2024年之前,AI主要处理文字。2025-2026年,AI开始同时理解图片、音频、视频——这叫”多模态”。

为什么多模态很重要?

想象一下:你值班时收到一张服务器拓扑图,以前你得自己看图、分析、手动输入描述。现在你可以直接把图丢给AI:”这张拓扑图里,哪个节点是单点故障风险?”

多模态AI就像给运维人员加了一双”AI眼睛”和”AI耳朵”。

2026年的多模态能力

能力 代表产品 能做什么

|——|———|———|

图片理解 GPT-4o、Gemini 看截图分析问题、识别图表数据
图片生成 DALL-E 3、Midjourney 根据文字描述生成图片
语音对话 GPT-4o语音模式、豆包语音 直接跟AI语音对话
视频理解 Gemini 2.0 分析视频内容、提取关键帧
视频生成 Sora、可灵 文字描述直接生成视频

动手试试:让AI”看”一张图片

第一步:打开 https://chatgpt.com

第二步:点击输入框左侧的”附件”图标,上传任意一张图片(比如你的手机截图、一张表格照片)

第三步:输入:

`

请描述这张图片的内容,如果你看到文字,请全部提取出来。

`

第四步:观察AI的回复——它不仅能识别图片中的文字(OCR),还能理解图片的语义。

这就是多模态AI的威力。以前需要专门的OCR软件才能提取图片文字,现在大语言模型”顺便”就能做。


第三章:AI Agent——从”能聊天”到”能干活”

这是2026年AI领域最火的方向,没有之一。

什么是AI Agent?

大语言模型只能”说话”——你问它,它回答。

AI Agent能”行动”——你给它一个任务,它自己拆解步骤、调用工具、执行操作、检查结果。

用运维的话说:

  • 大语言模型 = 一个知识渊博的同事,你问他问题他都能答,但他不会帮你动手
  • AI Agent = 一个能帮你值班的机器人,你说”把昨天的告警汇总一下发邮件给团队”,它真的会去查告警系统、整理数据、写邮件、发送

Agent的核心能力

`

感知(Perception)

规划(Planning)—— 把大任务拆成小步骤

工具调用(Tool Use)—— 调用搜索引擎、代码执行器、API等

反思(Reflection)—— 检查结果对不对,不对就重来

执行(Execution)—— 完成任务并汇报

`

这就像你写了一个自动化运维脚本,但这个脚本会自己思考——遇到没预料到的情况,它会自己想办法解决,而不是直接报错退出。

2026年的Agent生态

框架/产品 公司 特点

|———–|——|——|

ChatGPT + Tools OpenAI 最简单的Agent体验,网页端直接用
Claude Computer Use Anthropic 能操作电脑桌面
Manus 中国创业公司 全自主任务执行,2025年爆火
Cursor Agent Cursor 编程Agent,能自动写代码、调试、提交
Hermes Agent Nous Research 开源Agent框架,可自定义工具链

动手试试:在ChatGPT中体验Agent能力

第一步:打开 https://chatgpt.com ,确保使用的是GPT-4o(付费版效果更好)

第二步:输入这个任务:

`

请帮我搜索一下2026年5月最新的AI新闻,整理出最重要的3条,每条用一句话总结,并附上来源链接。

`

第三步:观察ChatGPT的行为——它会自动使用”搜索”工具去查找信息,然后整理结果给你。

第四步:继续追问:

`

把这3条新闻整理成一个表格,包含:新闻标题、一句话摘要、来源、发布日期。然后用Python生成一个Markdown文件保存到桌面。

`

这就是Agent的工作模式:理解意图 → 拆解步骤 → 调用工具 → 产出结果


第四章:RAG和知识库——让AI读你的私有文档

为什么需要RAG?

大语言模型有个致命弱点:它只知道训练数据里的东西

你公司的内部文档、产品手册、运维SOP——这些它从来没看过,所以答不上来。

RAG(Retrieval-Augmented Generation,检索增强生成)就是解决这个问题的。它的工作原理是:

`

用户提问

从你的文档库中搜索相关内容(检索)

把搜索结果”喂”给大语言模型(增强)

大语言模型基于你的文档生成回答(生成)

`

用运维的话说:这就像给AI装了一个”知识库插件”——它不再只靠自己的记忆回答,而是先去查你的Wiki/Confluence,然后基于查到的内容回答。

RAG的实际应用

场景 传统方式 RAG方式

|——|———|———|

查运维SOP 搜Wiki,翻半天找到 问AI”Redis主从切换怎么做”,直接给你步骤
查产品文档 在PDF里Ctrl+F 问AI”产品X的API限流策略是什么”,直接回答
查会议记录 翻聊天记录 问AI”上周二讨论的方案是什么结论”,直接总结

动手试试:用ChatGPT的”文件上传”体验RAG

第一步:准备一个文档(Word/PDF/TXT都行,比如你公司的某份技术文档)

第二步:打开ChatGPT,点击附件图标上传文档

第三步:输入:

`

请阅读这个文档,然后回答:[某个具体问题]

`

第四步:观察AI的回答——它会基于你上传的文档内容来回答,而不是靠”猜”。

这就是最简单的RAG体验。企业级的RAG系统会把成千上万份文档都索引起来,随时查询。


第五章:AI编程——代码界的”自动驾驶”

AI编程的三个层次

层次一:智能补全(2021年开始)

你写代码时,AI自动提示下一行。就像手机输入法的”联想词”,只不过联想的是代码。

代表产品:GitHub Copilot

层次二:对话式编程(2023年开始)

你用自然语言描述需求,AI帮你写完整代码。比如”写一个Python脚本,监控服务器CPU使用率,超过80%就发钉钉告警”。

代表产品:ChatGPT、Claude

层次三:自主编程Agent(2025年开始)

你给AI一个任务描述,它自己读代码、写代码、运行测试、修bug、提交PR。全程不需要你干预。

代表产品:Cursor Agent、Claude Code、Codex CLI

动手试试:让AI帮你写一个脚本

第一步:打开任意一个AI对话工具(ChatGPT、Kimi、豆包都行)

第二步:输入:

`

帮我写一个Python脚本,功能是:

  1. 读取当前目录下所有.log文件
  2. 统计每个文件中包含”ERROR”的行数
  3. 输出一个表格:文件名 | ERROR数量 | 最后一次ERROR的时间

`

第三步:把AI生成的代码复制到一个文件里(比如叫log_check.py

第四步:在终端运行 python3 log_check.py

你会惊讶地发现——一段你可能要写半小时的脚本,AI 10秒钟就生成了,而且大概率能直接跑


第六章:AI的”基础设施层”

除了上面这些”看得见”的技术,还有一些”看不见”但同样重要的基础设施。

向量数据库

AI需要一种特殊的数据库来存储和搜索”语义”——不是按关键词匹配,而是按意思匹配。

比如你搜”服务器挂了”,传统数据库只能找包含”挂了”这两个字的文档。向量数据库能找到”服务器宕机”、”服务不可用”、”主机故障”——因为这些表达的意思相近。

代表产品:Pinecone、Milvus、Chroma、Weaviate

AI开发框架

就像Web开发有Django/Flask,AI开发也有自己的框架:

框架 用途 特点

|——|——|——|

LangChain AI应用开发 最流行的AI应用框架
LlamaIndex RAG开发 专注于文档检索和问答
Hugging Face 模型训练和部署 AI界的GitHub
Ollama 本地模型运行 在自己电脑上跑大模型

模型推理服务

大语言模型动辄几十GB,需要专门的推理服务来高效运行:

服务 特点

|——|——|

vLLM 高并发推理,企业级
Ollama 本地一键运行,适合个人
llama.cpp CPU推理,不需要显卡

第七章:一张图看清2026年AI技术全景

我把2026年的AI技术栈整理成了一张”技术全景图”,用运维人熟悉的分层结构:

`

┌─────────────────────────────────────────────────┐

│ 应用层 │

│ AI写作 AI编程 AI客服 AI搜索 AI设计 AI视频 │

├─────────────────────────────────────────────────┤

│ Agent层 │

│ ChatGPT Agent Claude Code Manus Cursor │

├─────────────────────────────────────────────────┤

│ 模型层 │

│ GPT-4o Claude Gemini Llama Qwen DeepSeek │

├─────────────────────────────────────────────────┤

│ 基础设施层 │

│ 向量数据库 推理引擎 训练框架 数据标注 │

├─────────────────────────────────────────────────┤

│ 算力层 │

│ NVIDIA GPU 云计算 边缘计算 专用AI芯片 │

└─────────────────────────────────────────────────┘

`

每一层都很重要,但作为初学者,你只需要关注应用层和Agent层——这是你最可能直接用到的东西。模型层和基础设施层,等你深入学习后再了解不迟。


今日总结

  1. 2026年AI技术分为六大方向——大语言模型是”CPU”,多模态是”五感”,Agent是”手脚”,RAG是”记忆”,AI编程是”专业技能”,基础设施是”机房”
  1. 大语言模型市场分为闭源和开源两大阵营——闭源(GPT/Claude/Gemini)开箱即用,开源(Llama/Qwen/DeepSeek)可以自己部署。国产模型在中文场景已经很强
  1. AI Agent是2026年最值得关注的方向——从”能聊天”到”能干活”,这是AI能力的质变。你可以现在就开始体验

今日行动项

花10分钟完成这三个小任务:

  1. 体验:打开ChatGPT(或Kimi、豆包),让它帮你做一件你工作中实际需要做的事情——写邮件、整理数据、解释报错信息,什么都行
  1. 对比:分别用ChatGPT和Kimi问同一个问题(比如”帮我写一个Shell脚本清理30天前的日志”),看看两个AI的回答有什么不同
  1. 思考:你工作中有哪些重复性的任务可以用AI Agent来自动化?把它们列出来——这是我们后面课程要重点攻克的方向

地铁深读:AI行业的”军备竞赛”正在发生什么

这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。

算力战争:谁在囤积GPU?

2026年,AI行业最大的”军备竞赛”不是模型参数量,而是算力

训练一个GPT-4级别的模型,需要大约25000张NVIDIA A100显卡,训练3-4个月,电费就要几千万美元。所以你会看到:

  • 微软向OpenAI投资了超过130亿美元,其中大部分用于建设数据中心
  • Meta在2025年宣布采购35万张NVIDIA H100显卡
  • 字节跳动是NVIDIA在中国的最大客户之一
  • 沙特阿拉伯成立了专门的AI投资基金,目标是建设中东最大的算力中心

用运维的话说:这就像2010年代的”云计算大战”,只不过这次争的不是云服务器,而是GPU集群。

中国AI的”突围战”

中国在AI领域面临一个独特挑战:美国限制向中国出口高端AI芯片(NVIDIA H100/A100)。

但中国AI行业并没有因此停滞,而是走了几条”突围”路线:

路线一:国产替代

  • 华为昇腾910B:性能约为H100的70-80%,但已经能用于训练
  • 寒武纪MLU370:推理性能不错,价格有优势
  • 国产GPU在2026年已经能满足大部分推理需求

路线二:算法优化

  • DeepSeek证明了:用更少的算力,通过更好的算法,也能训练出很强的模型
  • 量化技术让大模型在消费级显卡上也能跑
  • 这就像你用一台4核8G的服务器,通过优化配置,跑出了别人16核32G的效果

路线三:应用创新

  • 中国AI的优势不在”造最大的模型”,而在”用AI改造最多的行业”
  • 中国的移动互联网生态(微信、支付宝、抖音)为AI应用提供了天然的落地场景

一个有趣的现象:开源正在追赶闭源

2023年,GPT-4遥遥领先,开源模型连GPT-3.5的水平都达不到。

2025年,Llama 3在多项基准测试上已经接近GPT-4。

2026年,DeepSeek-R1在推理能力上甚至超越了GPT-4。

这意味着什么?AI的”护城河”比想象中浅。闭源公司的领先优势可能只能维持6-12个月,开源社区很快就能追上。

用运维的话说:这就像Linux追赶Windows——一开始差距巨大,但开源的力量在于”众人拾柴火焰高”,最终总能追上甚至超越。

深度思考题

想一个问题:AI技术的发展,会像电力一样成为”通用基础设施”吗?

100年前,电力是一种”高科技”,需要专门的知识才能使用。今天,你按下开关就有电,不需要知道发电机怎么工作。

AI会不会也走这条路?今天的AI还需要你学习怎么”提示”、怎么”调参”。但未来的AI可能就像电力一样——你只需要说出你的需求,AI自动完成一切。

如果这个判断是对的,那我们学习AI的重点就不应该是”怎么用某个工具”,而是”AI能解决什么问题”——因为工具会变,但问题的本质不变。

2026年5月最新动态

OpenAI GPT-5开发进展:据报道,GPT-5将在推理能力和上下文窗口上有重大突破,预计2026年下半年发布。

Anthropic Claude新版本:Claude在代码能力上持续提升,2026年在编程基准测试中已经超过GPT-4o。

中国AI出海加速:字节的豆包、阿里的通义千问都在东南亚和中东市场快速扩张,这是中国AI的新增长点。

AI芯片新格局:NVIDIA B200芯片开始量产,性能是H100的2.5倍。同时AMD MI300和Intel Gaudi 3也在争夺市场份额。


下篇预告

明天早上8点:数据——AI的粮食!为什么说”数据为王”。你会理解为什么同样的算法,用不同的数据训练出来效果天差地别。

明晚5点:动手!用你的手机照片训练一个AI图像识别。真正动手操作,体验AI”学习”的过程。


系列课程:AI专家养成计划 70天140篇

适合人群:零基础、对AI感兴趣的任何人

互动:有问题欢迎在评论区留言,我会一一回复

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注