Day26——早课 AI视频：动态内容创作

系列教程说明

这是「AI专家养成计划」系列教程的第51篇，共140篇。从AI零基础出发，每天进步一点点。早课以理论为主，帮你理解概念、建立框架——读完这篇，你就知道AI如何”凭空”生成视频，以及普通人如何用AI视频工具创作动态内容。

上篇回顾

昨天我们学习了AI图像编辑的五大核心能力。三个核心要点：

AI图像编辑的核心理念：你描述意图，AI执行操作，门槛比传统修图低得多
五大核心能力：物体移除、物体添加、背景替换、局部修改、超分辨率
工具选择：开源方案（SD+ComfyUI）免费灵活，在线工具（Clipdrop等）简单易用

今天我们从静态图片跨入动态世界——AI视频生成。如果说AI图像是”拍照片”，那AI视频就是”拍电影”：你只需要描述一个场景，AI就能帮你生成一段流畅的视频。这项技术在过去两年经历了爆发式发展，正在彻底改变视频创作的门槛和方式。

为什么AI视频这么难？

在聊AI视频之前，先理解一个关键问题：为什么生成视频比生成图片难得多？

生成一张图片，AI只需要处理一个”瞬间”——像素的空间排列。但生成一段视频，AI需要同时处理空间和时间两个维度：每一帧的像素排列要合理，帧与帧之间的过渡也要流畅自然。

举个例子：让AI生成”一个人在走路”。图片只需要生成一个走路的姿势，但视频需要生成连续几十甚至几百个姿势，而且每两个相邻姿势之间不能有突兀的跳变——人的手臂要自然摆动，脚步要连贯，衣服的褶皱要随运动变化。

计算量的差距：一段5秒、24帧/秒的视频 = 120帧图片。如果每帧的计算量和一张独立图片相当，那视频生成的计算量就是图片的120倍。这就是为什么AI视频技术比AI图像晚了将近两年才成熟。

AI视频的三代技术

第一代：基于GAN的视频生成（2018-2020）

早期的视频生成主要基于GAN（生成对抗网络）。思路是把图片生成的GAN扩展到时间维度——在生成器中加入时间卷积层，让网络学会帧与帧之间的时间连贯性。

代表作品：

VideoGAN：最早尝试无条件视频生成的模型之一
MoCoGAN：把视频分解为”内容”和”运动”两部分，分别控制

局限性：生成的视频分辨率低（通常64×64或128×128）、时间短（2-4秒）、质量粗糙，经常出现物体变形、背景闪烁等问题。

第二代：基于Transformer的视频生成（2021-2023）

Transformer架构在NLP领域的成功被引入视频生成。核心思路是把视频看作”视觉token序列”，用自回归模型逐帧预测。

代表作品：

VideoGPT（2021）：用VQ-VAE把视频压缩成离散token，再用Transformer建模
Phenaki（2022，Google）：能根据长文本生成2分钟以上的视频，首次实现”讲故事”
Make-A-Video（2022，Meta）：无需视频数据训练，仅从图片+文本就能学会生成视频

突破性进展：这一代开始能生成较高质量、较长时长的视频，但运动的自然度和可控性还有不足。

第三代：基于扩散模型的视频生成（2023至今）

扩散模型在图片生成领域的成功（Stable Diffusion）被扩展到视频领域，成为当前的主流技术路线。

核心思路：在Stable Diffusion的基础上，加入时间注意力层（Temporal Attention），让模型在去噪过程中同时考虑空间一致性和时间一致性。

代表作品：

Stable Video Diffusion（SVD，2023，Stability AI）：开源，图片驱动视频生成
Sora（2024，OpenAI）：文生视频标杆，最长可生成60秒高质量视频
Kling（2024，快手）：国内首个对标Sora的视频生成模型
CogVideoX（2024，智谱AI）：开源视频生成模型，中文理解优秀
Wan2.1（2025，阿里）：开源，支持文生视频和图生视频

这一代的核心突破：视频质量接近实拍水准，运动自然度大幅提升，可控性（通过提示词精确描述运动）显著增强。

当前主流AI视频工具

商业工具

Sora（OpenAI）

优势：视频质量业界顶尖，运动自然度极高，支持最长60秒
局限：需要ChatGPT Plus/Pro订阅，生成速度较慢
适合：高质量创意视频、广告素材

Kling（快手）

优势：中文理解好，运动控制精准，有”运动笔刷”功能
局限：免费额度有限，高峰期排队
适合：中文用户日常创作、社交媒体内容

Runway Gen-3 Alpha

优势：视频编辑功能丰富（运动笔刷、延展、风格控制）
局限：价格较贵，免费额度极少
适合：专业视频创作者、需要精细控制的场景

Pika

优势：操作简单，支持图片/视频转视频，有”场景修改”功能
局限：视频时长较短（3-4秒基础）
适合：快速原型、社交媒体短视频

开源工具

CogVideoX（智谱AI）

GitHub：THUDM/CogVideo
优势：开源免费，中文支持好，模型尺寸多样（2B/5B）
部署：支持Hugging Face Diffusers，可本地运行
适合：技术研究、本地部署、二次开发

Wan2.1（阿里）

GitHub：Wan-Video/Wan2.1
优势：开源，支持1.3B到14B多种尺寸，文生视频+图生视频
部署：支持ComfyUI和Diffusers
适合：ComfyUI用户、需要灵活定制的场景

AnimateDiff

GitHub：guoyww/AnimateDiff
优势：把Stable Diffusion的图片模型”动画化”，兼容所有SD生态
局限：生成时长较短（约2秒16帧）
适合：已有SD工作流的用户、动画风格创作

HunyuanVideo（腾讯）

GitHub：Tencent/HunyuanVideo
优势：13B参数大模型，视频质量高，开源可商用
部署：需要较大显存（推荐24GB+）
适合：有高端GPU的用户、商业项目

AI视频的工作流程

一个完整的AI视频创作通常包含以下步骤：

第一步：构思与脚本

用文字描述你想要的视频内容。越具体越好——主体是什么、在做什么动作、背景是什么、光线如何、镜头怎么移动。

第二步：选择生成方式

文生视频（Text-to-Video）：直接用文字描述生成，最简单但可控性较低
图生视频（Image-to-Video）：先用AI生成一张图片作为”首帧”，再让AI把它”动起来”，可控性更高
视频生视频（Video-to-Video）：输入一段已有视频，AI改变其风格或内容

第三步：生成与迭代

AI视频通常不会一次就完美。你需要多次生成、调整提示词、筛选最佳结果。专业创作者的”命中率”大约在10-20%——生成10个结果，选1-2个满意的。

第四步：后期处理

用视频编辑工具（剪映、Premiere等）把多个AI片段拼接起来，加上转场、音乐、字幕，形成完整作品。

实操：用Kling生成你的第一个AI视频

让我们用一个具体例子，体验AI视频生成的完整流程。

场景：生成一段”夕阳下，一只猫在海边散步”的视频。

第一步：登录Kling AI

访问 klingai.com，注册并登录（支持微信登录）。

第二步：进入AI视频生成

选择”AI视频”→”文生视频”。

第三步：输入提示词

一只橘色的猫在海边沙滩上悠闲地散步，夕阳西下，金色的阳光洒在海面上，

海浪轻轻拍打沙滩，猫的毛发在微风中轻轻飘动，电影级画面，4K高清

第四步：设置参数

模式：选择”标准模式”（5秒）或”专业模式”（10秒）
画面比例：16:9（横屏）或9:16（竖屏，适合短视频）
创意度：0.5-0.7（太高会不稳定，太低会太死板）

第五步：生成与选择

点击生成，等待1-3分钟。系统会生成2-4个候选视频，选择最满意的一个。

提示词技巧：

描述运动：用”散步””奔跑””转身”等动词明确动作
描述光线：用”夕阳””逆光””暖色调”等描述氛围
描述镜头：用”特写””远景””跟随镜头”等描述视角
加品质词：用”电影级””4K””高清”等提升画质

AI视频的当前局限

虽然AI视频发展迅速，但目前仍有明显局限：

时长限制：大多数工具一次只能生成4-10秒的视频。要制作长视频，需要多次生成后拼接。

物理一致性：AI对物理世界的理解还不够精确。比如倒水时水的流向、球的弹跳轨迹等，偶尔会出现违反物理规律的情况。

人物一致性：同一个人物在不同片段中可能”变脸”。这是当前AI视频最大的技术瓶颈之一。

可控性：虽然提示词能描述大致场景，但精确控制每一帧的细节（比如”左手先抬起，然后右手放下”）仍然困难。

成本：高质量视频生成需要大量GPU算力。无论是云端服务还是本地部署，成本都不低。

今日总结

AI视频比AI图像难得多：需要同时处理空间和时间两个维度，计算量是图片的几十到上百倍
三代技术演进：GAN（低质量短时长）→ Transformer（较长但不够自然）→ 扩散模型（当前主流，质量最高）
工具选择：商业工具（Sora、Kling、Runway）质量高但有成本，开源工具（CogVideoX、Wan2.1）免费灵活但需要技术能力

今日行动项

体验一次AI视频生成：注册Kling或可灵，用上面的提示词模板生成你的第一个AI视频
对比不同工具：同一段提示词分别在Kling和另一个平台（如Pika或Runway）生成，看看效果差异
思考应用场景：想想你的工作或生活中，哪些场景可以用AI视频替代传统拍摄（产品展示、社交媒体内容、教学素材等）

📖 地铁深读：Sora的”世界模型”野心

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

2024年2月OpenAI发布Sora时，用了一个耐人寻味的词——“世界模拟器”（World Simulator）。这不仅仅是一个视频生成工具，而是一个能理解和模拟物理世界的AI系统。

Sora的技术架构

Sora的核心是Diffusion Transformer（DiT）——把扩散模型和Transformer架构结合。视频被分解为”时空Patch”（类似图片中的Patch但多了时间维度），这些Patch作为token输入Transformer处理。

关键创新在于统一的视觉表示：无论视频的分辨率、时长、宽高比如何，都用同一种Patch格式处理。这意味着Sora理论上可以生成任意分辨率和时长的视频。

“涌现”的物理理解

最令研究者惊讶的是，Sora展现出了一些”涌现”能力——这些能力并没有被显式训练：

三维一致性：生成的视频中，物体旋转时能保持三维结构不变
长距离连贯性：同一个角色在视频的不同部分保持外观一致
与世界互动：画家在画布上留下笔触，笔触会持久存在

OpenAI认为这些能力说明Sora正在学习物理世界的某些基本规律，而不仅仅是”像素拼接”。

争议与质疑

不过，学术界对”世界模型”的说法存在争议。Yann LeCun（Meta首席AI科学家）认为，纯粹基于像素预测的模型无法真正理解物理世界，需要结合物理引擎或因果推理。

Sora生成的视频中仍然存在物理错误——比如物体穿过彼此、重力方向不对等。这说明它学到的是”看起来像物理规律”的统计模式，而非真正的物理定律。

对创作者的启示

无论Sora是否真的理解物理世界，它已经足够改变视频创作行业。2024年起，越来越多的广告、短片开始使用AI生成片段。传统视频制作的”拍摄-剪辑”流程正在被”构思-生成-筛选”的新流程取代。

但AI不会完全取代人类创作者。它更像是一支”无限耐心的动画团队”——你告诉它想要什么，它帮你实现。但”想要什么”这个创意本身，仍然需要人类来提供。

下篇预告

明天早上8点：Day27早课——AI设计：海报与PPT。用AI生成专业级设计作品，零设计基础也能做出好看的海报和演示文稿。

明天下午5点：Day27晚课——视觉AI实战项目。把本周学的图像、视频、设计技能整合起来，完成一个完整的视觉AI创作项目。

Day26——早课 AI视频：动态内容创作

系列教程说明

上篇回顾

为什么AI视频这么难？

AI视频的三代技术

第一代：基于GAN的视频生成（2018-2020）

第二代：基于Transformer的视频生成（2021-2023）

第三代：基于扩散模型的视频生成（2023至今）

当前主流AI视频工具

商业工具

开源工具

AI视频的工作流程

实操：用Kling生成你的第一个AI视频

AI视频的当前局限

今日总结

今日行动项

📖 地铁深读：Sora的”世界模型”野心

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day26——早课 AI视频：动态内容创作

Day25——晚课 AI图像编辑：修图新方式

Day25——午课 Anthropic Fable 5引爆安全争议

运维人的终极武器库——2026年终端管理工具全景推荐

发表回复取消回复