系列教程说明
这是「AI专家养成计划」系列教程的第51篇,共140篇。从AI零基础出发,每天进步一点点。早课以理论为主,帮你理解概念、建立框架——读完这篇,你就知道AI如何”凭空”生成视频,以及普通人如何用AI视频工具创作动态内容。
上篇回顾
昨天我们学习了AI图像编辑的五大核心能力。三个核心要点:
- AI图像编辑的核心理念:你描述意图,AI执行操作,门槛比传统修图低得多
- 五大核心能力:物体移除、物体添加、背景替换、局部修改、超分辨率
- 工具选择:开源方案(SD+ComfyUI)免费灵活,在线工具(Clipdrop等)简单易用
今天我们从静态图片跨入动态世界——AI视频生成。如果说AI图像是”拍照片”,那AI视频就是”拍电影”:你只需要描述一个场景,AI就能帮你生成一段流畅的视频。这项技术在过去两年经历了爆发式发展,正在彻底改变视频创作的门槛和方式。
为什么AI视频这么难?
在聊AI视频之前,先理解一个关键问题:为什么生成视频比生成图片难得多?
生成一张图片,AI只需要处理一个”瞬间”——像素的空间排列。但生成一段视频,AI需要同时处理空间和时间两个维度:每一帧的像素排列要合理,帧与帧之间的过渡也要流畅自然。
举个例子:让AI生成”一个人在走路”。图片只需要生成一个走路的姿势,但视频需要生成连续几十甚至几百个姿势,而且每两个相邻姿势之间不能有突兀的跳变——人的手臂要自然摆动,脚步要连贯,衣服的褶皱要随运动变化。
计算量的差距:一段5秒、24帧/秒的视频 = 120帧图片。如果每帧的计算量和一张独立图片相当,那视频生成的计算量就是图片的120倍。这就是为什么AI视频技术比AI图像晚了将近两年才成熟。
AI视频的三代技术
第一代:基于GAN的视频生成(2018-2020)
早期的视频生成主要基于GAN(生成对抗网络)。思路是把图片生成的GAN扩展到时间维度——在生成器中加入时间卷积层,让网络学会帧与帧之间的时间连贯性。
代表作品:
- VideoGAN:最早尝试无条件视频生成的模型之一
- MoCoGAN:把视频分解为”内容”和”运动”两部分,分别控制
局限性:生成的视频分辨率低(通常64×64或128×128)、时间短(2-4秒)、质量粗糙,经常出现物体变形、背景闪烁等问题。
第二代:基于Transformer的视频生成(2021-2023)
Transformer架构在NLP领域的成功被引入视频生成。核心思路是把视频看作”视觉token序列”,用自回归模型逐帧预测。
代表作品:
- VideoGPT(2021):用VQ-VAE把视频压缩成离散token,再用Transformer建模
- Phenaki(2022,Google):能根据长文本生成2分钟以上的视频,首次实现”讲故事”
- Make-A-Video(2022,Meta):无需视频数据训练,仅从图片+文本就能学会生成视频
突破性进展:这一代开始能生成较高质量、较长时长的视频,但运动的自然度和可控性还有不足。
第三代:基于扩散模型的视频生成(2023至今)
扩散模型在图片生成领域的成功(Stable Diffusion)被扩展到视频领域,成为当前的主流技术路线。
核心思路:在Stable Diffusion的基础上,加入时间注意力层(Temporal Attention),让模型在去噪过程中同时考虑空间一致性和时间一致性。
代表作品:
- Stable Video Diffusion(SVD,2023,Stability AI):开源,图片驱动视频生成
- Sora(2024,OpenAI):文生视频标杆,最长可生成60秒高质量视频
- Kling(2024,快手):国内首个对标Sora的视频生成模型
- CogVideoX(2024,智谱AI):开源视频生成模型,中文理解优秀
- Wan2.1(2025,阿里):开源,支持文生视频和图生视频
这一代的核心突破:视频质量接近实拍水准,运动自然度大幅提升,可控性(通过提示词精确描述运动)显著增强。
当前主流AI视频工具
商业工具
Sora(OpenAI)
- 优势:视频质量业界顶尖,运动自然度极高,支持最长60秒
- 局限:需要ChatGPT Plus/Pro订阅,生成速度较慢
- 适合:高质量创意视频、广告素材
Kling(快手)
- 优势:中文理解好,运动控制精准,有”运动笔刷”功能
- 局限:免费额度有限,高峰期排队
- 适合:中文用户日常创作、社交媒体内容
Runway Gen-3 Alpha
- 优势:视频编辑功能丰富(运动笔刷、延展、风格控制)
- 局限:价格较贵,免费额度极少
- 适合:专业视频创作者、需要精细控制的场景
Pika
- 优势:操作简单,支持图片/视频转视频,有”场景修改”功能
- 局限:视频时长较短(3-4秒基础)
- 适合:快速原型、社交媒体短视频
开源工具
CogVideoX(智谱AI)
- GitHub:THUDM/CogVideo
- 优势:开源免费,中文支持好,模型尺寸多样(2B/5B)
- 部署:支持Hugging Face Diffusers,可本地运行
- 适合:技术研究、本地部署、二次开发
Wan2.1(阿里)
- GitHub:Wan-Video/Wan2.1
- 优势:开源,支持1.3B到14B多种尺寸,文生视频+图生视频
- 部署:支持ComfyUI和Diffusers
- 适合:ComfyUI用户、需要灵活定制的场景
AnimateDiff
- GitHub:guoyww/AnimateDiff
- 优势:把Stable Diffusion的图片模型”动画化”,兼容所有SD生态
- 局限:生成时长较短(约2秒16帧)
- 适合:已有SD工作流的用户、动画风格创作
HunyuanVideo(腾讯)
- GitHub:Tencent/HunyuanVideo
- 优势:13B参数大模型,视频质量高,开源可商用
- 部署:需要较大显存(推荐24GB+)
- 适合:有高端GPU的用户、商业项目
AI视频的工作流程
一个完整的AI视频创作通常包含以下步骤:
第一步:构思与脚本
用文字描述你想要的视频内容。越具体越好——主体是什么、在做什么动作、背景是什么、光线如何、镜头怎么移动。
第二步:选择生成方式
- 文生视频(Text-to-Video):直接用文字描述生成,最简单但可控性较低
- 图生视频(Image-to-Video):先用AI生成一张图片作为”首帧”,再让AI把它”动起来”,可控性更高
- 视频生视频(Video-to-Video):输入一段已有视频,AI改变其风格或内容
第三步:生成与迭代
AI视频通常不会一次就完美。你需要多次生成、调整提示词、筛选最佳结果。专业创作者的”命中率”大约在10-20%——生成10个结果,选1-2个满意的。
第四步:后期处理
用视频编辑工具(剪映、Premiere等)把多个AI片段拼接起来,加上转场、音乐、字幕,形成完整作品。
实操:用Kling生成你的第一个AI视频
让我们用一个具体例子,体验AI视频生成的完整流程。
场景:生成一段”夕阳下,一只猫在海边散步”的视频。
第一步:登录Kling AI
访问 klingai.com,注册并登录(支持微信登录)。
第二步:进入AI视频生成
选择”AI视频”→”文生视频”。
第三步:输入提示词
`
一只橘色的猫在海边沙滩上悠闲地散步,夕阳西下,金色的阳光洒在海面上,
海浪轻轻拍打沙滩,猫的毛发在微风中轻轻飘动,电影级画面,4K高清
`
第四步:设置参数
- 模式:选择”标准模式”(5秒)或”专业模式”(10秒)
- 画面比例:16:9(横屏)或9:16(竖屏,适合短视频)
- 创意度:0.5-0.7(太高会不稳定,太低会太死板)
第五步:生成与选择
点击生成,等待1-3分钟。系统会生成2-4个候选视频,选择最满意的一个。
提示词技巧:
- 描述运动:用”散步””奔跑””转身”等动词明确动作
- 描述光线:用”夕阳””逆光””暖色调”等描述氛围
- 描述镜头:用”特写””远景””跟随镜头”等描述视角
- 加品质词:用”电影级””4K””高清”等提升画质
AI视频的当前局限
虽然AI视频发展迅速,但目前仍有明显局限:
时长限制:大多数工具一次只能生成4-10秒的视频。要制作长视频,需要多次生成后拼接。
物理一致性:AI对物理世界的理解还不够精确。比如倒水时水的流向、球的弹跳轨迹等,偶尔会出现违反物理规律的情况。
人物一致性:同一个人物在不同片段中可能”变脸”。这是当前AI视频最大的技术瓶颈之一。
可控性:虽然提示词能描述大致场景,但精确控制每一帧的细节(比如”左手先抬起,然后右手放下”)仍然困难。
成本:高质量视频生成需要大量GPU算力。无论是云端服务还是本地部署,成本都不低。
今日总结
- AI视频比AI图像难得多:需要同时处理空间和时间两个维度,计算量是图片的几十到上百倍
- 三代技术演进:GAN(低质量短时长)→ Transformer(较长但不够自然)→ 扩散模型(当前主流,质量最高)
- 工具选择:商业工具(Sora、Kling、Runway)质量高但有成本,开源工具(CogVideoX、Wan2.1)免费灵活但需要技术能力
今日行动项
- 体验一次AI视频生成:注册Kling或可灵,用上面的提示词模板生成你的第一个AI视频
- 对比不同工具:同一段提示词分别在Kling和另一个平台(如Pika或Runway)生成,看看效果差异
- 思考应用场景:想想你的工作或生活中,哪些场景可以用AI视频替代传统拍摄(产品展示、社交媒体内容、教学素材等)
📖 地铁深读:Sora的”世界模型”野心
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
2024年2月OpenAI发布Sora时,用了一个耐人寻味的词——“世界模拟器”(World Simulator)。这不仅仅是一个视频生成工具,而是一个能理解和模拟物理世界的AI系统。
Sora的技术架构
Sora的核心是Diffusion Transformer(DiT)——把扩散模型和Transformer架构结合。视频被分解为”时空Patch”(类似图片中的Patch但多了时间维度),这些Patch作为token输入Transformer处理。
关键创新在于统一的视觉表示:无论视频的分辨率、时长、宽高比如何,都用同一种Patch格式处理。这意味着Sora理论上可以生成任意分辨率和时长的视频。
“涌现”的物理理解
最令研究者惊讶的是,Sora展现出了一些”涌现”能力——这些能力并没有被显式训练:
- 三维一致性:生成的视频中,物体旋转时能保持三维结构不变
- 长距离连贯性:同一个角色在视频的不同部分保持外观一致
- 与世界互动:画家在画布上留下笔触,笔触会持久存在
OpenAI认为这些能力说明Sora正在学习物理世界的某些基本规律,而不仅仅是”像素拼接”。
争议与质疑
不过,学术界对”世界模型”的说法存在争议。Yann LeCun(Meta首席AI科学家)认为,纯粹基于像素预测的模型无法真正理解物理世界,需要结合物理引擎或因果推理。
Sora生成的视频中仍然存在物理错误——比如物体穿过彼此、重力方向不对等。这说明它学到的是”看起来像物理规律”的统计模式,而非真正的物理定律。
对创作者的启示
无论Sora是否真的理解物理世界,它已经足够改变视频创作行业。2024年起,越来越多的广告、短片开始使用AI生成片段。传统视频制作的”拍摄-剪辑”流程正在被”构思-生成-筛选”的新流程取代。
但AI不会完全取代人类创作者。它更像是一支”无限耐心的动画团队”——你告诉它想要什么,它帮你实现。但”想要什么”这个创意本身,仍然需要人类来提供。
下篇预告
明天早上8点:Day27早课——AI设计:海报与PPT。用AI生成专业级设计作品,零设计基础也能做出好看的海报和演示文稿。
明天下午5点:Day27晚课——视觉AI实战项目。把本周学的图像、视频、设计技能整合起来,完成一个完整的视觉AI创作项目。
发表回复