系列教程说明
这是「AI专家养成计划」系列教程的第52篇,共140篇。晚课以实战为主,手把手教你操作。今天我们将从早课的”了解AI视频”进阶到”动手做AI视频”——用4种不同工具生成视频,掌握提示词技巧,最终完成一个完整的短视频作品。
上篇回顾
今天早上我们学习了AI视频的技术原理和工具全景。三个核心要点:
- AI视频比图像难得多:需要同时处理空间和时间两个维度,计算量是图片的几十到上百倍
- 三代技术演进:GAN → Transformer → 扩散模型,当前主流是基于扩散模型的视频生成
- 工具选择:商业工具(Sora、Kling、Runway)质量高但有成本,开源工具(CogVideoX、Wan2.1)免费灵活
早课是”知其然”,晚课是”知其所以然”。接下来,我们动手实操。
实操一:文生视频进阶——提示词的艺术
早课中我们用Kling做了一个简单的文生视频。现在来提升提示词的精准度。
提示词公式
一个好的视频提示词 = 主体 + 动作 + 环境 + 光线 + 镜头 + 风格
举个例子,对比一下:
基础版:
`
一只猫在走路
`
进阶版:
`
一只橘色的英短猫在雨后的石板路上慢悠悠地散步,地面有积水倒映着路灯,
暖黄色的路灯从侧方照亮猫的轮廓,背景是模糊的古镇街景,
中景跟随镜头,电影感色调,浅景深
`
区别在哪?进阶版把每一个维度都填充了细节。AI视频模型会根据这些细节生成更精准、更有质感的画面。
5个实战提示词模板
直接拿去用,根据你的需求修改:
模板1:产品展示
`
[产品名称]放在[材质]桌面上,[光源方向]打光,
镜头缓慢环绕产品旋转360度,背景纯色渐变,
产品表面反射细腻光泽,商业广告质感,4K
`
模板2:自然风光
`
[时间]的[地点],[天气现象],[主体]在画面中[动作],
[远景/中景/特写]镜头,[色调]调色,航拍/地面视角
`
模板3:人物动作
`
一个[外貌描述]的人在[场景]中[动作],
穿着[服装描述],[表情],镜头[运动方式],
自然光线,[风格]画面风格
`
模板4:美食特写
`
[食物名称]放在[餐具]上,[蒸汽/酱汁/光泽]细节,
[角度]角度拍摄,浅景深虚化背景,
暖色调,食物摄影风格,高清
`
模板5:科技感场景
`
[主体]在[科技感环境]中[动作],
蓝紫色霓虹光效,粒子特效,数据流在背景中流动,
赛博朋克风格,电影级CG画质
`
小技巧:在Kling或可灵中,创意度参数建议设0.5-0.7。低于0.5画面太”死板”,高于0.7容易出现变形和闪烁。
实操二:图生视频——更可控的创作方式
文生视频的随机性较大。如果你对画面有更精确的要求,图生视频(Image-to-Video)是更好的选择。
工作流程
`
构思画面 → AI生成首帧图片 → 精修图片 → 图片”动”起来 → 后期拼接
`
第一步:用AI生成首帧图片
用Midjourney、Stable Diffusion或DALL-E生成一张你想要的”起始画面”。
比如你想做一段”樱花飘落”的视频,先生成一张高质量的樱花图片:
`
一棵盛开的樱花树,花瓣飘落,背景是日式庭院,
柔和的自然光线,水彩画风格,高清细节
`
第二步:图片转视频
把生成的图片上传到Kling、Runway或Pika,选择”图生视频”模式。
关键:补充运动描述。图片是静止的,你需要告诉AI”怎么动”:
`
樱花花瓣从树上飘落,在微风中缓缓旋转,
镜头缓慢向上推移,露出更多树冠
`
为什么要用图生视频?
| 方式 | 可控性 | 随机性 | 适合场景 |
|---|
|——|——–|——–|———-|
| 文生视频 | 低 | 高 | 探索创意、快速原型 |
|---|---|---|---|
| 图生视频 | 高 | 低 | 精确构图、品牌素材、系列内容 |
进阶技巧:先用Stable Diffusion生成一张精确的首帧(控制构图、色调、主体),再用Kling把它”动起来”。这是目前专业创作者最常用的工作流。
实操三:视频转视频——风格迁移
你有一段普通视频,想把它变成油画风格?卡通风格?赛博朋克风格?视频转视频(Video-to-Video)可以做到。
操作步骤(以Runway为例)
- 上传你的原始视频
- 选择”Video to Video”模式
- 输入风格描述:
`
梵高星空风格,厚重的油画笔触,旋涡状的天空,
金黄色和深蓝色为主色调
`
- 调整”风格强度”——太低看不出变化,太高会丢失原始内容
- 生成并预览
实用场景
- 旅行视频:把手机拍的普通风景变成动漫风格、水彩风格
- 产品视频:给产品展示视频换背景、换风格
- 社交媒体:把日常视频变成艺术感十足的短视频,增加传播力
注意:视频转视频会保留原始视频的动作和构图,只改变视觉风格。所以原始视频的质量很重要——抖动、模糊的原视频,转出来也不会好看。
实操四:多片段拼接——做一个完整短视频
单个AI视频通常只有4-10秒。要做一个完整的短视频(30秒-1分钟),需要多片段拼接。
项目实战:制作一段”四季变换”短视频
目标:制作一段30秒的”同一棵树的四季变换”短视频。
步骤1:规划分镜
| 片段 | 时长 | 内容 | 生成方式 |
|---|
|——|——|——|———-|
| 春 | 5秒 | 嫩绿新芽,樱花盛开 | 图生视频 |
|---|---|---|---|
| 夏 | 5秒 | 茂密绿荫,蝉鸣 | 图生视频 |
| 秋 | 5秒 | 金黄落叶,微风 | 图生视频 |
| 冬 | 5秒 | 白雪覆盖,宁静 | 图生视频 |
| 片头 | 3秒 | 标题动画 | 文生视频 |
| 片尾 | 3秒 | 结束语 | 文生视频 |
步骤2:生成首帧
用Stable Diffusion分别生成4张季节图片,确保构图一致(同一棵树、同一角度)。技巧:用同一张”控制图”(ControlNet的Reference模式)保持构图统一。
步骤3:图生视频
分别把4张图片上传到Kling,补充运动描述:
- 春:花瓣缓缓飘落,新芽慢慢展开
- 夏:树叶在微风中轻轻摇曳
- 秋:金黄的树叶旋转飘落
- 冬:雪花缓缓飘落,积雪逐渐增厚
步骤4:拼接与后期
用剪映或CapCut把6个片段按顺序排列,添加:
- 转场:片段之间加溶解转场(0.5秒)
- 音乐:选一首舒缓的纯音乐
- 字幕:每个季节加上名称
- 变速:如果某个片段节奏不对,微调速度
关键提醒:生成多个片段时,保持提示词中”风格词”一致(如都用”电影级””暖色调”),否则拼起来会风格割裂。
实操五:开源工具本地部署
如果你想用免费、不受限制的方案,可以本地部署开源视频生成模型。
方案一:CogVideoX(推荐新手)
硬件要求:显存 12GB+(如RTX 3060 12GB、RTX 4070)
安装步骤:
`bash
# 克隆仓库
git clone https://github.com/THUDM/CogVideo.git
cd CogVideo
# 创建虚拟环境
python -m venv cogvideo-env
source cogvideo-env/bin/activate
# 安装依赖
pip install -r requirements.txt
`
生成视频:
`python
from diffusers import CogVideoXPipeline
import torch
pipe = CogVideoXPipeline.from_pretrained(
“THUDM/CogVideoX-2b”,
torch_dtype=torch.float16
).to(“cuda”)
video = pipe(
prompt=”一只猫在海边散步,夕阳西下,电影级画面”,
num_frames=49,
guidance_scale=6.0
).frames[0]
# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, “output.mp4”, fps=8)
`
方案二:Wan2.1(ComfyUI用户推荐)
如果你已经在用ComfyUI做图片生成,Wan2.1是最自然的选择:
- 在ComfyUI Manager中搜索安装”Wan Video”节点
- 下载Wan2.1模型(1.3B版本适合12GB显存,14B需要24GB+)
- 使用ComfyUI工作流:文本编码 → 视频解码 → 导出
提醒:本地生成视频的速度比云端慢很多。一段5秒视频,RTX 3060可能需要10-20分钟。如果你的显卡显存不够,可以先用Google Colab的免费GPU体验。
今日总结
- 提示词公式:主体+动作+环境+光线+镜头+风格,六个维度填满细节
- 三种生成方式:文生视频(创意探索)、图生视频(精确可控)、视频转视频(风格变换)
- 多片段拼接:保持风格词一致,用后期工具加转场和音乐
今日行动项
- 完成一个图生视频:用Stable Diffusion生成一张图片,再用Kling把它”动起来”
- 尝试视频转视频:找一段手机拍的视频,用Runway或Pika给它换一个艺术风格
- 规划你的短视频项目:画一个4-6个片段的分镜表,明天尝试生成
📖 地铁深读:AI视频的”帧率”秘密
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
你可能注意到,AI生成的视频看起来总有一种”不太真实”的感觉,但又说不清哪里不对。其中一个关键原因是帧率。
什么是帧率?
帧率(FPS,Frames Per Second)是每秒钟播放的画面数量。人眼对流畅运动的感知阈值大约在24帧/秒——这也是电影的标准帧率。电视通常是30帧/秒,游戏追求60帧/秒甚至更高。
AI视频的帧率问题
大多数AI视频工具生成的原始帧率并不高。比如CogVideoX默认生成49帧(约6秒,8fps),Wan2.1的某些配置也是8-16fps。这比电影的24fps低很多。
为了流畅播放,工具会用帧插值(Frame Interpolation)技术”补帧”——在两帧之间插入AI生成的中间帧,把8fps提升到24fps。
帧插值的副作用
补帧虽然让视频看起来更流畅,但也带来了问题:
- 运动模糊:快速运动的物体可能出现不自然的模糊
- 闪烁:补帧算法偶尔判断错误,导致某些区域忽明忽暗
- “果冻效应”:物体边缘出现波浪形变形
这些就是你感觉AI视频”不太对劲”但又说不出原因的地方。
专业建议
如果你对视频质量要求高:
- 优先选择能直接生成高帧率的模型(如Sora、Kling专业模式)
- 后期用RIFE(开源帧插值工具)手动补帧,比工具自带的效果更好
- 如果做慢动作视频,低帧率反而是优势——慢放后帧与帧之间的间隔变大,更自然
有趣的事实:早期电影(1920年代)的拍摄帧率只有16-18fps。当我们今天看那些老电影被修复到24fps播放时,人物动作看起来总是”快进”的感觉——这和AI视频的帧率问题本质上是一样的。
下篇预告
明天早上8点:Day27早课——AI设计:海报与PPT。用AI生成专业级设计作品,零设计基础也能做出好看的海报和演示文稿。
明天下午5点:Day27晚课——视觉AI实战项目。把本周学的图像、视频、设计技能整合起来,完成一个完整的视觉AI创作项目。
发表回复