Day26——晚课 AI视频：动态内容创作

系列教程说明

这是「AI专家养成计划」系列教程的第52篇，共140篇。晚课以实战为主，手把手教你操作。今天我们将从早课的”了解AI视频”进阶到”动手做AI视频”——用4种不同工具生成视频，掌握提示词技巧，最终完成一个完整的短视频作品。

上篇回顾

今天早上我们学习了AI视频的技术原理和工具全景。三个核心要点：

AI视频比图像难得多：需要同时处理空间和时间两个维度，计算量是图片的几十到上百倍
三代技术演进：GAN → Transformer → 扩散模型，当前主流是基于扩散模型的视频生成
工具选择：商业工具（Sora、Kling、Runway）质量高但有成本，开源工具（CogVideoX、Wan2.1）免费灵活

早课是”知其然”，晚课是”知其所以然”。接下来，我们动手实操。

实操一：文生视频进阶——提示词的艺术

早课中我们用Kling做了一个简单的文生视频。现在来提升提示词的精准度。

提示词公式

一个好的视频提示词 = 主体 + 动作 + 环境 + 光线 + 镜头 + 风格

举个例子，对比一下：

基础版：

一只猫在走路

进阶版：

一只橘色的英短猫在雨后的石板路上慢悠悠地散步，地面有积水倒映着路灯，

暖黄色的路灯从侧方照亮猫的轮廓，背景是模糊的古镇街景，

中景跟随镜头，电影感色调，浅景深

区别在哪？进阶版把每一个维度都填充了细节。AI视频模型会根据这些细节生成更精准、更有质感的画面。

5个实战提示词模板

直接拿去用，根据你的需求修改：

模板1：产品展示

[产品名称]放在[材质]桌面上，[光源方向]打光，

镜头缓慢环绕产品旋转360度，背景纯色渐变，

产品表面反射细腻光泽，商业广告质感，4K

模板2：自然风光

[时间]的[地点]，[天气现象]，[主体]在画面中[动作]，

[远景/中景/特写]镜头，[色调]调色，航拍/地面视角

模板3：人物动作

一个[外貌描述]的人在[场景]中[动作]，

穿着[服装描述]，[表情]，镜头[运动方式]，

自然光线，[风格]画面风格

模板4：美食特写

[食物名称]放在[餐具]上，[蒸汽/酱汁/光泽]细节，

[角度]角度拍摄，浅景深虚化背景，

暖色调，食物摄影风格，高清

模板5：科技感场景

[主体]在[科技感环境]中[动作]，

蓝紫色霓虹光效，粒子特效，数据流在背景中流动，

赛博朋克风格，电影级CG画质

小技巧：在Kling或可灵中，创意度参数建议设0.5-0.7。低于0.5画面太”死板”，高于0.7容易出现变形和闪烁。

实操二：图生视频——更可控的创作方式

文生视频的随机性较大。如果你对画面有更精确的要求，图生视频（Image-to-Video）是更好的选择。

工作流程

构思画面 → AI生成首帧图片 → 精修图片 → 图片”动”起来 → 后期拼接

第一步：用AI生成首帧图片

用Midjourney、Stable Diffusion或DALL-E生成一张你想要的”起始画面”。

比如你想做一段”樱花飘落”的视频，先生成一张高质量的樱花图片：

一棵盛开的樱花树，花瓣飘落，背景是日式庭院，

柔和的自然光线，水彩画风格，高清细节

第二步：图片转视频

把生成的图片上传到Kling、Runway或Pika，选择”图生视频”模式。

关键：补充运动描述。图片是静止的，你需要告诉AI”怎么动”：

樱花花瓣从树上飘落，在微风中缓缓旋转，

镜头缓慢向上推移，露出更多树冠

为什么要用图生视频？

方式	可控性	随机性	适合场景

|——|——–|——–|———-|

文生视频	低	高	探索创意、快速原型
图生视频	高	低	精确构图、品牌素材、系列内容

进阶技巧：先用Stable Diffusion生成一张精确的首帧（控制构图、色调、主体），再用Kling把它”动起来”。这是目前专业创作者最常用的工作流。

实操三：视频转视频——风格迁移

你有一段普通视频，想把它变成油画风格？卡通风格？赛博朋克风格？视频转视频（Video-to-Video）可以做到。

操作步骤（以Runway为例）

上传你的原始视频
选择”Video to Video”模式
输入风格描述：

梵高星空风格，厚重的油画笔触，旋涡状的天空，

金黄色和深蓝色为主色调

调整”风格强度”——太低看不出变化，太高会丢失原始内容
生成并预览

实用场景

旅行视频：把手机拍的普通风景变成动漫风格、水彩风格
产品视频：给产品展示视频换背景、换风格
社交媒体：把日常视频变成艺术感十足的短视频，增加传播力

注意：视频转视频会保留原始视频的动作和构图，只改变视觉风格。所以原始视频的质量很重要——抖动、模糊的原视频，转出来也不会好看。

实操四：多片段拼接——做一个完整短视频

单个AI视频通常只有4-10秒。要做一个完整的短视频（30秒-1分钟），需要多片段拼接。

项目实战：制作一段”四季变换”短视频

目标：制作一段30秒的”同一棵树的四季变换”短视频。

步骤1：规划分镜

片段	时长	内容	生成方式

|——|——|——|———-|

春	5秒	嫩绿新芽，樱花盛开	图生视频
夏	5秒	茂密绿荫，蝉鸣	图生视频
秋	5秒	金黄落叶，微风	图生视频
冬	5秒	白雪覆盖，宁静	图生视频
片头	3秒	标题动画	文生视频
片尾	3秒	结束语	文生视频

步骤2：生成首帧

用Stable Diffusion分别生成4张季节图片，确保构图一致（同一棵树、同一角度）。技巧：用同一张”控制图”（ControlNet的Reference模式）保持构图统一。

步骤3：图生视频

分别把4张图片上传到Kling，补充运动描述：

春：花瓣缓缓飘落，新芽慢慢展开
夏：树叶在微风中轻轻摇曳
秋：金黄的树叶旋转飘落
冬：雪花缓缓飘落，积雪逐渐增厚

步骤4：拼接与后期

用剪映或CapCut把6个片段按顺序排列，添加：

转场：片段之间加溶解转场（0.5秒）
音乐：选一首舒缓的纯音乐
字幕：每个季节加上名称
变速：如果某个片段节奏不对，微调速度

关键提醒：生成多个片段时，保持提示词中”风格词”一致（如都用”电影级””暖色调”），否则拼起来会风格割裂。

实操五：开源工具本地部署

如果你想用免费、不受限制的方案，可以本地部署开源视频生成模型。

方案一：CogVideoX（推荐新手）

硬件要求：显存 12GB+（如RTX 3060 12GB、RTX 4070）

安装步骤：

`bash

# 克隆仓库

git clone https://github.com/THUDM/CogVideo.git

cd CogVideo

# 创建虚拟环境

python -m venv cogvideo-env

source cogvideo-env/bin/activate

# 安装依赖

pip install -r requirements.txt

生成视频：

`python

from diffusers import CogVideoXPipeline

import torch

pipe = CogVideoXPipeline.from_pretrained(

“THUDM/CogVideoX-2b”,

torch_dtype=torch.float16

).to(“cuda”)

video = pipe(

prompt=”一只猫在海边散步，夕阳西下，电影级画面”,

num_frames=49,

guidance_scale=6.0

).frames[0]

# 保存视频

from diffusers.utils import export_to_video

export_to_video(video, “output.mp4”, fps=8)

方案二：Wan2.1（ComfyUI用户推荐）

如果你已经在用ComfyUI做图片生成，Wan2.1是最自然的选择：

在ComfyUI Manager中搜索安装”Wan Video”节点
下载Wan2.1模型（1.3B版本适合12GB显存，14B需要24GB+）
使用ComfyUI工作流：文本编码 → 视频解码 → 导出

提醒：本地生成视频的速度比云端慢很多。一段5秒视频，RTX 3060可能需要10-20分钟。如果你的显卡显存不够，可以先用Google Colab的免费GPU体验。

今日总结

提示词公式：主体+动作+环境+光线+镜头+风格，六个维度填满细节
三种生成方式：文生视频（创意探索）、图生视频（精确可控）、视频转视频（风格变换）
多片段拼接：保持风格词一致，用后期工具加转场和音乐

今日行动项

完成一个图生视频：用Stable Diffusion生成一张图片，再用Kling把它”动起来”
尝试视频转视频：找一段手机拍的视频，用Runway或Pika给它换一个艺术风格
规划你的短视频项目：画一个4-6个片段的分镜表，明天尝试生成

📖 地铁深读：AI视频的”帧率”秘密

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

你可能注意到，AI生成的视频看起来总有一种”不太真实”的感觉，但又说不清哪里不对。其中一个关键原因是帧率。

什么是帧率？

帧率（FPS，Frames Per Second）是每秒钟播放的画面数量。人眼对流畅运动的感知阈值大约在24帧/秒——这也是电影的标准帧率。电视通常是30帧/秒，游戏追求60帧/秒甚至更高。

AI视频的帧率问题

大多数AI视频工具生成的原始帧率并不高。比如CogVideoX默认生成49帧（约6秒，8fps），Wan2.1的某些配置也是8-16fps。这比电影的24fps低很多。

为了流畅播放，工具会用帧插值（Frame Interpolation）技术”补帧”——在两帧之间插入AI生成的中间帧，把8fps提升到24fps。

帧插值的副作用

补帧虽然让视频看起来更流畅，但也带来了问题：

运动模糊：快速运动的物体可能出现不自然的模糊
闪烁：补帧算法偶尔判断错误，导致某些区域忽明忽暗
“果冻效应”：物体边缘出现波浪形变形

这些就是你感觉AI视频”不太对劲”但又说不出原因的地方。

专业建议

如果你对视频质量要求高：

优先选择能直接生成高帧率的模型（如Sora、Kling专业模式）
后期用RIFE（开源帧插值工具）手动补帧，比工具自带的效果更好
如果做慢动作视频，低帧率反而是优势——慢放后帧与帧之间的间隔变大，更自然

有趣的事实：早期电影（1920年代）的拍摄帧率只有16-18fps。当我们今天看那些老电影被修复到24fps播放时，人物动作看起来总是”快进”的感觉——这和AI视频的帧率问题本质上是一样的。

下篇预告

明天早上8点：Day27早课——AI设计：海报与PPT。用AI生成专业级设计作品，零设计基础也能做出好看的海报和演示文稿。

明天下午5点：Day27晚课——视觉AI实战项目。把本周学的图像、视频、设计技能整合起来，完成一个完整的视觉AI创作项目。

Day26——晚课 AI视频：动态内容创作

系列教程说明

上篇回顾

实操一：文生视频进阶——提示词的艺术

提示词公式

5个实战提示词模板

实操二：图生视频——更可控的创作方式

工作流程

第一步：用AI生成首帧图片

第二步：图片转视频

为什么要用图生视频？

实操三：视频转视频——风格迁移

操作步骤（以Runway为例）

实用场景

实操四：多片段拼接——做一个完整短视频

项目实战：制作一段”四季变换”短视频

实操五：开源工具本地部署

方案一：CogVideoX（推荐新手）

方案二：Wan2.1（ComfyUI用户推荐）

今日总结

今日行动项

📖 地铁深读：AI视频的”帧率”秘密

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day26——晚课 AI视频：动态内容创作

Day26——午课 AI巨头融资与价格战并行

Day26——早课 AI视频：动态内容创作

Day25——晚课 AI图像编辑：修图新方式

发表回复取消回复