Day26——晚课 AI视频:动态内容创作

作者:

系列教程说明

这是「AI专家养成计划」系列教程的第52篇,共140篇。晚课以实战为主,手把手教你操作。今天我们将从早课的”了解AI视频”进阶到”动手做AI视频”——用4种不同工具生成视频,掌握提示词技巧,最终完成一个完整的短视频作品。

上篇回顾

今天早上我们学习了AI视频的技术原理和工具全景。三个核心要点:

  • AI视频比图像难得多:需要同时处理空间和时间两个维度,计算量是图片的几十到上百倍
  • 三代技术演进:GAN → Transformer → 扩散模型,当前主流是基于扩散模型的视频生成
  • 工具选择:商业工具(Sora、Kling、Runway)质量高但有成本,开源工具(CogVideoX、Wan2.1)免费灵活

早课是”知其然”,晚课是”知其所以然”。接下来,我们动手实操。


实操一:文生视频进阶——提示词的艺术

早课中我们用Kling做了一个简单的文生视频。现在来提升提示词的精准度。

提示词公式

一个好的视频提示词 = 主体 + 动作 + 环境 + 光线 + 镜头 + 风格

举个例子,对比一下:

基础版

`

一只猫在走路

`

进阶版

`

一只橘色的英短猫在雨后的石板路上慢悠悠地散步,地面有积水倒映着路灯,

暖黄色的路灯从侧方照亮猫的轮廓,背景是模糊的古镇街景,

中景跟随镜头,电影感色调,浅景深

`

区别在哪?进阶版把每一个维度都填充了细节。AI视频模型会根据这些细节生成更精准、更有质感的画面。

5个实战提示词模板

直接拿去用,根据你的需求修改:

模板1:产品展示

`

[产品名称]放在[材质]桌面上,[光源方向]打光,

镜头缓慢环绕产品旋转360度,背景纯色渐变,

产品表面反射细腻光泽,商业广告质感,4K

`

模板2:自然风光

`

[时间]的[地点],[天气现象],[主体]在画面中[动作],

[远景/中景/特写]镜头,[色调]调色,航拍/地面视角

`

模板3:人物动作

`

一个[外貌描述]的人在[场景]中[动作],

穿着[服装描述],[表情],镜头[运动方式],

自然光线,[风格]画面风格

`

模板4:美食特写

`

[食物名称]放在[餐具]上,[蒸汽/酱汁/光泽]细节,

[角度]角度拍摄,浅景深虚化背景,

暖色调,食物摄影风格,高清

`

模板5:科技感场景

`

[主体]在[科技感环境]中[动作],

蓝紫色霓虹光效,粒子特效,数据流在背景中流动,

赛博朋克风格,电影级CG画质

`

小技巧:在Kling或可灵中,创意度参数建议设0.5-0.7。低于0.5画面太”死板”,高于0.7容易出现变形和闪烁。


实操二:图生视频——更可控的创作方式

文生视频的随机性较大。如果你对画面有更精确的要求,图生视频(Image-to-Video)是更好的选择。

工作流程

`

构思画面 → AI生成首帧图片 → 精修图片 → 图片”动”起来 → 后期拼接

`

第一步:用AI生成首帧图片

用Midjourney、Stable Diffusion或DALL-E生成一张你想要的”起始画面”。

比如你想做一段”樱花飘落”的视频,先生成一张高质量的樱花图片:

`

一棵盛开的樱花树,花瓣飘落,背景是日式庭院,

柔和的自然光线,水彩画风格,高清细节

`

第二步:图片转视频

把生成的图片上传到Kling、Runway或Pika,选择”图生视频”模式。

关键:补充运动描述。图片是静止的,你需要告诉AI”怎么动”:

`

樱花花瓣从树上飘落,在微风中缓缓旋转,

镜头缓慢向上推移,露出更多树冠

`

为什么要用图生视频?

方式 可控性 随机性 适合场景

|——|——–|——–|———-|

文生视频 探索创意、快速原型
图生视频 精确构图、品牌素材、系列内容

进阶技巧:先用Stable Diffusion生成一张精确的首帧(控制构图、色调、主体),再用Kling把它”动起来”。这是目前专业创作者最常用的工作流。


实操三:视频转视频——风格迁移

你有一段普通视频,想把它变成油画风格?卡通风格?赛博朋克风格?视频转视频(Video-to-Video)可以做到。

操作步骤(以Runway为例)

  1. 上传你的原始视频
  2. 选择”Video to Video”模式
  3. 输入风格描述:

`

梵高星空风格,厚重的油画笔触,旋涡状的天空,

金黄色和深蓝色为主色调

`

  1. 调整”风格强度”——太低看不出变化,太高会丢失原始内容
  2. 生成并预览

实用场景

  • 旅行视频:把手机拍的普通风景变成动漫风格、水彩风格
  • 产品视频:给产品展示视频换背景、换风格
  • 社交媒体:把日常视频变成艺术感十足的短视频,增加传播力

注意:视频转视频会保留原始视频的动作和构图,只改变视觉风格。所以原始视频的质量很重要——抖动、模糊的原视频,转出来也不会好看。


实操四:多片段拼接——做一个完整短视频

单个AI视频通常只有4-10秒。要做一个完整的短视频(30秒-1分钟),需要多片段拼接

项目实战:制作一段”四季变换”短视频

目标:制作一段30秒的”同一棵树的四季变换”短视频。

步骤1:规划分镜

片段 时长 内容 生成方式

|——|——|——|———-|

5秒 嫩绿新芽,樱花盛开 图生视频
5秒 茂密绿荫,蝉鸣 图生视频
5秒 金黄落叶,微风 图生视频
5秒 白雪覆盖,宁静 图生视频
片头 3秒 标题动画 文生视频
片尾 3秒 结束语 文生视频

步骤2:生成首帧

用Stable Diffusion分别生成4张季节图片,确保构图一致(同一棵树、同一角度)。技巧:用同一张”控制图”(ControlNet的Reference模式)保持构图统一。

步骤3:图生视频

分别把4张图片上传到Kling,补充运动描述:

  • 春:花瓣缓缓飘落,新芽慢慢展开
  • 夏:树叶在微风中轻轻摇曳
  • 秋:金黄的树叶旋转飘落
  • 冬:雪花缓缓飘落,积雪逐渐增厚

步骤4:拼接与后期

用剪映或CapCut把6个片段按顺序排列,添加:

  • 转场:片段之间加溶解转场(0.5秒)
  • 音乐:选一首舒缓的纯音乐
  • 字幕:每个季节加上名称
  • 变速:如果某个片段节奏不对,微调速度

关键提醒:生成多个片段时,保持提示词中”风格词”一致(如都用”电影级””暖色调”),否则拼起来会风格割裂。


实操五:开源工具本地部署

如果你想用免费、不受限制的方案,可以本地部署开源视频生成模型。

方案一:CogVideoX(推荐新手)

硬件要求:显存 12GB+(如RTX 3060 12GB、RTX 4070)

安装步骤

`bash

# 克隆仓库

git clone https://github.com/THUDM/CogVideo.git

cd CogVideo

# 创建虚拟环境

python -m venv cogvideo-env

source cogvideo-env/bin/activate

# 安装依赖

pip install -r requirements.txt

`

生成视频

`python

from diffusers import CogVideoXPipeline

import torch

pipe = CogVideoXPipeline.from_pretrained(

“THUDM/CogVideoX-2b”,

torch_dtype=torch.float16

).to(“cuda”)

video = pipe(

prompt=”一只猫在海边散步,夕阳西下,电影级画面”,

num_frames=49,

guidance_scale=6.0

).frames[0]

# 保存视频

from diffusers.utils import export_to_video

export_to_video(video, “output.mp4”, fps=8)

`

方案二:Wan2.1(ComfyUI用户推荐)

如果你已经在用ComfyUI做图片生成,Wan2.1是最自然的选择:

  1. 在ComfyUI Manager中搜索安装”Wan Video”节点
  2. 下载Wan2.1模型(1.3B版本适合12GB显存,14B需要24GB+)
  3. 使用ComfyUI工作流:文本编码 → 视频解码 → 导出

提醒:本地生成视频的速度比云端慢很多。一段5秒视频,RTX 3060可能需要10-20分钟。如果你的显卡显存不够,可以先用Google Colab的免费GPU体验。


今日总结

  • 提示词公式:主体+动作+环境+光线+镜头+风格,六个维度填满细节
  • 三种生成方式:文生视频(创意探索)、图生视频(精确可控)、视频转视频(风格变换)
  • 多片段拼接:保持风格词一致,用后期工具加转场和音乐

今日行动项

  • 完成一个图生视频:用Stable Diffusion生成一张图片,再用Kling把它”动起来”
  • 尝试视频转视频:找一段手机拍的视频,用Runway或Pika给它换一个艺术风格
  • 规划你的短视频项目:画一个4-6个片段的分镜表,明天尝试生成

📖 地铁深读:AI视频的”帧率”秘密

这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。

你可能注意到,AI生成的视频看起来总有一种”不太真实”的感觉,但又说不清哪里不对。其中一个关键原因是帧率

什么是帧率?

帧率(FPS,Frames Per Second)是每秒钟播放的画面数量。人眼对流畅运动的感知阈值大约在24帧/秒——这也是电影的标准帧率。电视通常是30帧/秒,游戏追求60帧/秒甚至更高。

AI视频的帧率问题

大多数AI视频工具生成的原始帧率并不高。比如CogVideoX默认生成49帧(约6秒,8fps),Wan2.1的某些配置也是8-16fps。这比电影的24fps低很多。

为了流畅播放,工具会用帧插值(Frame Interpolation)技术”补帧”——在两帧之间插入AI生成的中间帧,把8fps提升到24fps。

帧插值的副作用

补帧虽然让视频看起来更流畅,但也带来了问题:

  • 运动模糊:快速运动的物体可能出现不自然的模糊
  • 闪烁:补帧算法偶尔判断错误,导致某些区域忽明忽暗
  • “果冻效应”:物体边缘出现波浪形变形

这些就是你感觉AI视频”不太对劲”但又说不出原因的地方。

专业建议

如果你对视频质量要求高:

  1. 优先选择能直接生成高帧率的模型(如Sora、Kling专业模式)
  2. 后期用RIFE(开源帧插值工具)手动补帧,比工具自带的效果更好
  3. 如果做慢动作视频,低帧率反而是优势——慢放后帧与帧之间的间隔变大,更自然

有趣的事实:早期电影(1920年代)的拍摄帧率只有16-18fps。当我们今天看那些老电影被修复到24fps播放时,人物动作看起来总是”快进”的感觉——这和AI视频的帧率问题本质上是一样的。


下篇预告

明天早上8点:Day27早课——AI设计:海报与PPT。用AI生成专业级设计作品,零设计基础也能做出好看的海报和演示文稿。

明天下午5点:Day27晚课——视觉AI实战项目。把本周学的图像、视频、设计技能整合起来,完成一个完整的视觉AI创作项目。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注