系列教程说明
这是「AI专家养成计划」系列教程的第45篇,共140篇。从AI零基础出发,每天进步一点点。早课以理论为主,帮你理解概念、建立框架——读完这篇,你就知道如何用文字精确描述你想要的画面,让AI画出你心中的图。
上篇回顾
昨天我们学习了AI图像生成的基础知识。三个核心要点:
- AI图像生成的原理:扩散模型从噪声中”去噪”还原图像,CLIP模型理解文字与图像的对应关系——这两者配合,让”文字变图片”成为现实
- 三大主流工具:Midjourney(审美最强)、Stable Diffusion(最灵活可定制)、DALL·E(最易上手)——各有适用场景,没有绝对最优
- 基本操作流程:选择平台→输入文字描述→生成图片→挑选调整——四步就能完成一次AI创作
今天我们深入一个关键技能——提示词(Prompt)。如果说AI图像生成是一支画笔,那提示词就是你握住画笔的手。写得好,AI画出惊艳作品;写不好,AI给你一堆”四不像”。
为什么提示词这么重要?
先做一个小实验。
假设你想让AI画一只猫。
你输入:”一只猫”
AI可能给你一只卡通猫、一只写实猫、一只趴在沙发上的猫、一只站在雨里的猫——完全随机,因为你给的信息太少了。
现在换个写法:”一只橘色的英国短毛猫,趴在阳光下的窗台上,窗外是下雨的城市街景,日系胶片摄影风格”
结果完全不同——AI会给你一张构图讲究、光影动人、风格统一的图片。
提示词就是你和AI之间的”翻译器”。 你脑子里有画面,但AI看不到你的脑子。提示词的作用,就是把你脑中的画面尽可能精确地”翻译”成AI能理解的语言。
一个有趣的事实:同一个AI模型,用不同的提示词,生成的图片质量可以差10倍。提示词工程(Prompt Engineering)已经成为一个独立的职业方向,顶级AI画师的月薪可以达到3-5万元。
提示词的五大要素
一个好的图像提示词,通常包含五个核心要素。记住这个框架,你就能写出80分以上的提示词。
要素一:主体(Subject)—— 画什么?
主体是提示词的核心,告诉AI”你要画什么”。
好的主体描述:具体、有细节、有动作。
| 一般描述 | 精确描述 |
|---|
|———|———|
| 一只狗 | 一只金毛寻回犬,正在草地上追逐飞盘 |
|---|---|
| 一个女孩 | 一个扎着马尾辫的亚洲女孩,穿着白色连衣裙,坐在秋千上 |
| 一座城市 | 未来主义风格的赛博朋克城市,霓虹灯闪烁的雨夜街道 |
关键技巧:越具体越好。不是”一个人”,而是”一个穿着灰色卫衣、戴着黑框眼镜、正在敲代码的年轻程序员”。
要素二:风格(Style)—— 什么画风?
风格决定了图片的”调性”,是提示词中最有魔力的部分。
常见的风格分类:
艺术流派风格:
- 油画风格(Oil painting)
- 水彩风格(Watercolor)
- 素描风格(Pencil sketch)
- 浮世绘风格(Ukiyo-e)
- 波普艺术风格(Pop Art)
摄影风格:
- 电影级摄影(Cinematic photography)
- 胶片摄影(Film photography)
- 航拍视角(Aerial photography)
- 微距摄影(Macro photography)
数字艺术风格:
- 赛博朋克(Cyberpunk)
- 蒸汽朋克(Steampunk)
- 像素艺术(Pixel art)
- 3D渲染(3D render)
- 扁平插画(Flat illustration)
知名艺术家风格:
- 宫崎骏风格(Studio Ghibli style)
- 梵高风格(Van Gogh style)
- 莫奈风格(Monet style)
实用建议:不确定用什么风格?试试加上”trending on ArtStation”(ArtStation热门风格),这是AI模型训练时见过最多的高质量图片聚集地,生成效果通常不错。
要素三:构图与视角(Composition)—— 怎么看?
构图决定了画面的”视角”,同样的主体,换个视角效果天差地别。
常用的构图描述:
- 特写(Close-up shot):聚焦面部或细节
- 半身像(Medium shot):腰部以上,适合人物
- 全身像(Full body shot):展示完整姿态
- 广角(Wide angle):展示大场景
- 鸟瞰视角(Bird’s eye view):从上往下看
- 仰视(Low angle):从下往上看,显得高大
- 对称构图(Symmetrical composition):画面左右对称
- 三分法构图(Rule of thirds):主体放在画面三分之一处
进阶技巧:加上镜头参数会更专业——”35mm镜头””85mm人像镜头””f/1.4大光圈虚化””鱼眼镜头效果”。
要素四:光影与氛围(Lighting & Mood)—— 什么感觉?
光影是图片的”灵魂”,同一场景不同光线可以传达完全不同的情绪。
光线类型:
- 柔和的自然光(Soft natural light)
- 黄金时刻(Golden hour):日出/日落时的暖光
- 蓝调时刻(Blue hour):日出前/日落后的冷蓝光
- 逆光(Backlighting):主体背后有光源,轮廓发光
- 霓虹灯光(Neon lighting):赛博朋克标配
- 伦勃朗光(Rembrandt lighting):经典肖像用光
- 体积光/丁达尔效应(Volumetric light / God rays):光穿过烟雾或树林
氛围描述:
- 梦幻的(Dreamy)
- 忧郁的(Melancholic)
- 温暖治愈的(Warm and cozy)
- 史诗感的(Epic)
- 神秘的(Mysterious)
- 宁静的(Serene)
要素五:技术参数(Technical Details)—— 什么画质?
技术参数是”加分项”,让AI知道你要什么品质的输出。
常用技术参数:
- 高画质:highly detailed, masterpiece, best quality, 8K, ultra HD
- 写实感:photorealistic, hyperrealistic, RAW photo
- 细节丰富:intricate details, sharp focus, fine textures
注意:这些”魔法词”在不同模型中效果不同。在Stable Diffusion社区模型中效果显著,在Midjourney中作用较小(MJ默认画质已经很高)。别过度堆砌,3-5个足够。
提示词的黄金公式
把五大要素组合起来,就是一个万能公式:
[主体] + [风格] + [构图] + [光影] + [技术参数]
举个例子:
“一位穿着红色汉服的年轻女子,站在雪中的竹林里,回首望向远方。中国水墨画风格,半身像构图,柔和的散射光,淡淡的雾气弥漫。highly detailed, masterpiece, 8K”
这个提示词五个要素齐全,AI几乎不可能”画偏”。
再来一个不同风格的:
“一只戴着飞行员护目镜的柴犬,驾驶一架老式双翼飞机穿过云层。复古海报风格(Vintage poster art),正面特写,明亮的阳光照射,充满冒险精神的氛围。flat illustration, bold colors, clean lines”
六个实用技巧
掌握了基本框架,再学六个进阶技巧,让你的提示词从80分提升到95分。
技巧一:权重控制
在Stable Diffusion中,可以用括号控制某个词的权重:
(关键词)= 权重×1.1((关键词))= 权重×1.21(关键词:1.5)= 权重×1.5(精确控制)
比如你想强调”蓝色眼睛”:(blue eyes:1.3) 会让AI更关注这个特征。
技巧二:负面提示词(Negative Prompt)
告诉AI”不要画什么”,和正面描述同样重要。
常用负面提示词:
`
ugly, deformed, blurry, low quality, extra fingers,
extra limbs, watermark, text, signature, cropped
`
特别是画人物时,加上负面提示词可以大幅减少”六指””面部扭曲”等常见问题。
技巧三:参考图片(Image-to-Image)
如果你有一张参考图但想改变风格,可以用”图生图”模式。上传参考图,同时输入提示词:”将这张照片转换为梵高星空风格”——AI会保留原图的构图,但应用新的画风。
技巧四:种子值固定(Seed)
每次生成图片时,AI会用一个随机”种子值”来决定画面细节。如果你生成了一张满意的图,记下它的种子值,下次可以用同样的种子+微调的提示词,在保持整体构图的基础上调整细节。
技巧五:分步描述(适用于复杂场景)
如果画面元素很多,可以按空间顺序描述:从前景到背景,从左到右。
“前景是一片盛开的薰衣草田,中景是一条蜿蜒的小路通向远处的古堡,背景是夕阳下的连绵山脉和紫色的天空。”
这种”镜头推移”式的描述,AI理解起来更准确。
技巧六:学习优秀案例
最快的提升方法是看别人怎么写。推荐几个学习渠道:
- Civitai.com:Stable Diffusion社区,每张图都附带完整提示词
- Midjourney官方画廊:Discord社区里的作品都可查看提示词
- PromptHero.com:专门收集和分享高质量提示词的网站
看到喜欢的图片,研究它的提示词,模仿、修改、迭代——这是提升最快的方式。
常见误区
误区一:提示词越长越好
错。 提示词不是越长越好,而是越精确越好。堆砌一堆不相关的形容词反而会干扰AI的理解。50-100个词通常是最优长度。
误区二:用中文写提示词
目前主流AI图像模型对英文的理解远好于中文。 因为训练数据以英文为主。建议用英文写提示词,或者用翻译工具先转成英文再输入。当然,部分国产模型(如通义万相、文心一格)对中文支持较好。
误区三:一次生成不满意就放弃
AI图像生成是概率事件,同一个提示词生成10次,可能有2-3张特别好,5-6张一般,1-2张完全跑偏。批量生成、从中挑选,才是正确的工作方式。不要指望一次就出神作。
误区四:只关注主体忽略背景
很多人只描述主体(”一只猫”),完全不提背景。结果AI随机生成一个奇怪的背景,破坏了整张图的美感。背景和主体同样重要。
今日行动项
今天回去做一件事:
打开你选择的AI图像生成工具(Midjourney、Stable Diffusion、或者国内的通义万相、文心一格),用今天学的”五大要素公式”写一个提示词,生成一张图片。
练习模板:
“一个[具体主体],在[具体场景]中,[正在做什么动作]。[画风]风格,[构图],[光线],[氛围]。[技术参数]”
填入你自己的内容,生成3-5张图,选出最好的一张保存下来。一周后你会发现,你的提示词水平已经有了质的飞跃。
📖 地铁深读:提示词背后的语言学秘密
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
为什么AI能”听懂”你的描述?
这个问题的答案,藏在一个叫CLIP的模型里。
2021年,OpenAI发布了CLIP(Contrastive Language-Image Pre-training)。这个模型做了一件看似简单但意义深远的事:它把文字和图片放在同一个”语义空间”里。
什么意思呢?想象一个巨大的多维空间。在这个空间里,”猫”这个词和猫的图片会被放在相近的位置,”狗”这个词和狗的图片也在附近,但”猫”和”狗”的距离就比较远。
CLIP通过学习4亿对”图片-文字”数据,建立了这种对应关系。当你输入”一只橘色的猫”时,CLIP能理解这五个字的含义,并在那个多维空间里找到对应的”方向”,引导图像生成模型朝那个方向”画”。
这就是为什么提示词越具体,效果越好。 “猫”在语义空间里是一个很大的区域,包含了各种各样的猫;而”一只趴在窗台上晒太阳的橘色英国短毛猫”是一个非常精确的点,AI更容易找到你想要的那个画面。
一个让人深思的现象:提示词的”潜规则”
你可能注意到了,很多AI画师的提示词里会出现一些”奇怪”的词:
- “trending on ArtStation”(ArtStation热门)
- “unreal engine”(虚幻引擎)
- “octane render”(Octane渲染器)
- “award-winning”(获奖作品)
这些词并不直接描述画面内容,但它们会引导AI生成更高质量的图片。原因是:这些词在训练数据中经常出现在高质量图片旁边。AI学到了这个关联,所以当你提到这些词时,它会倾向于生成更好的画质。
这就像你去餐厅说”给我来一道你们的招牌菜”——你没有指定具体菜品,但”招牌”这个词隐含了”你们最拿手的、最好吃的”这层意思。
但这里有一个值得警惕的问题:这些”潜规则”会导致AI生成的图片趋向同质化。当所有人都在用”trending on ArtStation”时,所有图片都开始长一个样。真正的高手,是能在掌握这些规则之后,跳出规则,找到自己独特的表达方式。
思考题:你的”视觉语言”是什么?
想一个问题:如果你只能用10个词来描述你最喜欢的视觉风格,你会选哪10个词?
比如:
- 有人喜欢”温暖、复古、胶片、慵懒、午后、咖啡、窗户、光斑、木头、安静”
- 有人喜欢”冷峻、赛博、霓虹、雨夜、金属、未来、孤独、蓝紫色、反射、高速”
- 有人喜欢”水墨、留白、意境、淡墨、山、云、孤舟、远山、宁静、诗”
这10个词就是你的”视觉DNA”。用它们组合出来的提示词,生成的图片会有强烈的个人风格。
留个悬念:Day 44左右,我们会讲到ComfyUI——那时候你就能搭建自己的图像生成工作流,把你的”视觉DNA”固化成一个可重复使用的模板,一键生成属于你风格的图片。
明日预告
明天早上8点:Day24——早课 风格迁移:照片变油画。我们将学习如何把一张普通照片变成梵高风格、宫崎骏风格、或者任何你想要的艺术风格——不需要会画画,只需要会写提示词。
今晚5点:Day23——晚课 提示词作画实战。早课学理论,晚课动手练——我们将用真实的AI工具,一步步写出提示词、生成图片、调整优化,完成你的第一幅AI画作。
发表回复