Day23——早课提示词作画：描述你想要的画面

系列教程说明

这是「AI专家养成计划」系列教程的第45篇，共140篇。从AI零基础出发，每天进步一点点。早课以理论为主，帮你理解概念、建立框架——读完这篇，你就知道如何用文字精确描述你想要的画面，让AI画出你心中的图。

上篇回顾

昨天我们学习了AI图像生成的基础知识。三个核心要点：

AI图像生成的原理：扩散模型从噪声中”去噪”还原图像，CLIP模型理解文字与图像的对应关系——这两者配合，让”文字变图片”成为现实
三大主流工具：Midjourney（审美最强）、Stable Diffusion（最灵活可定制）、DALL·E（最易上手）——各有适用场景，没有绝对最优
基本操作流程：选择平台→输入文字描述→生成图片→挑选调整——四步就能完成一次AI创作

今天我们深入一个关键技能——提示词（Prompt）。如果说AI图像生成是一支画笔，那提示词就是你握住画笔的手。写得好，AI画出惊艳作品；写不好，AI给你一堆”四不像”。

为什么提示词这么重要？

先做一个小实验。

假设你想让AI画一只猫。

你输入：”一只猫”

AI可能给你一只卡通猫、一只写实猫、一只趴在沙发上的猫、一只站在雨里的猫——完全随机，因为你给的信息太少了。

现在换个写法：”一只橘色的英国短毛猫，趴在阳光下的窗台上，窗外是下雨的城市街景，日系胶片摄影风格”

结果完全不同——AI会给你一张构图讲究、光影动人、风格统一的图片。

提示词就是你和AI之间的”翻译器”。 你脑子里有画面，但AI看不到你的脑子。提示词的作用，就是把你脑中的画面尽可能精确地”翻译”成AI能理解的语言。

一个有趣的事实：同一个AI模型，用不同的提示词，生成的图片质量可以差10倍。提示词工程（Prompt Engineering）已经成为一个独立的职业方向，顶级AI画师的月薪可以达到3-5万元。

提示词的五大要素

一个好的图像提示词，通常包含五个核心要素。记住这个框架，你就能写出80分以上的提示词。

要素一：主体（Subject）—— 画什么？

主体是提示词的核心，告诉AI”你要画什么”。

好的主体描述：具体、有细节、有动作。

一般描述	精确描述

|———|———|

一只狗	一只金毛寻回犬，正在草地上追逐飞盘
一个女孩	一个扎着马尾辫的亚洲女孩，穿着白色连衣裙，坐在秋千上
一座城市	未来主义风格的赛博朋克城市，霓虹灯闪烁的雨夜街道

关键技巧：越具体越好。不是”一个人”，而是”一个穿着灰色卫衣、戴着黑框眼镜、正在敲代码的年轻程序员”。

要素二：风格（Style）—— 什么画风？

风格决定了图片的”调性”，是提示词中最有魔力的部分。

常见的风格分类：

艺术流派风格：

油画风格（Oil painting）
水彩风格（Watercolor）
素描风格（Pencil sketch）
浮世绘风格（Ukiyo-e）
波普艺术风格（Pop Art）

摄影风格：

电影级摄影（Cinematic photography）
胶片摄影（Film photography）
航拍视角（Aerial photography）
微距摄影（Macro photography）

数字艺术风格：

赛博朋克（Cyberpunk）
蒸汽朋克（Steampunk）
像素艺术（Pixel art）
3D渲染（3D render）
扁平插画（Flat illustration）

知名艺术家风格：

宫崎骏风格（Studio Ghibli style）
梵高风格（Van Gogh style）
莫奈风格（Monet style）

实用建议：不确定用什么风格？试试加上”trending on ArtStation”（ArtStation热门风格），这是AI模型训练时见过最多的高质量图片聚集地，生成效果通常不错。

要素三：构图与视角（Composition）—— 怎么看？

构图决定了画面的”视角”，同样的主体，换个视角效果天差地别。

常用的构图描述：

特写（Close-up shot）：聚焦面部或细节
半身像（Medium shot）：腰部以上，适合人物
全身像（Full body shot）：展示完整姿态
广角（Wide angle）：展示大场景
鸟瞰视角（Bird’s eye view）：从上往下看
仰视（Low angle）：从下往上看，显得高大
对称构图（Symmetrical composition）：画面左右对称
三分法构图（Rule of thirds）：主体放在画面三分之一处

进阶技巧：加上镜头参数会更专业——”35mm镜头””85mm人像镜头””f/1.4大光圈虚化””鱼眼镜头效果”。

要素四：光影与氛围（Lighting & Mood）—— 什么感觉？

光影是图片的”灵魂”，同一场景不同光线可以传达完全不同的情绪。

光线类型：

柔和的自然光（Soft natural light）
黄金时刻（Golden hour）：日出/日落时的暖光
蓝调时刻（Blue hour）：日出前/日落后的冷蓝光
逆光（Backlighting）：主体背后有光源，轮廓发光
霓虹灯光（Neon lighting）：赛博朋克标配
伦勃朗光（Rembrandt lighting）：经典肖像用光
体积光/丁达尔效应（Volumetric light / God rays）：光穿过烟雾或树林

氛围描述：

梦幻的（Dreamy）
忧郁的（Melancholic）
温暖治愈的（Warm and cozy）
史诗感的（Epic）
神秘的（Mysterious）
宁静的（Serene）

要素五：技术参数（Technical Details）—— 什么画质？

技术参数是”加分项”，让AI知道你要什么品质的输出。

常用技术参数：

高画质：highly detailed, masterpiece, best quality, 8K, ultra HD
写实感：photorealistic, hyperrealistic, RAW photo
细节丰富：intricate details, sharp focus, fine textures

注意：这些”魔法词”在不同模型中效果不同。在Stable Diffusion社区模型中效果显著，在Midjourney中作用较小（MJ默认画质已经很高）。别过度堆砌，3-5个足够。

提示词的黄金公式

把五大要素组合起来，就是一个万能公式：

[主体] + [风格] + [构图] + [光影] + [技术参数]

举个例子：

“一位穿着红色汉服的年轻女子，站在雪中的竹林里，回首望向远方。中国水墨画风格，半身像构图，柔和的散射光，淡淡的雾气弥漫。highly detailed, masterpiece, 8K”

这个提示词五个要素齐全，AI几乎不可能”画偏”。

再来一个不同风格的：

“一只戴着飞行员护目镜的柴犬，驾驶一架老式双翼飞机穿过云层。复古海报风格（Vintage poster art），正面特写，明亮的阳光照射，充满冒险精神的氛围。flat illustration, bold colors, clean lines”

六个实用技巧

掌握了基本框架，再学六个进阶技巧，让你的提示词从80分提升到95分。

技巧一：权重控制

在Stable Diffusion中，可以用括号控制某个词的权重：

(关键词) = 权重×1.1
((关键词)) = 权重×1.21
(关键词:1.5) = 权重×1.5（精确控制）

比如你想强调”蓝色眼睛”：(blue eyes:1.3) 会让AI更关注这个特征。

技巧二：负面提示词（Negative Prompt）

告诉AI”不要画什么”，和正面描述同样重要。

常用负面提示词：

ugly, deformed, blurry, low quality, extra fingers,

extra limbs, watermark, text, signature, cropped

特别是画人物时，加上负面提示词可以大幅减少”六指””面部扭曲”等常见问题。

技巧三：参考图片（Image-to-Image）

如果你有一张参考图但想改变风格，可以用”图生图”模式。上传参考图，同时输入提示词：”将这张照片转换为梵高星空风格”——AI会保留原图的构图，但应用新的画风。

技巧四：种子值固定（Seed）

每次生成图片时，AI会用一个随机”种子值”来决定画面细节。如果你生成了一张满意的图，记下它的种子值，下次可以用同样的种子+微调的提示词，在保持整体构图的基础上调整细节。

技巧五：分步描述（适用于复杂场景）

如果画面元素很多，可以按空间顺序描述：从前景到背景，从左到右。

“前景是一片盛开的薰衣草田，中景是一条蜿蜒的小路通向远处的古堡，背景是夕阳下的连绵山脉和紫色的天空。”

这种”镜头推移”式的描述，AI理解起来更准确。

技巧六：学习优秀案例

最快的提升方法是看别人怎么写。推荐几个学习渠道：

Civitai.com：Stable Diffusion社区，每张图都附带完整提示词
Midjourney官方画廊：Discord社区里的作品都可查看提示词
PromptHero.com：专门收集和分享高质量提示词的网站

看到喜欢的图片，研究它的提示词，模仿、修改、迭代——这是提升最快的方式。

常见误区

误区一：提示词越长越好

错。提示词不是越长越好，而是越精确越好。堆砌一堆不相关的形容词反而会干扰AI的理解。50-100个词通常是最优长度。

误区二：用中文写提示词

目前主流AI图像模型对英文的理解远好于中文。 因为训练数据以英文为主。建议用英文写提示词，或者用翻译工具先转成英文再输入。当然，部分国产模型（如通义万相、文心一格）对中文支持较好。

误区三：一次生成不满意就放弃

AI图像生成是概率事件，同一个提示词生成10次，可能有2-3张特别好，5-6张一般，1-2张完全跑偏。批量生成、从中挑选，才是正确的工作方式。不要指望一次就出神作。

误区四：只关注主体忽略背景

很多人只描述主体（”一只猫”），完全不提背景。结果AI随机生成一个奇怪的背景，破坏了整张图的美感。背景和主体同样重要。

今日行动项

今天回去做一件事：

打开你选择的AI图像生成工具（Midjourney、Stable Diffusion、或者国内的通义万相、文心一格），用今天学的”五大要素公式”写一个提示词，生成一张图片。

练习模板：

“一个[具体主体]，在[具体场景]中，[正在做什么动作]。[画风]风格，[构图]，[光线]，[氛围]。[技术参数]”

填入你自己的内容，生成3-5张图，选出最好的一张保存下来。一周后你会发现，你的提示词水平已经有了质的飞跃。

📖 地铁深读：提示词背后的语言学秘密

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

为什么AI能”听懂”你的描述？

这个问题的答案，藏在一个叫CLIP的模型里。

2021年，OpenAI发布了CLIP（Contrastive Language-Image Pre-training）。这个模型做了一件看似简单但意义深远的事：它把文字和图片放在同一个”语义空间”里。

什么意思呢？想象一个巨大的多维空间。在这个空间里，”猫”这个词和猫的图片会被放在相近的位置，”狗”这个词和狗的图片也在附近，但”猫”和”狗”的距离就比较远。

CLIP通过学习4亿对”图片-文字”数据，建立了这种对应关系。当你输入”一只橘色的猫”时，CLIP能理解这五个字的含义，并在那个多维空间里找到对应的”方向”，引导图像生成模型朝那个方向”画”。

这就是为什么提示词越具体，效果越好。 “猫”在语义空间里是一个很大的区域，包含了各种各样的猫；而”一只趴在窗台上晒太阳的橘色英国短毛猫”是一个非常精确的点，AI更容易找到你想要的那个画面。

一个让人深思的现象：提示词的”潜规则”

你可能注意到了，很多AI画师的提示词里会出现一些”奇怪”的词：

“trending on ArtStation”（ArtStation热门）
“unreal engine”（虚幻引擎）
“octane render”（Octane渲染器）
“award-winning”（获奖作品）

这些词并不直接描述画面内容，但它们会引导AI生成更高质量的图片。原因是：这些词在训练数据中经常出现在高质量图片旁边。AI学到了这个关联，所以当你提到这些词时，它会倾向于生成更好的画质。

这就像你去餐厅说”给我来一道你们的招牌菜”——你没有指定具体菜品，但”招牌”这个词隐含了”你们最拿手的、最好吃的”这层意思。

但这里有一个值得警惕的问题：这些”潜规则”会导致AI生成的图片趋向同质化。当所有人都在用”trending on ArtStation”时，所有图片都开始长一个样。真正的高手，是能在掌握这些规则之后，跳出规则，找到自己独特的表达方式。

思考题：你的”视觉语言”是什么？

想一个问题：如果你只能用10个词来描述你最喜欢的视觉风格，你会选哪10个词？

比如：

有人喜欢”温暖、复古、胶片、慵懒、午后、咖啡、窗户、光斑、木头、安静”
有人喜欢”冷峻、赛博、霓虹、雨夜、金属、未来、孤独、蓝紫色、反射、高速”
有人喜欢”水墨、留白、意境、淡墨、山、云、孤舟、远山、宁静、诗”

这10个词就是你的”视觉DNA”。用它们组合出来的提示词，生成的图片会有强烈的个人风格。

留个悬念：Day 44左右，我们会讲到ComfyUI——那时候你就能搭建自己的图像生成工作流，把你的”视觉DNA”固化成一个可重复使用的模板，一键生成属于你风格的图片。

明日预告

明天早上8点：Day24——早课风格迁移：照片变油画。我们将学习如何把一张普通照片变成梵高风格、宫崎骏风格、或者任何你想要的艺术风格——不需要会画画，只需要会写提示词。

今晚5点：Day23——晚课提示词作画实战。早课学理论，晚课动手练——我们将用真实的AI工具，一步步写出提示词、生成图片、调整优化，完成你的第一幅AI画作。

Day23——早课 提示词作画：描述你想要的画面