Day22——晚课 AI图像生成入门

系列教程说明

这是「AI专家养成计划」系列教程的第44篇，共140篇。从AI零基础出发，每天进步一点点。晚课以实践为主，手把手带你操作——读完这篇，你就能用AI工具独立生成高质量图片。

上篇回顾

今天早上我们学习了AI图像生成的理论基础。三个核心要点：

扩散模型是当前主流：AI从噪声中一步步”还原”图像，你的文字描述引导生成方向
三大工具各有优势：Stable Diffusion（开源免费可定制）、Midjourney（艺术感最强）、DALL·E 3（理解力最强）
提示词决定80%的质量：主体+风格+质量三个要素缺一不可

今晚，我们把理论变成实践——手把手教你用AI生成你的第一组高质量图片。

实战准备：选择你的工具

在开始之前，你需要选一个工具。根据你的情况，推荐以下方案：

方案A：零门槛体验（推荐新手）

用 ChatGPT（Plus账号）或通义万相（免费）直接在对话框里输入描述就能出图，不需要安装任何东西。

方案B：免费在线体验

用 Hugging Face 上的 Stable Diffusion 在线Demo，完全免费，不需要注册就能用。

方案C：本地部署（推荐有显卡的同学）

安装 Stable Diffusion WebUI，在自己电脑上运行，完全免费、无限制、可定制。

今晚的教程以方案B为主线，因为它是免费的、不需要注册、而且用的是真正的Stable Diffusion——和你以后本地部署用的是同一套系统。

第一步：打开在线Demo

打开浏览器，访问以下地址：

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

你会看到一个简洁的界面：一个输入框、一个”Generate”按钮、一些参数设置。

如果这个链接打不开，试试备选方案：

– https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

– 或者直接在 Hugging Face 搜索 “stable diffusion” 找到在线Demo

第二步：你的第一张图——从简单开始

在输入框中输入以下提示词（直接复制粘贴）：

A cute orange tabby cat sitting on a windowsill,

watching the sunset, warm golden light,

watercolor painting style, soft colors

点击”Generate”，等待10-30秒。

你会看到一张水彩风格的橘猫看夕阳的图片。恭喜，这是你的第一张AI生成图片！

第三步：提示词模板——直接套用

现在你知道了基本流程，接下来我给你5个可以直接套用的提示词模板。每个模板都经过优化，能稳定生成高质量图片。

模板一：人物肖像

A [年龄] [性别] with [外貌特征],

wearing [服装], [动作/表情],

[背景环境], [光线],

portrait photography, 8K, highly detailed

示例：

A young woman with long black hair and glasses,

wearing a white linen shirt, reading a book in a cozy café,

soft natural light from the window,

portrait photography, 8K, highly detailed

模板二：风景场景

A [地点/景观], [时间/天气], [氛围],

[艺术风格], [画面质量]

示例：

A misty mountain valley at dawn,

golden sunlight breaking through clouds,

serene and peaceful atmosphere,

landscape photography, National Geographic style,

8K resolution, highly detailed

模板三：产品展示

A [产品名称], [材质/颜色], [摆放方式],

[背景], [光线],

product photography, studio lighting,

clean composition, 4K

示例：

A handmade ceramic coffee mug, earth-tone glaze,

placed on a wooden table with coffee beans scattered around,

soft studio lighting with warm tones,

product photography, clean composition, 4K

模板四：插画/卡通

A [主体], [场景], [风格],

bright colors, clean lines,

illustration, digital art

示例：

A friendly robot teaching a group of children in a classroom,

futuristic school setting,

flat illustration style, pastel colors,

clean lines, digital art

模板五：中国风

A [主体], traditional Chinese [元素],

[色调], ink wash painting style,

[意境描述], masterpiece

示例：

A lone fisherman on a bamboo raft,

traditional Chinese landscape with karst mountains,

muted ink tones with subtle green,

ink wash painting style, misty morning atmosphere,

masterpiece

第四步：参数调优——让图片更上一层楼

除了提示词，还有几个关键参数会影响图片质量。

CFG Scale（引导强度）

这个参数控制AI”多听话”——数值越高，AI越严格遵循你的提示词；数值越低，AI越自由发挥。

数值	效果	适用场景

|——|——|———-|

1-3	非常自由，可能偏离提示词	艺术探索、意外惊喜
4-7	适度遵循，有创意空间	大多数场景（推荐）
8-12	严格遵循，可能过于”死板”	需要精确还原描述时
13+	过度遵循，画面可能不自然	一般不推荐

推荐值：7（默认值，适合大多数情况）

Steps（采样步数）

这个参数控制AI”画多少遍”——步数越多，画面越精细，但生成时间也越长。

步数	效果	时间

|——|——|——|

10-15	快速预览，质量一般	5-10秒
20-30	质量不错（推荐）	15-30秒
40-50	高质量，细节丰富	30-60秒
50+	提升不明显，性价比低	60秒+

推荐值：25（质量和速度的平衡点）

图片尺寸

不同尺寸适合不同用途：

尺寸	比例	适用场景

|——|——|———-|

512×512	1:1	头像、图标
768×512	3:2	风景、产品
512×768	2:3	人物、海报
1024×1024	1:1	高清方形图

推荐：先用 512×512 快速测试，满意后再用大尺寸生成。

第五步：实战练习——三轮对比实验

现在，我们来做一组对比实验，让你亲身体验提示词的力量。

实验一：风格对比

用同一个主体，尝试3种不同风格：

提示词A（写实风格）：

A red rose with dewdrops, macro photography,

sharp focus, studio lighting, 8K

提示词B（水彩风格）：

A red rose with dewdrops, watercolor painting,

soft edges, delicate brushstrokes, artistic

提示词C（赛博朋克风格）：

A red rose with dewdrops, cyberpunk style,

neon glow, dark background, futuristic,

digital art, 4K

观察：同样的主体，不同的风格描述，生成的图片会完全不同。这就是提示词的魔力。

实验二：细节对比

同一个场景，逐步增加细节：

版本A（简单描述）：

A coffee shop

版本B（加上氛围）：

A cozy coffee shop, warm lighting,

rainy day outside, steaming cup of coffee

版本C（极致细节）：

A cozy neighborhood coffee shop, warm amber lighting,

rainy evening outside with reflections on the street,

a steaming cup of latte art on a rustic wooden table,

vintage bookshelf in the background,

soft jazz atmosphere, cinematic composition,

shot on 35mm film, 8K

观察：细节越多，AI越能准确还原你脑中的画面。但也不要过度堆砌——保持逻辑清晰。

实验三：负面提示词

负面提示词（Negative Prompt）告诉AI”不要画什么”。这是提升图片质量的秘密武器。

没有负面提示词：

A beautiful landscape, mountains, lake, sunset

加上负面提示词：

正面：A beautiful landscape, mountains, lake, sunset,

professional photography, 8K

负面：blurry, low quality, distorted, ugly,

text, watermark, signature, deformed

常用负面提示词模板（直接复制使用）：

`

blurry, low quality, distorted, ugly, text,

watermark, signature, deformed, disfigured,

bad anatomy, extra limbs, poorly drawn

`

第六步：从模仿到创作

经过前面的练习，你已经掌握了基本技能。现在，试试自己创作一张图片。

练习任务：用今天学到的模板和技巧，生成一张”你理想中的工作空间”。

步骤：

先用中文描述你理想中的工作空间（越详细越好）
把中文描述翻译成英文（可以用ChatGPT帮忙翻译）
套用模板，加上风格和质量描述
加上负面提示词
生成图片，看看AI理解的和你想象的是否一致

我的示例：

`

A minimalist home office with a large wooden desk,

floor-to-ceiling windows overlooking a forest,

morning sunlight streaming in,

a cup of tea, an open laptop, potted plants,

Scandinavian interior design, warm and inviting,

architectural photography, 8K, highly detailed

Negative: cluttered, dark, messy, low quality, blurry

`

进阶技巧：用ChatGPT优化提示词

如果你觉得自己写提示词还不够好，可以让ChatGPT帮你优化。

操作方法：打开ChatGPT，输入以下指令：

请帮我优化以下AI绘画提示词，使其更具体、更有画面感，

并生成适合Stable Diffusion的英文版本：

[在这里输入你的中文描述]

示例：

你输入：

请帮我优化以下AI绘画提示词，使其更具体、更有画面感，

并生成适合Stable Diffusion的英文版本：

一只柴犬在雪地里玩耍

ChatGPT会给你一个优化后的版本，类似：

A Shiba Inu puppy joyfully playing in fresh snow,

fluffy white snowflakes falling gently,

the dog’s warm golden fur contrasting with the cold blue-white landscape,

happy expression with tongue out,

winter wonderland background with snow-covered pine trees,

soft diffused daylight,

professional pet photography, shallow depth of field,

8K resolution, highly detailed, warm and heartwarming mood

这个技巧非常实用——用ChatGPT当你的”提示词翻译官”，把简单的想法变成高质量的提示词。

今日总结

三个关键要点：

动手比看更重要：打开在线Demo，生成你的第一张图片——体验比任何理论都直观
模板是你的起点：5个提示词模板覆盖了最常见的场景，先模仿再创新
参数调优是加分项：CFG Scale选7、Steps选25、先用小尺寸测试——这三个默认值能帮你省很多时间

今日行动项

三个小任务，今晚就试试：

任务一：用本教程的模板生成3张不同风格的图片（写实、水彩、赛博朋克各一张）
任务二：做一组对比实验——同一主体，用简单描述和详细描述分别生成，观察差异
任务三：用ChatGPT帮你优化一个提示词，生成一张”你理想中的工作空间”

📖 地铁深读：提示词工程师——一个新兴职业

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

从”打字员”到”提示词工程师”

你可能觉得”写提示词”不算什么技能——不就是打几个字嘛。但事实上，提示词工程（Prompt Engineering）已经成了一个正经的职业方向。

2023年，Anthropic（Claude的开发公司）发布了一份招聘启事，岗位叫”Prompt Engineer”，年薪30万美元。消息一出，整个互联网都炸了——”打字也能年薪百万？”

当然，真正的提示词工程师不是”打字员”。他们需要理解AI模型的工作原理、掌握不同模型的特性、能够设计复杂的多轮对话流程、并且能把模糊的业务需求转化为精确的AI指令。

图像提示词的独特挑战

文字提示词和图像提示词有很大不同。文字提示词（比如和ChatGPT对话）更注重逻辑和上下文；图像提示词更注重视觉描述——你需要用文字”画”出你脑中的画面。

这需要一种特殊的”视觉翻译”能力：把脑中的图像转化为文字描述，再让AI把文字还原为图像。这个过程会丢失很多信息，所以你需要学会用AI能理解的方式描述视觉元素。

一个有趣的实验

斯坦福大学的研究人员做过一个实验：让10个人描述同一张图片，然后用这10个不同的描述让AI生成图片。结果，10张AI生成的图片差异巨大——有的接近原图，有的完全不像。

这说明什么？同样的画面，不同的人会用完全不同的文字描述。 而AI对文字的理解方式和人类不同——你觉得”显而易见”的描述，AI可能完全理解错。

提示词的”方言”

每个AI模型都有自己的”方言”——同样一个提示词，在Stable Diffusion和Midjourney上生成的图片可能完全不同。

比如，”cinema still”（电影剧照）这个词在Midjourney上效果很好，能生成电影感很强的画面；但在Stable Diffusion上，你可能需要用”cinematic shot”或”film still”才能达到类似效果。

这也是为什么真正的提示词工程师需要针对特定模型优化提示词——不存在一个”万能提示词”能在所有模型上都效果好。

下篇预告

明天早上8点：Day23——提示词作画：描述你想要的画面。深入讲解提示词的结构化写法，让你的AI绘画从”碰运气”变成”稳出精品”。

明天下午5点：Day23——提示词作画实战。手把手教你用高级提示词技巧生成专业级作品。