Day22——晚课 AI图像生成入门

作者:

系列教程说明

这是「AI专家养成计划」系列教程的第44篇,共140篇。从AI零基础出发,每天进步一点点。晚课以实践为主,手把手带你操作——读完这篇,你就能用AI工具独立生成高质量图片。

上篇回顾

今天早上我们学习了AI图像生成的理论基础。三个核心要点:

  • 扩散模型是当前主流:AI从噪声中一步步”还原”图像,你的文字描述引导生成方向
  • 三大工具各有优势:Stable Diffusion(开源免费可定制)、Midjourney(艺术感最强)、DALL·E 3(理解力最强)
  • 提示词决定80%的质量:主体+风格+质量三个要素缺一不可

今晚,我们把理论变成实践——手把手教你用AI生成你的第一组高质量图片


实战准备:选择你的工具

在开始之前,你需要选一个工具。根据你的情况,推荐以下方案:

方案A:零门槛体验(推荐新手)

用 ChatGPT(Plus账号)或通义万相(免费)直接在对话框里输入描述就能出图,不需要安装任何东西。

方案B:免费在线体验

用 Hugging Face 上的 Stable Diffusion 在线Demo,完全免费,不需要注册就能用。

方案C:本地部署(推荐有显卡的同学)

安装 Stable Diffusion WebUI,在自己电脑上运行,完全免费、无限制、可定制。

今晚的教程以方案B为主线,因为它是免费的、不需要注册、而且用的是真正的Stable Diffusion——和你以后本地部署用的是同一套系统。


第一步:打开在线Demo

打开浏览器,访问以下地址:

`

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

`

你会看到一个简洁的界面:一个输入框、一个”Generate”按钮、一些参数设置。

如果这个链接打不开,试试备选方案:

– https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

– 或者直接在 Hugging Face 搜索 “stable diffusion” 找到在线Demo


第二步:你的第一张图——从简单开始

在输入框中输入以下提示词(直接复制粘贴):

`

A cute orange tabby cat sitting on a windowsill,

watching the sunset, warm golden light,

watercolor painting style, soft colors

`

点击”Generate”,等待10-30秒。

你会看到一张水彩风格的橘猫看夕阳的图片。恭喜,这是你的第一张AI生成图片!


第三步:提示词模板——直接套用

现在你知道了基本流程,接下来我给你5个可以直接套用的提示词模板。每个模板都经过优化,能稳定生成高质量图片。

模板一:人物肖像

`

A [年龄] [性别] with [外貌特征],

wearing [服装], [动作/表情],

[背景环境], [光线],

portrait photography, 8K, highly detailed

`

示例

`

A young woman with long black hair and glasses,

wearing a white linen shirt, reading a book in a cozy café,

soft natural light from the window,

portrait photography, 8K, highly detailed

`

模板二:风景场景

`

A [地点/景观], [时间/天气], [氛围],

[艺术风格], [画面质量]

`

示例

`

A misty mountain valley at dawn,

golden sunlight breaking through clouds,

serene and peaceful atmosphere,

landscape photography, National Geographic style,

8K resolution, highly detailed

`

模板三:产品展示

`

A [产品名称], [材质/颜色], [摆放方式],

[背景], [光线],

product photography, studio lighting,

clean composition, 4K

`

示例

`

A handmade ceramic coffee mug, earth-tone glaze,

placed on a wooden table with coffee beans scattered around,

soft studio lighting with warm tones,

product photography, clean composition, 4K

`

模板四:插画/卡通

`

A [主体], [场景], [风格],

bright colors, clean lines,

illustration, digital art

`

示例

`

A friendly robot teaching a group of children in a classroom,

futuristic school setting,

flat illustration style, pastel colors,

clean lines, digital art

`

模板五:中国风

`

A [主体], traditional Chinese [元素],

[色调], ink wash painting style,

[意境描述], masterpiece

`

示例

`

A lone fisherman on a bamboo raft,

traditional Chinese landscape with karst mountains,

muted ink tones with subtle green,

ink wash painting style, misty morning atmosphere,

masterpiece

`


第四步:参数调优——让图片更上一层楼

除了提示词,还有几个关键参数会影响图片质量。

CFG Scale(引导强度)

这个参数控制AI”多听话”——数值越高,AI越严格遵循你的提示词;数值越低,AI越自由发挥。

数值 效果 适用场景

|——|——|———-|

1-3 非常自由,可能偏离提示词 艺术探索、意外惊喜
4-7 适度遵循,有创意空间 大多数场景(推荐)
8-12 严格遵循,可能过于”死板” 需要精确还原描述时
13+ 过度遵循,画面可能不自然 一般不推荐

推荐值:7(默认值,适合大多数情况)

Steps(采样步数)

这个参数控制AI”画多少遍”——步数越多,画面越精细,但生成时间也越长。

步数 效果 时间

|——|——|——|

10-15 快速预览,质量一般 5-10秒
20-30 质量不错(推荐) 15-30秒
40-50 高质量,细节丰富 30-60秒
50+ 提升不明显,性价比低 60秒+

推荐值:25(质量和速度的平衡点)

图片尺寸

不同尺寸适合不同用途:

尺寸 比例 适用场景

|——|——|———-|

512×512 1:1 头像、图标
768×512 3:2 风景、产品
512×768 2:3 人物、海报
1024×1024 1:1 高清方形图

推荐:先用 512×512 快速测试,满意后再用大尺寸生成。


第五步:实战练习——三轮对比实验

现在,我们来做一组对比实验,让你亲身体验提示词的力量。

实验一:风格对比

用同一个主体,尝试3种不同风格:

提示词A(写实风格)

`

A red rose with dewdrops, macro photography,

sharp focus, studio lighting, 8K

`

提示词B(水彩风格)

`

A red rose with dewdrops, watercolor painting,

soft edges, delicate brushstrokes, artistic

`

提示词C(赛博朋克风格)

`

A red rose with dewdrops, cyberpunk style,

neon glow, dark background, futuristic,

digital art, 4K

`

观察:同样的主体,不同的风格描述,生成的图片会完全不同。这就是提示词的魔力。

实验二:细节对比

同一个场景,逐步增加细节:

版本A(简单描述)

`

A coffee shop

`

版本B(加上氛围)

`

A cozy coffee shop, warm lighting,

rainy day outside, steaming cup of coffee

`

版本C(极致细节)

`

A cozy neighborhood coffee shop, warm amber lighting,

rainy evening outside with reflections on the street,

a steaming cup of latte art on a rustic wooden table,

vintage bookshelf in the background,

soft jazz atmosphere, cinematic composition,

shot on 35mm film, 8K

`

观察:细节越多,AI越能准确还原你脑中的画面。但也不要过度堆砌——保持逻辑清晰。

实验三:负面提示词

负面提示词(Negative Prompt)告诉AI”不要画什么”。这是提升图片质量的秘密武器。

没有负面提示词

`

A beautiful landscape, mountains, lake, sunset

`

加上负面提示词

`

正面:A beautiful landscape, mountains, lake, sunset,

professional photography, 8K

负面:blurry, low quality, distorted, ugly,

text, watermark, signature, deformed

`

常用负面提示词模板(直接复制使用):

`

blurry, low quality, distorted, ugly, text,

watermark, signature, deformed, disfigured,

bad anatomy, extra limbs, poorly drawn

`


第六步:从模仿到创作

经过前面的练习,你已经掌握了基本技能。现在,试试自己创作一张图片

练习任务:用今天学到的模板和技巧,生成一张”你理想中的工作空间”。

步骤:

  1. 先用中文描述你理想中的工作空间(越详细越好)
  2. 把中文描述翻译成英文(可以用ChatGPT帮忙翻译)
  3. 套用模板,加上风格和质量描述
  4. 加上负面提示词
  5. 生成图片,看看AI理解的和你想象的是否一致

我的示例

`

A minimalist home office with a large wooden desk,

floor-to-ceiling windows overlooking a forest,

morning sunlight streaming in,

a cup of tea, an open laptop, potted plants,

Scandinavian interior design, warm and inviting,

architectural photography, 8K, highly detailed

Negative: cluttered, dark, messy, low quality, blurry

`


进阶技巧:用ChatGPT优化提示词

如果你觉得自己写提示词还不够好,可以让ChatGPT帮你优化。

操作方法:打开ChatGPT,输入以下指令:

`

请帮我优化以下AI绘画提示词,使其更具体、更有画面感,

并生成适合Stable Diffusion的英文版本:

[在这里输入你的中文描述]

`

示例

你输入:

`

请帮我优化以下AI绘画提示词,使其更具体、更有画面感,

并生成适合Stable Diffusion的英文版本:

一只柴犬在雪地里玩耍

`

ChatGPT会给你一个优化后的版本,类似:

`

A Shiba Inu puppy joyfully playing in fresh snow,

fluffy white snowflakes falling gently,

the dog’s warm golden fur contrasting with the cold blue-white landscape,

happy expression with tongue out,

winter wonderland background with snow-covered pine trees,

soft diffused daylight,

professional pet photography, shallow depth of field,

8K resolution, highly detailed, warm and heartwarming mood

`

这个技巧非常实用——用ChatGPT当你的”提示词翻译官”,把简单的想法变成高质量的提示词。


今日总结

三个关键要点:

  • 动手比看更重要:打开在线Demo,生成你的第一张图片——体验比任何理论都直观
  • 模板是你的起点:5个提示词模板覆盖了最常见的场景,先模仿再创新
  • 参数调优是加分项:CFG Scale选7、Steps选25、先用小尺寸测试——这三个默认值能帮你省很多时间

今日行动项

三个小任务,今晚就试试:

  • 任务一:用本教程的模板生成3张不同风格的图片(写实、水彩、赛博朋克各一张)
  • 任务二:做一组对比实验——同一主体,用简单描述和详细描述分别生成,观察差异
  • 任务三:用ChatGPT帮你优化一个提示词,生成一张”你理想中的工作空间”

📖 地铁深读:提示词工程师——一个新兴职业

这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。

从”打字员”到”提示词工程师”

你可能觉得”写提示词”不算什么技能——不就是打几个字嘛。但事实上,提示词工程(Prompt Engineering)已经成了一个正经的职业方向。

2023年,Anthropic(Claude的开发公司)发布了一份招聘启事,岗位叫”Prompt Engineer”,年薪30万美元。消息一出,整个互联网都炸了——”打字也能年薪百万?”

当然,真正的提示词工程师不是”打字员”。他们需要理解AI模型的工作原理、掌握不同模型的特性、能够设计复杂的多轮对话流程、并且能把模糊的业务需求转化为精确的AI指令。

图像提示词的独特挑战

文字提示词和图像提示词有很大不同。文字提示词(比如和ChatGPT对话)更注重逻辑和上下文;图像提示词更注重视觉描述——你需要用文字”画”出你脑中的画面。

这需要一种特殊的”视觉翻译”能力:把脑中的图像转化为文字描述,再让AI把文字还原为图像。这个过程会丢失很多信息,所以你需要学会用AI能理解的方式描述视觉元素

一个有趣的实验

斯坦福大学的研究人员做过一个实验:让10个人描述同一张图片,然后用这10个不同的描述让AI生成图片。结果,10张AI生成的图片差异巨大——有的接近原图,有的完全不像。

这说明什么?同样的画面,不同的人会用完全不同的文字描述。 而AI对文字的理解方式和人类不同——你觉得”显而易见”的描述,AI可能完全理解错。

提示词的”方言”

每个AI模型都有自己的”方言”——同样一个提示词,在Stable Diffusion和Midjourney上生成的图片可能完全不同。

比如,”cinema still”(电影剧照)这个词在Midjourney上效果很好,能生成电影感很强的画面;但在Stable Diffusion上,你可能需要用”cinematic shot”或”film still”才能达到类似效果。

这也是为什么真正的提示词工程师需要针对特定模型优化提示词——不存在一个”万能提示词”能在所有模型上都效果好。

推荐学习资源

  • PromptHero(https://prompthero.com):最大的AI绘画提示词分享平台,可以按模型筛选
  • Civitai(https://civitai.com):Stable Diffusion模型和提示词社区,有大量带参数的示例
  • Lexica(https://lexica.art):Stable Diffusion图片搜索引擎,可以反向学习别人的提示词
  • Reddit r/StableDiffusion:最活跃的SD社区,每天都有提示词技巧分享

下篇预告

明天早上8点:Day23——提示词作画:描述你想要的画面。深入讲解提示词的结构化写法,让你的AI绘画从”碰运气”变成”稳出精品”。

明天下午5点:Day23——提示词作画实战。手把手教你用高级提示词技巧生成专业级作品。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注