系列教程说明
这是「AI专家养成计划」系列教程的第44篇,共140篇。从AI零基础出发,每天进步一点点。晚课以实践为主,手把手带你操作——读完这篇,你就能用AI工具独立生成高质量图片。
上篇回顾
今天早上我们学习了AI图像生成的理论基础。三个核心要点:
- 扩散模型是当前主流:AI从噪声中一步步”还原”图像,你的文字描述引导生成方向
- 三大工具各有优势:Stable Diffusion(开源免费可定制)、Midjourney(艺术感最强)、DALL·E 3(理解力最强)
- 提示词决定80%的质量:主体+风格+质量三个要素缺一不可
今晚,我们把理论变成实践——手把手教你用AI生成你的第一组高质量图片。
实战准备:选择你的工具
在开始之前,你需要选一个工具。根据你的情况,推荐以下方案:
方案A:零门槛体验(推荐新手)
用 ChatGPT(Plus账号)或通义万相(免费)直接在对话框里输入描述就能出图,不需要安装任何东西。
方案B:免费在线体验
用 Hugging Face 上的 Stable Diffusion 在线Demo,完全免费,不需要注册就能用。
方案C:本地部署(推荐有显卡的同学)
安装 Stable Diffusion WebUI,在自己电脑上运行,完全免费、无限制、可定制。
今晚的教程以方案B为主线,因为它是免费的、不需要注册、而且用的是真正的Stable Diffusion——和你以后本地部署用的是同一套系统。
第一步:打开在线Demo
打开浏览器,访问以下地址:
`
https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
`
你会看到一个简洁的界面:一个输入框、一个”Generate”按钮、一些参数设置。
如果这个链接打不开,试试备选方案:
– https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
– 或者直接在 Hugging Face 搜索 “stable diffusion” 找到在线Demo
第二步:你的第一张图——从简单开始
在输入框中输入以下提示词(直接复制粘贴):
`
A cute orange tabby cat sitting on a windowsill,
watching the sunset, warm golden light,
watercolor painting style, soft colors
`
点击”Generate”,等待10-30秒。
你会看到一张水彩风格的橘猫看夕阳的图片。恭喜,这是你的第一张AI生成图片!
第三步:提示词模板——直接套用
现在你知道了基本流程,接下来我给你5个可以直接套用的提示词模板。每个模板都经过优化,能稳定生成高质量图片。
模板一:人物肖像
`
A [年龄] [性别] with [外貌特征],
wearing [服装], [动作/表情],
[背景环境], [光线],
portrait photography, 8K, highly detailed
`
示例:
`
A young woman with long black hair and glasses,
wearing a white linen shirt, reading a book in a cozy café,
soft natural light from the window,
portrait photography, 8K, highly detailed
`
模板二:风景场景
`
A [地点/景观], [时间/天气], [氛围],
[艺术风格], [画面质量]
`
示例:
`
A misty mountain valley at dawn,
golden sunlight breaking through clouds,
serene and peaceful atmosphere,
landscape photography, National Geographic style,
8K resolution, highly detailed
`
模板三:产品展示
`
A [产品名称], [材质/颜色], [摆放方式],
[背景], [光线],
product photography, studio lighting,
clean composition, 4K
`
示例:
`
A handmade ceramic coffee mug, earth-tone glaze,
placed on a wooden table with coffee beans scattered around,
soft studio lighting with warm tones,
product photography, clean composition, 4K
`
模板四:插画/卡通
`
A [主体], [场景], [风格],
bright colors, clean lines,
illustration, digital art
`
示例:
`
A friendly robot teaching a group of children in a classroom,
futuristic school setting,
flat illustration style, pastel colors,
clean lines, digital art
`
模板五:中国风
`
A [主体], traditional Chinese [元素],
[色调], ink wash painting style,
[意境描述], masterpiece
`
示例:
`
A lone fisherman on a bamboo raft,
traditional Chinese landscape with karst mountains,
muted ink tones with subtle green,
ink wash painting style, misty morning atmosphere,
masterpiece
`
第四步:参数调优——让图片更上一层楼
除了提示词,还有几个关键参数会影响图片质量。
CFG Scale(引导强度)
这个参数控制AI”多听话”——数值越高,AI越严格遵循你的提示词;数值越低,AI越自由发挥。
| 数值 | 效果 | 适用场景 |
|---|
|——|——|———-|
| 1-3 | 非常自由,可能偏离提示词 | 艺术探索、意外惊喜 |
|---|---|---|
| 4-7 | 适度遵循,有创意空间 | 大多数场景(推荐) |
| 8-12 | 严格遵循,可能过于”死板” | 需要精确还原描述时 |
| 13+ | 过度遵循,画面可能不自然 | 一般不推荐 |
推荐值:7(默认值,适合大多数情况)
Steps(采样步数)
这个参数控制AI”画多少遍”——步数越多,画面越精细,但生成时间也越长。
| 步数 | 效果 | 时间 |
|---|
|——|——|——|
| 10-15 | 快速预览,质量一般 | 5-10秒 |
|---|---|---|
| 20-30 | 质量不错(推荐) | 15-30秒 |
| 40-50 | 高质量,细节丰富 | 30-60秒 |
| 50+ | 提升不明显,性价比低 | 60秒+ |
推荐值:25(质量和速度的平衡点)
图片尺寸
不同尺寸适合不同用途:
| 尺寸 | 比例 | 适用场景 |
|---|
|——|——|———-|
| 512×512 | 1:1 | 头像、图标 |
|---|---|---|
| 768×512 | 3:2 | 风景、产品 |
| 512×768 | 2:3 | 人物、海报 |
| 1024×1024 | 1:1 | 高清方形图 |
推荐:先用 512×512 快速测试,满意后再用大尺寸生成。
第五步:实战练习——三轮对比实验
现在,我们来做一组对比实验,让你亲身体验提示词的力量。
实验一:风格对比
用同一个主体,尝试3种不同风格:
提示词A(写实风格):
`
A red rose with dewdrops, macro photography,
sharp focus, studio lighting, 8K
`
提示词B(水彩风格):
`
A red rose with dewdrops, watercolor painting,
soft edges, delicate brushstrokes, artistic
`
提示词C(赛博朋克风格):
`
A red rose with dewdrops, cyberpunk style,
neon glow, dark background, futuristic,
digital art, 4K
`
观察:同样的主体,不同的风格描述,生成的图片会完全不同。这就是提示词的魔力。
实验二:细节对比
同一个场景,逐步增加细节:
版本A(简单描述):
`
A coffee shop
`
版本B(加上氛围):
`
A cozy coffee shop, warm lighting,
rainy day outside, steaming cup of coffee
`
版本C(极致细节):
`
A cozy neighborhood coffee shop, warm amber lighting,
rainy evening outside with reflections on the street,
a steaming cup of latte art on a rustic wooden table,
vintage bookshelf in the background,
soft jazz atmosphere, cinematic composition,
shot on 35mm film, 8K
`
观察:细节越多,AI越能准确还原你脑中的画面。但也不要过度堆砌——保持逻辑清晰。
实验三:负面提示词
负面提示词(Negative Prompt)告诉AI”不要画什么”。这是提升图片质量的秘密武器。
没有负面提示词:
`
A beautiful landscape, mountains, lake, sunset
`
加上负面提示词:
`
正面:A beautiful landscape, mountains, lake, sunset,
professional photography, 8K
负面:blurry, low quality, distorted, ugly,
text, watermark, signature, deformed
`
常用负面提示词模板(直接复制使用):
`
blurry, low quality, distorted, ugly, text,
watermark, signature, deformed, disfigured,
bad anatomy, extra limbs, poorly drawn
`
第六步:从模仿到创作
经过前面的练习,你已经掌握了基本技能。现在,试试自己创作一张图片。
练习任务:用今天学到的模板和技巧,生成一张”你理想中的工作空间”。
步骤:
- 先用中文描述你理想中的工作空间(越详细越好)
- 把中文描述翻译成英文(可以用ChatGPT帮忙翻译)
- 套用模板,加上风格和质量描述
- 加上负面提示词
- 生成图片,看看AI理解的和你想象的是否一致
我的示例:
`
A minimalist home office with a large wooden desk,
floor-to-ceiling windows overlooking a forest,
morning sunlight streaming in,
a cup of tea, an open laptop, potted plants,
Scandinavian interior design, warm and inviting,
architectural photography, 8K, highly detailed
Negative: cluttered, dark, messy, low quality, blurry
`
进阶技巧:用ChatGPT优化提示词
如果你觉得自己写提示词还不够好,可以让ChatGPT帮你优化。
操作方法:打开ChatGPT,输入以下指令:
`
请帮我优化以下AI绘画提示词,使其更具体、更有画面感,
并生成适合Stable Diffusion的英文版本:
[在这里输入你的中文描述]
`
示例:
你输入:
`
请帮我优化以下AI绘画提示词,使其更具体、更有画面感,
并生成适合Stable Diffusion的英文版本:
一只柴犬在雪地里玩耍
`
ChatGPT会给你一个优化后的版本,类似:
`
A Shiba Inu puppy joyfully playing in fresh snow,
fluffy white snowflakes falling gently,
the dog’s warm golden fur contrasting with the cold blue-white landscape,
happy expression with tongue out,
winter wonderland background with snow-covered pine trees,
soft diffused daylight,
professional pet photography, shallow depth of field,
8K resolution, highly detailed, warm and heartwarming mood
`
这个技巧非常实用——用ChatGPT当你的”提示词翻译官”,把简单的想法变成高质量的提示词。
今日总结
三个关键要点:
- 动手比看更重要:打开在线Demo,生成你的第一张图片——体验比任何理论都直观
- 模板是你的起点:5个提示词模板覆盖了最常见的场景,先模仿再创新
- 参数调优是加分项:CFG Scale选7、Steps选25、先用小尺寸测试——这三个默认值能帮你省很多时间
今日行动项
三个小任务,今晚就试试:
- 任务一:用本教程的模板生成3张不同风格的图片(写实、水彩、赛博朋克各一张)
- 任务二:做一组对比实验——同一主体,用简单描述和详细描述分别生成,观察差异
- 任务三:用ChatGPT帮你优化一个提示词,生成一张”你理想中的工作空间”
📖 地铁深读:提示词工程师——一个新兴职业
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
从”打字员”到”提示词工程师”
你可能觉得”写提示词”不算什么技能——不就是打几个字嘛。但事实上,提示词工程(Prompt Engineering)已经成了一个正经的职业方向。
2023年,Anthropic(Claude的开发公司)发布了一份招聘启事,岗位叫”Prompt Engineer”,年薪30万美元。消息一出,整个互联网都炸了——”打字也能年薪百万?”
当然,真正的提示词工程师不是”打字员”。他们需要理解AI模型的工作原理、掌握不同模型的特性、能够设计复杂的多轮对话流程、并且能把模糊的业务需求转化为精确的AI指令。
图像提示词的独特挑战
文字提示词和图像提示词有很大不同。文字提示词(比如和ChatGPT对话)更注重逻辑和上下文;图像提示词更注重视觉描述——你需要用文字”画”出你脑中的画面。
这需要一种特殊的”视觉翻译”能力:把脑中的图像转化为文字描述,再让AI把文字还原为图像。这个过程会丢失很多信息,所以你需要学会用AI能理解的方式描述视觉元素。
一个有趣的实验
斯坦福大学的研究人员做过一个实验:让10个人描述同一张图片,然后用这10个不同的描述让AI生成图片。结果,10张AI生成的图片差异巨大——有的接近原图,有的完全不像。
这说明什么?同样的画面,不同的人会用完全不同的文字描述。 而AI对文字的理解方式和人类不同——你觉得”显而易见”的描述,AI可能完全理解错。
提示词的”方言”
每个AI模型都有自己的”方言”——同样一个提示词,在Stable Diffusion和Midjourney上生成的图片可能完全不同。
比如,”cinema still”(电影剧照)这个词在Midjourney上效果很好,能生成电影感很强的画面;但在Stable Diffusion上,你可能需要用”cinematic shot”或”film still”才能达到类似效果。
这也是为什么真正的提示词工程师需要针对特定模型优化提示词——不存在一个”万能提示词”能在所有模型上都效果好。
推荐学习资源
- PromptHero(https://prompthero.com):最大的AI绘画提示词分享平台,可以按模型筛选
- Civitai(https://civitai.com):Stable Diffusion模型和提示词社区,有大量带参数的示例
- Lexica(https://lexica.art):Stable Diffusion图片搜索引擎,可以反向学习别人的提示词
- Reddit r/StableDiffusion:最活跃的SD社区,每天都有提示词技巧分享
下篇预告
明天早上8点:Day23——提示词作画:描述你想要的画面。深入讲解提示词的结构化写法,让你的AI绘画从”碰运气”变成”稳出精品”。
明天下午5点:Day23——提示词作画实战。手把手教你用高级提示词技巧生成专业级作品。
发表回复