系列教程说明
这是「AI专家养成计划」系列教程的第43篇,共140篇。从AI零基础出发,每天进步一点点。早课以理论为主,帮你理解概念、建立框架——读完这篇,你就知道AI图像生成的原理、主流工具和基本用法。
上篇回顾
昨天我们学习了AI办公自动化的完整体系。三个核心要点:
- AI办公自动化四大领域:文档处理、邮件沟通、日程管理、数据报表——覆盖80%的重复性办公任务
- 三个自动化层次:单点自动化(一个任务)、流程自动化(一串任务)、智能自动化(AI自主判断),循序渐进才能落地
- 自动化不是替代人:AI处理重复性工作,人类专注创造性决策——这是”人机协作”而非”人机竞争”
今天,我们进入一个全新的领域——AI图像生成。从文字到图片,AI正在重新定义”创作”的含义。
什么是AI图像生成?
先看几张图。
你输入一句话:”一只穿着太空服的柴犬在月球上喝咖啡”,几秒钟后,AI给你生成一张逼真的图片——柴犬穿着白色太空服,背景是灰色的月球表面,手里端着一杯冒着热气的拿铁。
这不是科幻,这是2024年已经成熟的AI技术。
AI图像生成,就是让AI根据文字描述(或其他输入)自动创建图片。 这个过程也叫”文生图”(Text-to-Image),是目前最火爆的AI应用之一。
一个数据感受一下:Stable Diffusion 在2022年8月开源后,3个月内用户生成了超过10亿张图片。人类历史上没有任何一种艺术形式能达到这个速度。
AI是怎么”画”出图片的?
你可能会好奇:AI又没有手,它是怎么”画画”的?
核心原理:从噪声中”还原”图像
目前主流的AI图像生成技术叫扩散模型(Diffusion Model)。它的原理可以用一个比喻来理解:
想象你有一张照片,你往上面撒越来越多的噪点——一点一点地撒,直到照片完全变成一堆随机的雪花点。这个过程叫”前向扩散”。
然后,你训练一个AI模型,让它学会反向操作:从一堆雪花点开始,一步一步地去除噪声,最终还原出一张清晰的照片。这个过程叫”去噪”或”反向扩散”。
关键来了:当你给AI一段文字描述时,AI会在去噪过程中”引导”图像朝你描述的方向发展。 就像一个画家在画布上反复修改,直到画面符合你的要求。
打个更直观的比方:扩散模型就像一个考古学家——给他一块满是泥土的化石(噪声),他能一点一点地清理,最终还原出完整的恐龙骨架(图像)。而你的文字描述就是”考古指南”,告诉他要还原的是恐龙而不是大象。
另一种思路:生成对抗网络(GAN)
在扩散模型之前,最流行的图像生成技术是GAN(Generative Adversarial Network),翻译过来叫”生成对抗网络”。
GAN的思路很有趣:它训练两个AI——一个叫”生成器”,负责画假图片;另一个叫”判别器”,负责判断图片是真是假。两个AI互相”对抗”,生成器越画越好,判别器越判越准,最终生成器能画出以假乱真的图片。
类比:GAN就像一个造假币的人和一个验钞员的博弈。造假币的人不断提高伪造技术,验钞员不断提高鉴别能力。最终,造假币的人做出的假币连验钞员都分辨不出来——这时候,假币就”以假乱真”了。
不过,GAN现在已经不是主流了。扩散模型在图像质量和多样性上全面超越了GAN,成为了当前的绝对主流。
主流AI图像生成工具
了解了原理,我们来看看有哪些好用的工具。
Stable Diffusion:开源之王
Stable Diffusion 是目前最流行的开源AI图像生成模型,由 Stability AI 公司在2022年发布。
为什么它是”开源之王”?
- 完全免费:代码和模型权重全部公开,任何人都可以下载使用
- 本地运行:不需要联网,不需要付费API,在你自己的电脑上就能跑
- 高度可定制:你可以微调模型、训练自己的风格、安装各种插件
- 社区庞大:全球有数百万用户,教程、模型、插件应有尽有
硬件要求:Stable Diffusion 本地运行需要一张显存至少4GB的NVIDIA显卡。没有好显卡?可以用Google Colab免费GPU,或者用在线服务。
Midjourney:艺术感最强
Midjourney 是一个商业化的AI图像生成服务,以”艺术感”著称。它生成的图片往往比Stable Diffusion更有”画味”——构图精美、色彩和谐、风格统一。
Midjourney的使用方式是通过Discord(一个聊天软件)发送指令。你在一个聊天频道里输入/imagine命令加上描述,几十秒后Midjourney就会回复4张图片供你选择。
缺点:收费(最便宜的套餐10美元/月),且只能通过Discord使用。
DALL·E:OpenAI的图像AI
DALL·E 是OpenAI(就是做ChatGPT的那家公司)推出的图像生成模型。目前已经到第三代DALL·E 3。
DALL·E 3最大的优势是理解能力强——它对复杂文字描述的理解比其他模型更准确。比如你描述一个包含多个元素、特定构图的场景,DALL·E 3能更忠实地还原你的意图。
DALL·E 3集成在ChatGPT中,ChatGPT Plus用户可以直接使用。
国内替代方案
如果你不方便使用国外工具,国内也有不错的选择:
- 通义万相:阿里出品,免费额度充足,中文理解好
- 文心一格:百度出品,中文提示词支持好
- 智谱清言:智谱AI出品,可生成多种风格
- 即梦AI:字节跳动出品,效果不错
技术选型建议:如果你是学习和探索,首选Stable Diffusion(免费、开源、可定制)。如果你需要快速出图且不差钱,Midjourney的艺术感最好。如果你已经在用ChatGPT Plus,DALL·E 3最方便。
你的第一张AI图片
说了这么多,不如亲自试一试。这里给你一个最简单的入门方式:
方案一:用ChatGPT(最简单)
- 打开ChatGPT(需要Plus账号)
- 直接输入你的描述,比如:”请生成一张水彩风格的猫咪坐在窗台上看夕阳的图片”
- 等待几秒,ChatGPT会调用DALL·E 3生成图片
方案二:用Stable Diffusion在线版(免费)
- 访问 Hugging Face 的在线Demo:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
- 在输入框中输入英文描述(英文效果比中文好)
- 点击”Generate”,等待生成
方案三:本地安装Stable Diffusion(进阶)
如果你想在自己电脑上运行,推荐使用 Stable Diffusion WebUI(也叫AUTOMATIC1111):
`bash
# 克隆项目
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# 运行(Linux/Mac)
./webui.sh
# 运行(Windows)
webui-user.bat
`
运行后会在浏览器打开一个界面,你可以输入文字描述、调整参数、生成图片。
提示词:和AI”说画”的语言
AI图像生成的质量,80%取决于你的提示词(Prompt)。
提示词就是你给AI的文字描述。写得好,AI给你惊艳的作品;写得差,AI给你一团模糊的色块。
好提示词的三个要素
要素一:主体描述
告诉AI你要画什么。越具体越好。
- ❌ “一只猫”(太模糊)
- ✅ “一只橘色的英国短毛猫,绿色眼睛,趴在窗台上”(具体明确)
要素二:风格描述
告诉AI你想要什么画风。
- “水彩风格” “油画风格” “像素风格” “赛博朋克”
- “宫崎骏风格” “梵高风格” “吉卜力工作室风格”
- “写实照片” “3D渲染” “卡通插画”
要素三:质量描述
告诉AI你想要什么画质。
- “高清” “4K” “超精细” “专业摄影”
- “柔和光线” “黄金时段” “电影级光影”
一个完整的提示词示例
`
A golden retriever puppy playing in autumn leaves,
warm sunlight filtering through trees,
shallow depth of field,
professional pet photography,
8K resolution, highly detailed
`
翻译:一只金毛幼犬在秋天的落叶中玩耍,温暖的阳光透过树叶,浅景深,专业宠物摄影,8K分辨率,高度细节。
提示:英文提示词通常比中文效果更好,因为大多数模型的训练数据以英文为主。如果你英文不好,可以先用中文写好描述,再用ChatGPT翻译成英文。
AI图像生成的边界
AI图像生成很强大,但它也有明显的局限性:
它擅长的
- 创意概念图:天马行空的想象,AI最拿手
- 风格化作品:特定画风、特定氛围的图片
- 素材生成:背景、纹理、图标等设计素材
- 快速原型:快速可视化你的想法,用于沟通和讨论
它不擅长的
- 精确的文字:AI生成的图片中经常出现乱码文字(这是老大难问题)
- 精确的人体结构:手指数量、肢体比例经常出错(虽然在快速改善)
- 精确的逻辑关系:比如”左边是A,右边是B”,AI经常搞混
- 特定真实人物:出于伦理和法律考虑,大多数工具限制生成真实人物
伦理问题
AI图像生成也引发了很多伦理争议:
- 版权问题:AI模型是在大量人类作品上训练的,生成的图片算不算”抄袭”?
- 深度伪造:AI可以生成以假乱真的人脸照片,可能被用于欺诈
- 艺术价值:AI生成的图片算不算”艺术”?这对艺术家意味着什么?
这些问题目前没有标准答案,但作为AI使用者,你需要意识到这些边界。
今日总结
三个关键要点:
- AI图像生成的原理:扩散模型从噪声中”还原”图像,你的文字描述引导AI生成方向
- 三大主流工具:Stable Diffusion(开源免费)、Midjourney(艺术感强)、DALL·E 3(理解力强)
- 提示词决定质量:主体+风格+质量三个要素缺一不可,英文提示词通常效果更好
今日行动项
三个小任务,今天就试试:
- 任务一:用ChatGPT或在线Demo生成你的第一张AI图片,体验一下整个流程
- 任务二:尝试用不同的提示词生成同一主题的图片,感受提示词对结果的影响
- 任务三:在网上搜索”AI生成艺术”,看看目前AI图像生成能达到什么水平
📖 地铁深读:扩散模型的前世今生
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
从物理学借用的灵感
扩散模型的名字来自物理学中的”扩散”现象——一滴墨水在水中慢慢散开,最终均匀分布在整个容器中。这个过程是不可逆的(你没法让散开的墨水重新聚成一滴),但AI学会了”逆转”这个过程。
2015年,斯坦福大学的Jascha Sohl-Dickstein等人首次提出了扩散模型的理论框架。但当时生成的图片质量很差,远不如GAN,所以没引起太多关注。
转折点在2020年——加州大学伯克利分校的Jonathan Ho发表了论文《Denoising Diffusion Probabilistic Models》(DDPM),证明扩散模型可以生成和GAN一样好甚至更好的图片。这篇论文改变了整个领域的格局。
Stable Diffusion的”出圈”时刻
2022年8月,Stability AI发布了Stable Diffusion,这是第一个高质量且完全开源的图像生成模型。它的出现就像当年Linux的发布——让AI图像生成从少数大公司的”专属玩具”变成了所有人都能用的”公共工具”。
Stable Diffusion的代码托管在GitHub上,模型权重公开下载,任何人都可以免费使用、修改、甚至商用。这种开源精神催生了一个庞大的社区:开发者们创造了各种插件(ControlNet、LoRA、Textual Inversion),让Stable Diffusion的能力不断扩展。
一个有趣的事实
你知道吗?Stable Diffusion最初是在LAION-5B数据集上训练的——这个数据集包含50多亿张从互联网上抓取的图片和对应的文字描述。也就是说,AI看过的图片比任何一个人类一辈子能看到的都多得多。
这也引发了争议:这些图片的原作者是否同意自己的作品被用来训练AI?目前全球范围内关于AI训练数据版权的法律诉讼仍在进行中,这是一个悬而未决的重要问题。
进阶思考题
- 如果AI能生成任何图片,”摄影”这个职业会消失吗?为什么?
- 当AI生成的图片和人类画的图片无法区分时,”原创”这个概念还有意义吗?
- 如果你是一个插画师,你会如何利用AI工具来提升自己的工作效率,而不是被AI替代?
推荐学习资源
- 入门视频:3Blue1Brown的《Diffusion Models Explained》——用动画讲解扩散模型原理,适合零基础
- 实践教程:Stable Diffusion WebUI官方Wiki——从安装到使用的完整指南
- 社区:Civitai(https://civitai.com)——最大的Stable Diffusion模型分享平台,有海量风格模型可以下载
- 深度阅读:Lil’Log博客的《What are Diffusion Models?》——数学推导清晰,适合想深入理解原理的读者
下篇预告
明天早上8点:Day23——提示词作画:描述你想要的画面。教你写出高质量的AI绘画提示词,让AI画出你脑中的画面。
明天下午5点:Day23——提示词作画实战。手把手教你用Stable Diffusion生成各种风格的图片。
发表回复