Day22——早课 AI图像生成入门

系列教程说明

这是「AI专家养成计划」系列教程的第43篇，共140篇。从AI零基础出发，每天进步一点点。早课以理论为主，帮你理解概念、建立框架——读完这篇，你就知道AI图像生成的原理、主流工具和基本用法。

上篇回顾

昨天我们学习了AI办公自动化的完整体系。三个核心要点：

AI办公自动化四大领域：文档处理、邮件沟通、日程管理、数据报表——覆盖80%的重复性办公任务
三个自动化层次：单点自动化（一个任务）、流程自动化（一串任务）、智能自动化（AI自主判断），循序渐进才能落地
自动化不是替代人：AI处理重复性工作，人类专注创造性决策——这是”人机协作”而非”人机竞争”

今天，我们进入一个全新的领域——AI图像生成。从文字到图片，AI正在重新定义”创作”的含义。

什么是AI图像生成？

先看几张图。

你输入一句话：”一只穿着太空服的柴犬在月球上喝咖啡”，几秒钟后，AI给你生成一张逼真的图片——柴犬穿着白色太空服，背景是灰色的月球表面，手里端着一杯冒着热气的拿铁。

这不是科幻，这是2024年已经成熟的AI技术。

AI图像生成，就是让AI根据文字描述（或其他输入）自动创建图片。 这个过程也叫”文生图”（Text-to-Image），是目前最火爆的AI应用之一。

一个数据感受一下：Stable Diffusion 在2022年8月开源后，3个月内用户生成了超过10亿张图片。人类历史上没有任何一种艺术形式能达到这个速度。

AI是怎么”画”出图片的？

你可能会好奇：AI又没有手，它是怎么”画画”的？

核心原理：从噪声中”还原”图像

目前主流的AI图像生成技术叫扩散模型（Diffusion Model）。它的原理可以用一个比喻来理解：

想象你有一张照片，你往上面撒越来越多的噪点——一点一点地撒，直到照片完全变成一堆随机的雪花点。这个过程叫”前向扩散”。

然后，你训练一个AI模型，让它学会反向操作：从一堆雪花点开始，一步一步地去除噪声，最终还原出一张清晰的照片。这个过程叫”去噪”或”反向扩散”。

关键来了：当你给AI一段文字描述时，AI会在去噪过程中”引导”图像朝你描述的方向发展。 就像一个画家在画布上反复修改，直到画面符合你的要求。

打个更直观的比方：扩散模型就像一个考古学家——给他一块满是泥土的化石（噪声），他能一点一点地清理，最终还原出完整的恐龙骨架（图像）。而你的文字描述就是”考古指南”，告诉他要还原的是恐龙而不是大象。

另一种思路：生成对抗网络（GAN）

在扩散模型之前，最流行的图像生成技术是GAN（Generative Adversarial Network），翻译过来叫”生成对抗网络”。

GAN的思路很有趣：它训练两个AI——一个叫”生成器”，负责画假图片；另一个叫”判别器”，负责判断图片是真是假。两个AI互相”对抗”，生成器越画越好，判别器越判越准，最终生成器能画出以假乱真的图片。

类比：GAN就像一个造假币的人和一个验钞员的博弈。造假币的人不断提高伪造技术，验钞员不断提高鉴别能力。最终，造假币的人做出的假币连验钞员都分辨不出来——这时候，假币就”以假乱真”了。

不过，GAN现在已经不是主流了。扩散模型在图像质量和多样性上全面超越了GAN，成为了当前的绝对主流。

主流AI图像生成工具

了解了原理，我们来看看有哪些好用的工具。

Stable Diffusion：开源之王

Stable Diffusion 是目前最流行的开源AI图像生成模型，由 Stability AI 公司在2022年发布。

为什么它是”开源之王”？

完全免费：代码和模型权重全部公开，任何人都可以下载使用
本地运行：不需要联网，不需要付费API，在你自己的电脑上就能跑
高度可定制：你可以微调模型、训练自己的风格、安装各种插件
社区庞大：全球有数百万用户，教程、模型、插件应有尽有

硬件要求：Stable Diffusion 本地运行需要一张显存至少4GB的NVIDIA显卡。没有好显卡？可以用Google Colab免费GPU，或者用在线服务。

Midjourney：艺术感最强

Midjourney 是一个商业化的AI图像生成服务，以”艺术感”著称。它生成的图片往往比Stable Diffusion更有”画味”——构图精美、色彩和谐、风格统一。

Midjourney的使用方式是通过Discord（一个聊天软件）发送指令。你在一个聊天频道里输入/imagine命令加上描述，几十秒后Midjourney就会回复4张图片供你选择。

缺点：收费（最便宜的套餐10美元/月），且只能通过Discord使用。

DALL·E：OpenAI的图像AI

DALL·E 是OpenAI（就是做ChatGPT的那家公司）推出的图像生成模型。目前已经到第三代DALL·E 3。

DALL·E 3最大的优势是理解能力强——它对复杂文字描述的理解比其他模型更准确。比如你描述一个包含多个元素、特定构图的场景，DALL·E 3能更忠实地还原你的意图。

DALL·E 3集成在ChatGPT中，ChatGPT Plus用户可以直接使用。

国内替代方案

如果你不方便使用国外工具，国内也有不错的选择：

通义万相：阿里出品，免费额度充足，中文理解好
文心一格：百度出品，中文提示词支持好
智谱清言：智谱AI出品，可生成多种风格
即梦AI：字节跳动出品，效果不错

技术选型建议：如果你是学习和探索，首选Stable Diffusion（免费、开源、可定制）。如果你需要快速出图且不差钱，Midjourney的艺术感最好。如果你已经在用ChatGPT Plus，DALL·E 3最方便。

你的第一张AI图片

说了这么多，不如亲自试一试。这里给你一个最简单的入门方式：

方案一：用ChatGPT（最简单）

打开ChatGPT（需要Plus账号）
直接输入你的描述，比如：”请生成一张水彩风格的猫咪坐在窗台上看夕阳的图片”
等待几秒，ChatGPT会调用DALL·E 3生成图片

方案二：用Stable Diffusion在线版（免费）

访问 Hugging Face 的在线Demo：https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
在输入框中输入英文描述（英文效果比中文好）
点击”Generate”，等待生成

方案三：本地安装Stable Diffusion（进阶）

如果你想在自己电脑上运行，推荐使用 Stable Diffusion WebUI（也叫AUTOMATIC1111）：

`bash

# 克隆项目

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

cd stable-diffusion-webui

# 运行（Linux/Mac）

./webui.sh

# 运行（Windows）

webui-user.bat

运行后会在浏览器打开一个界面，你可以输入文字描述、调整参数、生成图片。

提示词：和AI”说画”的语言

AI图像生成的质量，80%取决于你的提示词（Prompt）。

提示词就是你给AI的文字描述。写得好，AI给你惊艳的作品；写得差，AI给你一团模糊的色块。

好提示词的三个要素

要素一：主体描述

告诉AI你要画什么。越具体越好。

❌ “一只猫”（太模糊）
✅ “一只橘色的英国短毛猫，绿色眼睛，趴在窗台上”（具体明确）

要素二：风格描述

告诉AI你想要什么画风。

“水彩风格” “油画风格” “像素风格” “赛博朋克”
“宫崎骏风格” “梵高风格” “吉卜力工作室风格”
“写实照片” “3D渲染” “卡通插画”

要素三：质量描述

告诉AI你想要什么画质。

“高清” “4K” “超精细” “专业摄影”
“柔和光线” “黄金时段” “电影级光影”

一个完整的提示词示例

A golden retriever puppy playing in autumn leaves,

warm sunlight filtering through trees,

shallow depth of field,

professional pet photography,

8K resolution, highly detailed

翻译：一只金毛幼犬在秋天的落叶中玩耍，温暖的阳光透过树叶，浅景深，专业宠物摄影，8K分辨率，高度细节。

提示：英文提示词通常比中文效果更好，因为大多数模型的训练数据以英文为主。如果你英文不好，可以先用中文写好描述，再用ChatGPT翻译成英文。

AI图像生成的边界

AI图像生成很强大，但它也有明显的局限性：

它擅长的

创意概念图：天马行空的想象，AI最拿手
风格化作品：特定画风、特定氛围的图片
素材生成：背景、纹理、图标等设计素材
快速原型：快速可视化你的想法，用于沟通和讨论

它不擅长的

精确的文字：AI生成的图片中经常出现乱码文字（这是老大难问题）
精确的人体结构：手指数量、肢体比例经常出错（虽然在快速改善）
精确的逻辑关系：比如”左边是A，右边是B”，AI经常搞混
特定真实人物：出于伦理和法律考虑，大多数工具限制生成真实人物

伦理问题

AI图像生成也引发了很多伦理争议：

版权问题：AI模型是在大量人类作品上训练的，生成的图片算不算”抄袭”？
深度伪造：AI可以生成以假乱真的人脸照片，可能被用于欺诈
艺术价值：AI生成的图片算不算”艺术”？这对艺术家意味着什么？

这些问题目前没有标准答案，但作为AI使用者，你需要意识到这些边界。

今日总结

三个关键要点：

AI图像生成的原理：扩散模型从噪声中”还原”图像，你的文字描述引导AI生成方向
三大主流工具：Stable Diffusion（开源免费）、Midjourney（艺术感强）、DALL·E 3（理解力强）
提示词决定质量：主体+风格+质量三个要素缺一不可，英文提示词通常效果更好

今日行动项

三个小任务，今天就试试：

任务一：用ChatGPT或在线Demo生成你的第一张AI图片，体验一下整个流程
任务二：尝试用不同的提示词生成同一主题的图片，感受提示词对结果的影响
任务三：在网上搜索”AI生成艺术”，看看目前AI图像生成能达到什么水平

📖 地铁深读：扩散模型的前世今生

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

从物理学借用的灵感

扩散模型的名字来自物理学中的”扩散”现象——一滴墨水在水中慢慢散开，最终均匀分布在整个容器中。这个过程是不可逆的（你没法让散开的墨水重新聚成一滴），但AI学会了”逆转”这个过程。

2015年，斯坦福大学的Jascha Sohl-Dickstein等人首次提出了扩散模型的理论框架。但当时生成的图片质量很差，远不如GAN，所以没引起太多关注。

转折点在2020年——加州大学伯克利分校的Jonathan Ho发表了论文《Denoising Diffusion Probabilistic Models》（DDPM），证明扩散模型可以生成和GAN一样好甚至更好的图片。这篇论文改变了整个领域的格局。

Stable Diffusion的”出圈”时刻

2022年8月，Stability AI发布了Stable Diffusion，这是第一个高质量且完全开源的图像生成模型。它的出现就像当年Linux的发布——让AI图像生成从少数大公司的”专属玩具”变成了所有人都能用的”公共工具”。

Stable Diffusion的代码托管在GitHub上，模型权重公开下载，任何人都可以免费使用、修改、甚至商用。这种开源精神催生了一个庞大的社区：开发者们创造了各种插件（ControlNet、LoRA、Textual Inversion），让Stable Diffusion的能力不断扩展。

一个有趣的事实

你知道吗？Stable Diffusion最初是在LAION-5B数据集上训练的——这个数据集包含50多亿张从互联网上抓取的图片和对应的文字描述。也就是说，AI看过的图片比任何一个人类一辈子能看到的都多得多。

这也引发了争议：这些图片的原作者是否同意自己的作品被用来训练AI？目前全球范围内关于AI训练数据版权的法律诉讼仍在进行中，这是一个悬而未决的重要问题。

进阶思考题

如果AI能生成任何图片，”摄影”这个职业会消失吗？为什么？
当AI生成的图片和人类画的图片无法区分时，”原创”这个概念还有意义吗？
如果你是一个插画师，你会如何利用AI工具来提升自己的工作效率，而不是被AI替代？

下篇预告

明天早上8点：Day23——提示词作画：描述你想要的画面。教你写出高质量的AI绘画提示词，让AI画出你脑中的画面。

明天下午5点：Day23——提示词作画实战。手把手教你用Stable Diffusion生成各种风格的图片。

Day22——早课 AI图像生成入门

系列教程说明

上篇回顾

什么是AI图像生成？

AI是怎么”画”出图片的？

核心原理：从噪声中”还原”图像

另一种思路：生成对抗网络（GAN）

主流AI图像生成工具

Stable Diffusion：开源之王

Midjourney：艺术感最强

DALL·E：OpenAI的图像AI

国内替代方案

你的第一张AI图片

方案一：用ChatGPT（最简单）

方案二：用Stable Diffusion在线版（免费）

方案三：本地安装Stable Diffusion（进阶）

提示词：和AI”说画”的语言

好提示词的三个要素

一个完整的提示词示例

AI图像生成的边界

它擅长的

它不擅长的

伦理问题

今日总结

今日行动项

📖 地铁深读：扩散模型的前世今生

从物理学借用的灵感

Stable Diffusion的”出圈”时刻

一个有趣的事实

进阶思考题

推荐学习资源

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介

Day22——晚课 AI图像生成入门

Day22——午课 Anthropic千亿估值启动IPO，特朗普签署AI行政令

Day22——早课 AI图像生成入门

Day21——晚课 AI办公自动化实操

发表回复取消回复