系列教程说明
这是「AI专家养成计划」系列教程的第64篇,共140篇。本系列从零基础出发,每天一课,帮你系统掌握AI知识。适合完全零基础的学习者,也适合想建立完整AI知识体系的朋友。
上篇回顾
今天早上我们学习了多模态AI的理论基础。三个核心要点:
- 多模态的本质:AI同时处理文字、图片、声音、视频等多种信息,核心技术是跨模态对齐——把不同模态映射到同一个语义空间
- 三条技术路线:编码器-解码器架构(如CLIP)、统一Transformer架构(如GPT-4V)、扩散模型+条件生成(如Stable Diffusion)
- 应用已经很丰富:图片理解、文本生图、文本生视频、图文音融合全能助手
今晚的实战课,我们不讲理论,直接动手——用5个完整案例,带你真正上手多模态AI。
实操一:用ChatGPT/Claude分析图片(5分钟)
这是最容易上手的多模态应用。你只需要一个能上传图片的AI对话工具。
步骤
第一步:打开ChatGPT(chat.openai.com)或Claude(claude.ai)
第二步:点击对话框左侧的「回形针」或「+」按钮,上传一张图片
第三步:输入提示词,让AI分析图片
3个实用提示词模板
模板1:食材识别+菜谱推荐
`
请分析这张冰箱照片:
- 列出所有可见的食材
- 根据这些食材推荐2道菜
- 给出每道菜的简要做法
`
模板2:图表分析
`
请分析这张图表:
- 图表的类型是什么?
- 核心数据趋势是什么?
- 有哪些异常值或值得注意的点?
- 请用一句话总结这个图表的关键信息
`
模板3:文档OCR+整理
`
请识别这张图片中的所有文字,然后:
- 提取关键信息
- 用表格形式整理
- 如果有日期、金额等数字,单独标注
`
小技巧:上传图片后,先让AI描述它看到了什么(”请描述这张图片”),确认AI理解正确后,再提出具体需求。这样能避免AI”幻觉”。
实操二:文本生成图片——Stable Diffusion本地部署(15分钟)
早课提到Stable Diffusion是开源的,可以本地运行。今晚我们来实际操作。
安装步骤
第一步:安装ComfyUI(推荐的Stable Diffusion前端)
`bash
# 克隆ComfyUI仓库
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
# 安装依赖(需要Python 3.10+)
pip install -r requirements.txt
`
第二步:下载模型文件
`bash
# 下载Stable Diffusion XL基础模型(约6GB)
# 从HuggingFace下载,放到models/checkpoints/目录
wget -P models/checkpoints/
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors
`
第三步:启动ComfyUI
`bash
python main.py
# 浏览器打开 http://127.0.0.1:8188
`
生成你的第一张图
在ComfyUI界面中:
- 左侧找到「Load Default」按钮,加载默认工作流
- 在「CLIP Text Encode」节点中输入提示词
- 点击「Queue Prompt」开始生成
推荐提示词(复制即用):
`
A cozy coffee shop interior, morning sunlight streaming through
windows, wooden tables, bookshelves on the wall, warm color palette,
photorealistic, 8k quality
`
负面提示词(告诉AI不要生成什么):
`
blurry, low quality, distorted, ugly, deformed, text, watermark
`
提示词进阶技巧
| 技巧 | 示例 | 效果 |
|---|
|——|——|——|
| 指定风格 | watercolor style / oil painting / anime |
改变画风 |
|---|---|---|
| 指定光线 | golden hour / dramatic lighting / soft light |
改变氛围 |
| 指定镜头 | close-up / wide angle / bird's eye view |
改变构图 |
| 加权重 | (cat:1.5) |
强调某个元素 |
| 混合风格 | cyberpunk meets traditional Chinese |
创意混搭 |
实操三:用GPT-4V做「图片翻译官」(10分钟)
这个场景非常实用:出国旅行时,对着菜单、路牌、说明书拍一张照片,AI帮你翻译+解释。
实战案例:翻译一份英文菜单
第一步:找一张英文菜单的照片(或者自己拍一张)
第二步:上传到ChatGPT,输入以下提示词:
`
你是一位专业的菜单翻译官。请帮我翻译这份英文菜单:
- 将每道菜名翻译成中文(保留英文原名)
- 根据菜品描述,补充说明这道菜的口味和主要食材
- 标注价格(如果有)
- 如果有你不确定的翻译,标注「⚠️建议确认」
最后,请推荐3道你认为最值得尝试的菜品,说明推荐理由。
`
第三步:AI会返回一个结构化的翻译结果
更多实用场景
场景1:路标翻译
`
[上传路标照片]
请翻译这个路标上的所有文字,并告诉我:
- 这是什么类型的指示牌?
- 具体指示了什么方向/信息?
- 如果我在旅行中看到这个,应该怎么做?
`
场景2:产品说明书
`
[上传产品说明书照片]
请识别这份说明书的所有文字,提取以下关键信息:
- 产品名称和型号
- 使用注意事项
- 维护保养建议
用简洁的中文列出要点。
`
场景3:发票/收据识别
`
[上传收据照片]
请识别这张收据的:
- 商家名称
- 消费日期
- 所有项目及金额
- 总金额
用表格整理,并告诉我这是什么类型的消费。
`
实操四:搭建一个多模态文档处理流水线(15分钟)
这是一个完整的实战项目:用AI自动处理包含图片和文字的文档。
场景设定
你有一堆手机拍的名片照片,需要把信息录入通讯录。手动输入太慢,我们用AI来自动完成。
方案设计
`
手机拍名片照片
↓
AI视觉识别(提取文字+理解布局)
↓
结构化输出(姓名、电话、邮箱、公司、职位)
↓
导入通讯录(vCard格式)
`
实现步骤
第一步:准备名片照片
用手机拍几张名片(或者从网上找示例图片)。
第二步:用ChatGPT/Claude处理
上传名片照片,使用以下提示词:
`
请分析这张名片照片,提取以下信息并用JSON格式输出:
{
“name”: “姓名”,
“title”: “职位”,
“company”: “公司名称”,
“phone”: “电话号码”,
“email”: “邮箱”,
“address”: “地址”,
“website”: “网站”,
“other”: “其他信息”
}
要求:
- 如果某项信息不存在,填null
- 电话号码保留原始格式
- 如果有多个电话/邮箱,用数组表示
- 如果名片是外文,同时提供原文和中文翻译
`
第三步:批量处理
如果你有多张名片,可以把多张照片上传到同一个对话中,AI会逐张处理。
第四步:生成vCard文件
拿到JSON数据后,让AI帮你生成vCard格式:
`
请根据以下JSON数据,生成标准的vCard格式文件:
[粘贴JSON数据]
输出格式:
BEGIN:VCARD
VERSION:3.0
N:姓;名
FN:姓名
ORG:公司
TEL:电话
EMAIL:邮箱
END:VCARD
`
把生成的文本保存为.vcf文件,导入手机通讯录即可。
这个方案的核心价值
- 从照片到结构化数据:AI理解名片的布局,不只是OCR识别文字
- 一步到位:不需要先OCR再解析,AI直接输出结构化JSON
- 容错能力强:名片有褶皱、角度歪斜、光线不好,AI照样能识别
实操五:用开源工具搭建本地多模态助手(15分钟)
不想依赖云端API?我们用开源工具搭建一个完全本地运行的多模态助手。
方案:LLaVA + Ollama
LLaVA(Large Language and Vision Assistant)是一个开源的多模态模型,能同时理解图片和文字。通过Ollama可以一键部署。
安装步骤
第一步:安装Ollama(如果还没安装)
`bash
curl -fsSL https://ollama.ai/install.sh | sh
`
第二步:下载LLaVA模型
`bash
# 下载LLaVA 7B模型(约4.7GB)
ollama pull llava:7b
# 如果显存充足(12GB+),可以下载更大的模型
ollama pull llava:13b
`
第三步:使用多模态对话
`bash
# 命令行方式:上传图片并提问
ollama run llava:7b “请描述这张图片的内容” –images /path/to/image.jpg
`
第四步:用Python调用(适合批量处理)
`python
import requests
import base64
def ask_about_image(image_path, question):
“””用LLaVA分析图片”””
with open(image_path, “rb”) as f:
image_data = base64.b64encode(f.read()).decode()
response = requests.post(“http://localhost:11434/api/generate”, json={
“model”: “llava:7b”,
“prompt”: question,
“images”: [image_data],
“stream”: False
})
return response.json()[“response”]
# 使用示例
result = ask_about_image(“photo.jpg”, “这张图片里有什么?”)
print(result)
`
本地多模态的优势
| 对比项 | 云端API(GPT-4V) | 本地部署(LLaVA) |
|---|
|——–|——————-|——————-|
| 隐私 | 图片上传到云端 | 完全本地处理 |
|---|---|---|
| 费用 | 按量付费 | 免费 |
| 速度 | 取决于网络 | 取决于硬件 |
| 质量 | 非常高 | 中等偏上 |
| 离线 | 不支持 | 支持 |
建议:隐私敏感的场景(如处理身份证、合同、医疗报告)用本地模型;需要高质量分析的场景用云端API。
今日总结
- 多模态AI的核心是「理解+生成」:不仅能看懂图片、听懂语音,还能生成图片、视频、语音
- 5个实操覆盖了最常见的场景:图片分析、文本生图、图片翻译、文档处理、本地部署
- 选择云端还是本地取决于需求:质量优先选GPT-4V/Claude,隐私优先选LLaVA本地部署
今日行动项
- 入门:用ChatGPT或Claude上传一张照片,试试图片分析功能
- 进阶:用上面的名片处理模板,处理3张名片照片
- 挑战:安装Ollama+LLaVA,体验本地多模态AI
📖 地铁深读:多模态AI的技术内幕——从CLIP到Gemini
这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。
CLIP:连接文字和图片的桥梁
CLIP的核心思想可以用一个比喻来理解:
想象你有一本相册和一本日记。CLIP做的事情就是——训练一个”翻译官”,让他能看懂相册里的照片,也能读懂日记里的文字,然后把描述同一件事的照片和文字配对起来。
技术上,CLIP有两个编码器:
- 图像编码器(基于Vision Transformer):把图片变成一个向量(一串数字)
- 文本编码器(基于Transformer):把文字变成一个向量
训练时,CLIP从互联网上收集了4亿对图文数据。每一对中,图片和文字是匹配的。训练目标是:让匹配的图文对在向量空间中靠近,不匹配的远离。
训练完成后,CLIP获得了一个神奇的能力:零样本分类。你给它一张从没见过的图片,它能用文字描述出来——即使训练数据中从未出现过这个类别。
GPT-4V:多模态的「iPhone时刻」
2023年9月,OpenAI为GPT-4增加了视觉能力。这不是简单地”在GPT-4外面套一个图像识别模块”,而是从模型架构层面就支持图文混合输入。
GPT-4V的突破在于:
- 不只是识别:它能理解图片中的”意思”,而不仅仅是识别物体
- 推理能力:看到一张电路图,它能推断电流方向;看到一张图表,它能分析趋势
- 上下文理解:在对话中,它能结合之前的文字和当前的图片进行推理
Gemini:Google的多模态野心
Google的Gemini模型更进一步——它从训练的第一天就是多模态的。
之前的多模态模型大多是”先训练语言模型,再接上视觉能力”。Gemini则是在预训练阶段就同时处理文本、图片、音频、视频。
这意味着Gemini对不同模态的理解更”原生”,而不是后天”嫁接”的。
Gemini 1.5 Pro甚至支持100万token的上下文窗口——你可以给它一整部电影的视频,它能理解其中的情节。
多模态的未来:从理解到行动
当前的多模态AI主要做的是”理解”和”生成”。但未来的方向是行动:
- 机器人:多模态AI控制机器人,用”眼睛”看、用”手”操作
- 自动驾驶:同时处理摄像头、激光雷达、GPS等多种传感器数据
- 数字人:AI同时具备视觉、听觉、说话能力,像真人一样交流
这些应用的共同点是:AI不再只是被动地”看”和”听”,而是主动地与物理世界互动。
思考题:如果你能为自己的生活设计一个多模态AI助手,你希望它具备哪些能力?它需要同时处理哪些模态的信息?试着画一个简单的架构图。
下篇预告
明天早上8点:Day33——早课 AI翻译:跨语言沟通
明天下午5点:Day33——晚课 多模态AI实战
发表回复