Day32——晚课多模态AI实战

系列教程说明

这是「AI专家养成计划」系列教程的第64篇，共140篇。本系列从零基础出发，每天一课，帮你系统掌握AI知识。适合完全零基础的学习者，也适合想建立完整AI知识体系的朋友。

上篇回顾

今天早上我们学习了多模态AI的理论基础。三个核心要点：

多模态的本质：AI同时处理文字、图片、声音、视频等多种信息，核心技术是跨模态对齐——把不同模态映射到同一个语义空间
三条技术路线：编码器-解码器架构（如CLIP）、统一Transformer架构（如GPT-4V）、扩散模型+条件生成（如Stable Diffusion）
应用已经很丰富：图片理解、文本生图、文本生视频、图文音融合全能助手

今晚的实战课，我们不讲理论，直接动手——用5个完整案例，带你真正上手多模态AI。

实操一：用ChatGPT/Claude分析图片（5分钟）

这是最容易上手的多模态应用。你只需要一个能上传图片的AI对话工具。

步骤

第一步：打开ChatGPT（chat.openai.com）或Claude（claude.ai）

第二步：点击对话框左侧的「回形针」或「+」按钮，上传一张图片

第三步：输入提示词，让AI分析图片

3个实用提示词模板

模板1：食材识别+菜谱推荐

请分析这张冰箱照片：

列出所有可见的食材
根据这些食材推荐2道菜
给出每道菜的简要做法

模板2：图表分析

请分析这张图表：

图表的类型是什么？
核心数据趋势是什么？
有哪些异常值或值得注意的点？
请用一句话总结这个图表的关键信息

模板3：文档OCR+整理

请识别这张图片中的所有文字，然后：

提取关键信息
用表格形式整理
如果有日期、金额等数字，单独标注

小技巧：上传图片后，先让AI描述它看到了什么（”请描述这张图片”），确认AI理解正确后，再提出具体需求。这样能避免AI”幻觉”。

实操二：文本生成图片——Stable Diffusion本地部署（15分钟）

早课提到Stable Diffusion是开源的，可以本地运行。今晚我们来实际操作。

安装步骤

第一步：安装ComfyUI（推荐的Stable Diffusion前端）

`bash

# 克隆ComfyUI仓库

git clone https://github.com/comfyanonymous/ComfyUI.git

cd ComfyUI

# 安装依赖（需要Python 3.10+）

pip install -r requirements.txt

第二步：下载模型文件

`bash

# 下载Stable Diffusion XL基础模型（约6GB）

# 从HuggingFace下载，放到models/checkpoints/目录

wget -P models/checkpoints/

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors

第三步：启动ComfyUI

`bash

python main.py

# 浏览器打开 http://127.0.0.1:8188

生成你的第一张图

在ComfyUI界面中：

左侧找到「Load Default」按钮，加载默认工作流
在「CLIP Text Encode」节点中输入提示词
点击「Queue Prompt」开始生成

推荐提示词（复制即用）：

A cozy coffee shop interior, morning sunlight streaming through

windows, wooden tables, bookshelves on the wall, warm color palette,

photorealistic, 8k quality

负面提示词（告诉AI不要生成什么）：

blurry, low quality, distorted, ugly, deformed, text, watermark

提示词进阶技巧

技巧	示例	效果

|——|——|——|

指定风格	`watercolor style` / `oil painting` / `anime`	改变画风
指定光线	`golden hour` / `dramatic lighting` / `soft light`	改变氛围
指定镜头	`close-up` / `wide angle` / `bird's eye view`	改变构图
加权重	`(cat:1.5)`	强调某个元素
混合风格	`cyberpunk meets traditional Chinese`	创意混搭

实操三：用GPT-4V做「图片翻译官」（10分钟）

这个场景非常实用：出国旅行时，对着菜单、路牌、说明书拍一张照片，AI帮你翻译+解释。

实战案例：翻译一份英文菜单

第一步：找一张英文菜单的照片（或者自己拍一张）

第二步：上传到ChatGPT，输入以下提示词：

你是一位专业的菜单翻译官。请帮我翻译这份英文菜单：

将每道菜名翻译成中文（保留英文原名）
根据菜品描述，补充说明这道菜的口味和主要食材
标注价格（如果有）
如果有你不确定的翻译，标注「⚠️建议确认」

最后，请推荐3道你认为最值得尝试的菜品，说明推荐理由。

第三步：AI会返回一个结构化的翻译结果

实操四：搭建一个多模态文档处理流水线（15分钟）

这是一个完整的实战项目：用AI自动处理包含图片和文字的文档。

场景设定

你有一堆手机拍的名片照片，需要把信息录入通讯录。手动输入太慢，我们用AI来自动完成。

方案设计

手机拍名片照片

↓

AI视觉识别（提取文字+理解布局）

↓

结构化输出（姓名、电话、邮箱、公司、职位）

↓

导入通讯录（vCard格式）

实现步骤

第一步：准备名片照片

用手机拍几张名片（或者从网上找示例图片）。

第二步：用ChatGPT/Claude处理

上传名片照片，使用以下提示词：

请分析这张名片照片，提取以下信息并用JSON格式输出：

{

“name”: “姓名”,

“title”: “职位”,

“company”: “公司名称”,

“phone”: “电话号码”,

“email”: “邮箱”,

“address”: “地址”,

“website”: “网站”,

“other”: “其他信息”

}

要求：

如果某项信息不存在，填null
电话号码保留原始格式
如果有多个电话/邮箱，用数组表示
如果名片是外文，同时提供原文和中文翻译

第三步：批量处理

如果你有多张名片，可以把多张照片上传到同一个对话中，AI会逐张处理。

第四步：生成vCard文件

拿到JSON数据后，让AI帮你生成vCard格式：

请根据以下JSON数据，生成标准的vCard格式文件：

[粘贴JSON数据]

输出格式：

BEGIN:VCARD

VERSION:3.0

N:姓;名

FN:姓名

ORG:公司

TEL:电话

EMAIL:邮箱

END:VCARD

把生成的文本保存为.vcf文件，导入手机通讯录即可。

这个方案的核心价值

从照片到结构化数据：AI理解名片的布局，不只是OCR识别文字
一步到位：不需要先OCR再解析，AI直接输出结构化JSON
容错能力强：名片有褶皱、角度歪斜、光线不好，AI照样能识别

实操五：用开源工具搭建本地多模态助手（15分钟）

不想依赖云端API？我们用开源工具搭建一个完全本地运行的多模态助手。

方案：LLaVA + Ollama

LLaVA（Large Language and Vision Assistant）是一个开源的多模态模型，能同时理解图片和文字。通过Ollama可以一键部署。

安装步骤

第一步：安装Ollama（如果还没安装）

`bash

curl -fsSL https://ollama.ai/install.sh | sh

第二步：下载LLaVA模型

`bash

# 下载LLaVA 7B模型（约4.7GB）

ollama pull llava:7b

# 如果显存充足（12GB+），可以下载更大的模型

ollama pull llava:13b

第三步：使用多模态对话

`bash

# 命令行方式：上传图片并提问

ollama run llava:7b “请描述这张图片的内容” –images /path/to/image.jpg

第四步：用Python调用（适合批量处理）

`python

import requests

import base64

def ask_about_image(image_path, question):

“””用LLaVA分析图片”””

with open(image_path, “rb”) as f:

image_data = base64.b64encode(f.read()).decode()

response = requests.post(“http://localhost:11434/api/generate”, json={

“model”: “llava:7b”,

“prompt”: question,

“images”: [image_data],

“stream”: False

})

return response.json()[“response”]

# 使用示例

result = ask_about_image(“photo.jpg”, “这张图片里有什么？”)

print(result)

本地多模态的优势

对比项	云端API（GPT-4V）	本地部署（LLaVA）

|——–|——————-|——————-|

隐私	图片上传到云端	完全本地处理
费用	按量付费	免费
速度	取决于网络	取决于硬件
质量	非常高	中等偏上
离线	不支持	支持

建议：隐私敏感的场景（如处理身份证、合同、医疗报告）用本地模型；需要高质量分析的场景用云端API。

今日总结

多模态AI的核心是「理解+生成」：不仅能看懂图片、听懂语音，还能生成图片、视频、语音
5个实操覆盖了最常见的场景：图片分析、文本生图、图片翻译、文档处理、本地部署
选择云端还是本地取决于需求：质量优先选GPT-4V/Claude，隐私优先选LLaVA本地部署

今日行动项

入门：用ChatGPT或Claude上传一张照片，试试图片分析功能
进阶：用上面的名片处理模板，处理3张名片照片
挑战：安装Ollama+LLaVA，体验本地多模态AI

📖 地铁深读：多模态AI的技术内幕——从CLIP到Gemini

这个板块专为地铁通勤设计，每篇5-10分钟。不想深读可以跳过，不影响主线学习。

CLIP：连接文字和图片的桥梁

CLIP的核心思想可以用一个比喻来理解：

想象你有一本相册和一本日记。CLIP做的事情就是——训练一个”翻译官”，让他能看懂相册里的照片，也能读懂日记里的文字，然后把描述同一件事的照片和文字配对起来。

技术上，CLIP有两个编码器：

图像编码器（基于Vision Transformer）：把图片变成一个向量（一串数字）
文本编码器（基于Transformer）：把文字变成一个向量

训练时，CLIP从互联网上收集了4亿对图文数据。每一对中，图片和文字是匹配的。训练目标是：让匹配的图文对在向量空间中靠近，不匹配的远离。

训练完成后，CLIP获得了一个神奇的能力：零样本分类。你给它一张从没见过的图片，它能用文字描述出来——即使训练数据中从未出现过这个类别。

GPT-4V：多模态的「iPhone时刻」

2023年9月，OpenAI为GPT-4增加了视觉能力。这不是简单地”在GPT-4外面套一个图像识别模块”，而是从模型架构层面就支持图文混合输入。

GPT-4V的突破在于：

不只是识别：它能理解图片中的”意思”，而不仅仅是识别物体
推理能力：看到一张电路图，它能推断电流方向；看到一张图表，它能分析趋势
上下文理解：在对话中，它能结合之前的文字和当前的图片进行推理

Gemini：Google的多模态野心

Google的Gemini模型更进一步——它从训练的第一天就是多模态的。

之前的多模态模型大多是”先训练语言模型，再接上视觉能力”。Gemini则是在预训练阶段就同时处理文本、图片、音频、视频。

这意味着Gemini对不同模态的理解更”原生”，而不是后天”嫁接”的。

Gemini 1.5 Pro甚至支持100万token的上下文窗口——你可以给它一整部电影的视频，它能理解其中的情节。

多模态的未来：从理解到行动

当前的多模态AI主要做的是”理解”和”生成”。但未来的方向是行动：

机器人：多模态AI控制机器人，用”眼睛”看、用”手”操作
自动驾驶：同时处理摄像头、激光雷达、GPS等多种传感器数据
数字人：AI同时具备视觉、听觉、说话能力，像真人一样交流

这些应用的共同点是：AI不再只是被动地”看”和”听”，而是主动地与物理世界互动。

思考题：如果你能为自己的生活设计一个多模态AI助手，你希望它具备哪些能力？它需要同时处理哪些模态的信息？试着画一个简单的架构图。

下篇预告

明天早上8点：Day33——早课 AI翻译：跨语言沟通

明天下午5点：Day33——晚课多模态AI实战

Day32——晚课 多模态AI实战

系列教程说明

上篇回顾

实操一：用ChatGPT/Claude分析图片（5分钟）

步骤

3个实用提示词模板

实操二：文本生成图片——Stable Diffusion本地部署（15分钟）

安装步骤

生成你的第一张图

提示词进阶技巧

实操三：用GPT-4V做「图片翻译官」（10分钟）

实战案例：翻译一份英文菜单

更多实用场景

实操四：搭建一个多模态文档处理流水线（15分钟）

场景设定

方案设计

实现步骤

这个方案的核心价值

实操五：用开源工具搭建本地多模态助手（15分钟）

方案：LLaVA + Ollama

安装步骤

本地多模态的优势

今日总结

今日行动项

📖 地铁深读：多模态AI的技术内幕——从CLIP到Gemini

CLIP：连接文字和图片的桥梁

GPT-4V：多模态的「iPhone时刻」

Gemini：Google的多模态野心

多模态的未来：从理解到行动

下篇预告

评论

发表回复 取消回复

更多文章

攀岩运动简介