Day32——晚课 多模态AI实战

作者:

系列教程说明

这是「AI专家养成计划」系列教程的第64篇,共140篇。本系列从零基础出发,每天一课,帮你系统掌握AI知识。适合完全零基础的学习者,也适合想建立完整AI知识体系的朋友。

上篇回顾

今天早上我们学习了多模态AI的理论基础。三个核心要点:

  1. 多模态的本质:AI同时处理文字、图片、声音、视频等多种信息,核心技术是跨模态对齐——把不同模态映射到同一个语义空间
  2. 三条技术路线:编码器-解码器架构(如CLIP)、统一Transformer架构(如GPT-4V)、扩散模型+条件生成(如Stable Diffusion)
  3. 应用已经很丰富:图片理解、文本生图、文本生视频、图文音融合全能助手

今晚的实战课,我们不讲理论,直接动手——用5个完整案例,带你真正上手多模态AI。


实操一:用ChatGPT/Claude分析图片(5分钟)

这是最容易上手的多模态应用。你只需要一个能上传图片的AI对话工具。

步骤

第一步:打开ChatGPT(chat.openai.com)或Claude(claude.ai)

第二步:点击对话框左侧的「回形针」或「+」按钮,上传一张图片

第三步:输入提示词,让AI分析图片

3个实用提示词模板

模板1:食材识别+菜谱推荐

`

请分析这张冰箱照片:

  1. 列出所有可见的食材
  2. 根据这些食材推荐2道菜
  3. 给出每道菜的简要做法

`

模板2:图表分析

`

请分析这张图表:

  1. 图表的类型是什么?
  2. 核心数据趋势是什么?
  3. 有哪些异常值或值得注意的点?
  4. 请用一句话总结这个图表的关键信息

`

模板3:文档OCR+整理

`

请识别这张图片中的所有文字,然后:

  1. 提取关键信息
  2. 用表格形式整理
  3. 如果有日期、金额等数字,单独标注

`

小技巧:上传图片后,先让AI描述它看到了什么(”请描述这张图片”),确认AI理解正确后,再提出具体需求。这样能避免AI”幻觉”。


实操二:文本生成图片——Stable Diffusion本地部署(15分钟)

早课提到Stable Diffusion是开源的,可以本地运行。今晚我们来实际操作。

安装步骤

第一步:安装ComfyUI(推荐的Stable Diffusion前端)

`bash

# 克隆ComfyUI仓库

git clone https://github.com/comfyanonymous/ComfyUI.git

cd ComfyUI

# 安装依赖(需要Python 3.10+)

pip install -r requirements.txt

`

第二步:下载模型文件

`bash

# 下载Stable Diffusion XL基础模型(约6GB)

# 从HuggingFace下载,放到models/checkpoints/目录

wget -P models/checkpoints/

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors

`

第三步:启动ComfyUI

`bash

python main.py

# 浏览器打开 http://127.0.0.1:8188

`

生成你的第一张图

在ComfyUI界面中:

  1. 左侧找到「Load Default」按钮,加载默认工作流
  2. 在「CLIP Text Encode」节点中输入提示词
  3. 点击「Queue Prompt」开始生成

推荐提示词(复制即用):

`

A cozy coffee shop interior, morning sunlight streaming through

windows, wooden tables, bookshelves on the wall, warm color palette,

photorealistic, 8k quality

`

负面提示词(告诉AI不要生成什么):

`

blurry, low quality, distorted, ugly, deformed, text, watermark

`

提示词进阶技巧

技巧 示例 效果

|——|——|——|

指定风格 watercolor style / oil painting / anime 改变画风
指定光线 golden hour / dramatic lighting / soft light 改变氛围
指定镜头 close-up / wide angle / bird's eye view 改变构图
加权重 (cat:1.5) 强调某个元素
混合风格 cyberpunk meets traditional Chinese 创意混搭

实操三:用GPT-4V做「图片翻译官」(10分钟)

这个场景非常实用:出国旅行时,对着菜单、路牌、说明书拍一张照片,AI帮你翻译+解释。

实战案例:翻译一份英文菜单

第一步:找一张英文菜单的照片(或者自己拍一张)

第二步:上传到ChatGPT,输入以下提示词:

`

你是一位专业的菜单翻译官。请帮我翻译这份英文菜单:

  1. 将每道菜名翻译成中文(保留英文原名)
  2. 根据菜品描述,补充说明这道菜的口味和主要食材
  3. 标注价格(如果有)
  4. 如果有你不确定的翻译,标注「⚠️建议确认」

最后,请推荐3道你认为最值得尝试的菜品,说明推荐理由。

`

第三步:AI会返回一个结构化的翻译结果

更多实用场景

场景1:路标翻译

`

[上传路标照片]

请翻译这个路标上的所有文字,并告诉我:

  1. 这是什么类型的指示牌?
  2. 具体指示了什么方向/信息?
  3. 如果我在旅行中看到这个,应该怎么做?

`

场景2:产品说明书

`

[上传产品说明书照片]

请识别这份说明书的所有文字,提取以下关键信息:

  1. 产品名称和型号
  2. 使用注意事项
  3. 维护保养建议

用简洁的中文列出要点。

`

场景3:发票/收据识别

`

[上传收据照片]

请识别这张收据的:

  1. 商家名称
  2. 消费日期
  3. 所有项目及金额
  4. 总金额

用表格整理,并告诉我这是什么类型的消费。

`


实操四:搭建一个多模态文档处理流水线(15分钟)

这是一个完整的实战项目:用AI自动处理包含图片和文字的文档。

场景设定

你有一堆手机拍的名片照片,需要把信息录入通讯录。手动输入太慢,我们用AI来自动完成。

方案设计

`

手机拍名片照片

AI视觉识别(提取文字+理解布局)

结构化输出(姓名、电话、邮箱、公司、职位)

导入通讯录(vCard格式)

`

实现步骤

第一步:准备名片照片

用手机拍几张名片(或者从网上找示例图片)。

第二步:用ChatGPT/Claude处理

上传名片照片,使用以下提示词:

`

请分析这张名片照片,提取以下信息并用JSON格式输出:

{

“name”: “姓名”,

“title”: “职位”,

“company”: “公司名称”,

“phone”: “电话号码”,

“email”: “邮箱”,

“address”: “地址”,

“website”: “网站”,

“other”: “其他信息”

}

要求:

  1. 如果某项信息不存在,填null
  2. 电话号码保留原始格式
  3. 如果有多个电话/邮箱,用数组表示
  4. 如果名片是外文,同时提供原文和中文翻译

`

第三步:批量处理

如果你有多张名片,可以把多张照片上传到同一个对话中,AI会逐张处理。

第四步:生成vCard文件

拿到JSON数据后,让AI帮你生成vCard格式:

`

请根据以下JSON数据,生成标准的vCard格式文件:

[粘贴JSON数据]

输出格式:

BEGIN:VCARD

VERSION:3.0

N:姓;名

FN:姓名

ORG:公司

TEL:电话

EMAIL:邮箱

END:VCARD

`

把生成的文本保存为.vcf文件,导入手机通讯录即可。

这个方案的核心价值

  • 从照片到结构化数据:AI理解名片的布局,不只是OCR识别文字
  • 一步到位:不需要先OCR再解析,AI直接输出结构化JSON
  • 容错能力强:名片有褶皱、角度歪斜、光线不好,AI照样能识别

实操五:用开源工具搭建本地多模态助手(15分钟)

不想依赖云端API?我们用开源工具搭建一个完全本地运行的多模态助手。

方案:LLaVA + Ollama

LLaVA(Large Language and Vision Assistant)是一个开源的多模态模型,能同时理解图片和文字。通过Ollama可以一键部署。

安装步骤

第一步:安装Ollama(如果还没安装)

`bash

curl -fsSL https://ollama.ai/install.sh | sh

`

第二步:下载LLaVA模型

`bash

# 下载LLaVA 7B模型(约4.7GB)

ollama pull llava:7b

# 如果显存充足(12GB+),可以下载更大的模型

ollama pull llava:13b

`

第三步:使用多模态对话

`bash

# 命令行方式:上传图片并提问

ollama run llava:7b “请描述这张图片的内容” –images /path/to/image.jpg

`

第四步:用Python调用(适合批量处理)

`python

import requests

import base64

def ask_about_image(image_path, question):

“””用LLaVA分析图片”””

with open(image_path, “rb”) as f:

image_data = base64.b64encode(f.read()).decode()

response = requests.post(“http://localhost:11434/api/generate”, json={

“model”: “llava:7b”,

“prompt”: question,

“images”: [image_data],

“stream”: False

})

return response.json()[“response”]

# 使用示例

result = ask_about_image(“photo.jpg”, “这张图片里有什么?”)

print(result)

`

本地多模态的优势

对比项 云端API(GPT-4V) 本地部署(LLaVA)

|——–|——————-|——————-|

隐私 图片上传到云端 完全本地处理
费用 按量付费 免费
速度 取决于网络 取决于硬件
质量 非常高 中等偏上
离线 不支持 支持

建议:隐私敏感的场景(如处理身份证、合同、医疗报告)用本地模型;需要高质量分析的场景用云端API。


今日总结

  1. 多模态AI的核心是「理解+生成」:不仅能看懂图片、听懂语音,还能生成图片、视频、语音
  2. 5个实操覆盖了最常见的场景:图片分析、文本生图、图片翻译、文档处理、本地部署
  3. 选择云端还是本地取决于需求:质量优先选GPT-4V/Claude,隐私优先选LLaVA本地部署

今日行动项

  1. 入门:用ChatGPT或Claude上传一张照片,试试图片分析功能
  2. 进阶:用上面的名片处理模板,处理3张名片照片
  3. 挑战:安装Ollama+LLaVA,体验本地多模态AI

📖 地铁深读:多模态AI的技术内幕——从CLIP到Gemini

这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。

CLIP:连接文字和图片的桥梁

CLIP的核心思想可以用一个比喻来理解:

想象你有一本相册和一本日记。CLIP做的事情就是——训练一个”翻译官”,让他能看懂相册里的照片,也能读懂日记里的文字,然后把描述同一件事的照片和文字配对起来。

技术上,CLIP有两个编码器:

  • 图像编码器(基于Vision Transformer):把图片变成一个向量(一串数字)
  • 文本编码器(基于Transformer):把文字变成一个向量

训练时,CLIP从互联网上收集了4亿对图文数据。每一对中,图片和文字是匹配的。训练目标是:让匹配的图文对在向量空间中靠近,不匹配的远离。

训练完成后,CLIP获得了一个神奇的能力:零样本分类。你给它一张从没见过的图片,它能用文字描述出来——即使训练数据中从未出现过这个类别。

GPT-4V:多模态的「iPhone时刻」

2023年9月,OpenAI为GPT-4增加了视觉能力。这不是简单地”在GPT-4外面套一个图像识别模块”,而是从模型架构层面就支持图文混合输入。

GPT-4V的突破在于:

  • 不只是识别:它能理解图片中的”意思”,而不仅仅是识别物体
  • 推理能力:看到一张电路图,它能推断电流方向;看到一张图表,它能分析趋势
  • 上下文理解:在对话中,它能结合之前的文字和当前的图片进行推理

Gemini:Google的多模态野心

Google的Gemini模型更进一步——它从训练的第一天就是多模态的。

之前的多模态模型大多是”先训练语言模型,再接上视觉能力”。Gemini则是在预训练阶段就同时处理文本、图片、音频、视频。

这意味着Gemini对不同模态的理解更”原生”,而不是后天”嫁接”的。

Gemini 1.5 Pro甚至支持100万token的上下文窗口——你可以给它一整部电影的视频,它能理解其中的情节。

多模态的未来:从理解到行动

当前的多模态AI主要做的是”理解”和”生成”。但未来的方向是行动

  • 机器人:多模态AI控制机器人,用”眼睛”看、用”手”操作
  • 自动驾驶:同时处理摄像头、激光雷达、GPS等多种传感器数据
  • 数字人:AI同时具备视觉、听觉、说话能力,像真人一样交流

这些应用的共同点是:AI不再只是被动地”看”和”听”,而是主动地与物理世界互动。

思考题:如果你能为自己的生活设计一个多模态AI助手,你希望它具备哪些能力?它需要同时处理哪些模态的信息?试着画一个简单的架构图。


下篇预告

明天早上8点:Day33——早课 AI翻译:跨语言沟通

明天下午5点:Day33——晚课 多模态AI实战

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注