上篇回顾
今天早课我们了解了多模态AI的核心概念——它不是简单的”文字+图片+语音”拼凑,而是跨模态理解与生成的统一能力。我们认识了GPT-4o、Gemini、Claude等主流多模态模型,也探讨了它们在图文理解、语音交互、视频分析等方面的能力边界。
今晚,我们动手。用5个实操项目,让你真正掌握多模态AI的工作方式。
实操一:图文理解——让AI”看图说话”
这是最基础也最直观的多模态能力。你给AI一张图片,它能描述内容、回答问题、提取文字。
操作步骤
第一步:准备一张图片
找一张你身边的照片,比如书桌、窗外风景、一顿饭,或者手机里的任意一张。
第二步:上传到多模态AI
打开ChatGPT(或Kimi、通义千问等支持图片的AI),点击对话框旁的附件按钮,上传图片。
第三步:用不同提示词提问
试试以下三种提问方式,对比AI的回答差异:
提示词A(描述型):
请详细描述这张图片中的内容,包括物体、颜色、布局和氛围。
提示词B(分析型):
这张图片中有哪些元素?它们之间有什么关系?如果是产品照片,分析它的构图优缺点。
提示词C(提取型):
如果图片中有文字,请逐字提取出来。如果有表格或数据,请整理成结构化格式。
关键发现
你会发现,同一个AI对同一张图片,不同的提示词会得到完全不同层次的回答。描述型给你”是什么”,分析型给你”为什么”,提取型给你”有什么”。这就是多模态+提示词工程的组合威力。
实操二:图像生成+文字润色——打造完整内容工作流
多模态AI不只是”看”,还能”画”。下面我们把文字生成和图像生成串成一条完整的内容生产线。
场景:为一篇公众号文章生成配文和配图
假设你要写一篇关于”周末咖啡馆办公”的推文。
第一步:用文字AI生成文章
向ChatGPT或Claude发送:
帮我写一篇300字的公众号推文,主题是”周末在咖啡馆办公的小确幸”,风格轻松温暖,包含3个小段落。
第二步:从文章中提取画面描述
继续对话:
请根据这篇文章,提取3个最适合配图的场景描述,用英文写成AI绘图提示词(Midjourney/DALL-E风格)。
AI可能会给你类似这样的提示词:
A cozy coffee shop interior, warm lighting, laptop on wooden table, latte art, soft bokeh background, afternoon sunlightOverhead shot of a workspace with coffee cup, notebook, succulent plant, minimalist aestheticPerson typing on laptop by window, rain outside, warm cup in hand, hygge atmosphere
第三步:用图像AI生成配图
把提示词粘贴到Midjourney、DALL-E或通义万相中,生成配图。
第四步:组装成品
将文字和图片组合,一篇图文并茂的内容就完成了。
效率对比
| 传统流程 | 多模态AI流程 |
|---|
|———|————-|
| 写稿1小时 | AI生成5分钟 |
|---|---|
| 找配图30分钟 | AI绘图3分钟 |
| 排版15分钟 | 复制粘贴2分钟 |
| 总计约2小时 | 总计约10分钟 |
实操三:语音+文字——打造你的”口述笔记”
语音识别(ASR)和语音合成(TTS)是多模态AI中最容易被忽视,但实用性极高的能力。
场景:会议录音→文字纪要→语音摘要
第一步:获取录音
手机自带录音App录一段30秒的”会议发言”(可以自己模拟,比如口述一个项目计划)。
第二步:语音转文字
使用以下任一工具:
- 讯飞听见(中文效果最好)
- Whisper(OpenAI开源,本地运行)
- 通义听悟(免费额度充足)
上传录音,获得文字稿。
第三步:AI提炼要点
将文字稿发送给ChatGPT:
这是一段会议录音的文字稿,请提取3-5个关键要点,用简洁的条目格式列出。
第四步:文字转语音
将要点发给语音合成工具(如讯飞语音、Edge TTS、或ChatGPT的朗读功能),生成一段语音摘要。
实用模板
你可以把这个流程固定下来,形成自己的”会议助手”工作流:
`
录音 → Whisper转文字 → ChatGPT提要点 → Edge TTS生成语音摘要
`
整个流程5分钟内完成,替代传统30分钟的手动整理。
实操四:跨模态翻译——从图片到多语言
这是多模态AI最”魔法”的场景之一:看一张图,用不同语言描述它。
场景:产品图片→多语言产品描述
假设你有一张产品照片(比如一个保温杯),需要生成中英日三种语言的产品描述。
第一步:上传产品图片
将图片上传到ChatGPT或Gemini。
第二步:生成中文描述
请用专业的电商文案风格,为这个产品写一段150字的中文描述,突出材质、功能和使用场景。
第三步:翻译为多语言
请将上面的描述翻译成英文和日文,保持营销文案的风格,不要直译。
第四步:优化本地化表达
日文版本请特别注意敬语的使用,英文版本请适配Amazon产品listing的风格。
进阶技巧
如果你的产品面向特定市场,可以进一步要求:
英文版请考虑美国消费者的关注点(环保、便携),日文版请考虑日本消费者的关注点(精致、细节)。
这样出来的不只是翻译,而是本地化的营销内容。
实操五:完整项目——搭建”旅行助手”多模态工作流
最后一个实操,我们把前面学到的所有能力整合到一个完整项目中。
项目目标
创建一个”旅行助手”,它能:
- 看懂旅行照片
- 生成旅行日记
- 朗读日记内容
- 翻译成英文分享给外国朋友
完整流程
Step 1:看图识景
上传一张旅行照片:
这是在哪里拍的?照片中有什么特色元素?适合写一段什么样的旅行感想?
Step 2:生成旅行日记
根据AI的分析结果:
请根据这张照片写一段200字的旅行日记,风格轻松感性,像在和朋友分享。
Step 3:优化润色
请把这段日记润色一下,增加一些感官描写(气味、声音、触感),让读者更有代入感。
Step 4:语音朗读
将日记文字粘贴到TTS工具,选择一个温暖的声音,生成语音版本。
Step 5:英文翻译
请把这段旅行日记翻译成英文,保持感性的风格,适合发Instagram。
工作流总结
`
照片 → AI识景 → 生成日记 → 润色 → 语音朗读 → 翻译英文
↓
一条完整的内容生产线,从一张照片到中英双语+语音,全程10分钟
`
今日总结
今晚的5个实操,覆盖了多模态AI的核心应用场景:
- 图文理解:让AI”看懂”图片,提取信息和分析内容
- 图像生成+文字:串联文字AI和图像AI,打造内容生产线
- 语音+文字:录音转文字、要点提取、语音播报的完整链路
- 跨模态翻译:从图片到多语言内容的自动化流程
- 综合项目:将所有能力整合到一个旅行助手工作流中
核心心得:多模态AI的真正价值,不是单个模态的能力,而是模态之间的自由转换和组合。掌握这种”跨模态思维”,比学会任何一个具体工具都重要。
今日行动项
- 入门级:找一张照片,用3种不同提示词让AI描述它,感受提示词对结果的影响
- 进阶级:尝试”文字AI+图像AI”的组合工作流,为一篇短文生成配图
- 挑战级:用今晚学到的方法,为你最近拍的一张照片生成中英双语旅行日记+语音版
📖 地铁深读:多模态AI的技术原理——”对齐”到底是什么?
你可能在各种技术文章中看到过”多模态对齐”(Multimodal Alignment)这个词,但很少有人把它讲清楚。今天我们用5分钟把它说明白。
为什么需要”对齐”?
想象一下,你脑子里同时有三种信息:
- 一张猫的照片(视觉信号)
- “这是一只橘猫”这句话(语言信号)
- 猫叫的声音(听觉信号)
对你来说,这三种信息指向同一个概念——”猫”。但对计算机来说,图片是像素矩阵,文字是token序列,声音是声波采样。它们在数学上完全是不同维度的向量,根本不在同一个空间里。
“对齐”就是让不同模态的向量指向同一个语义空间。
怎么做到的?
CLIP(OpenAI 2021年发布)是最经典的对齐方法。它的思路很简单:
- 收集大量”图片-文字”配对数据(比如网络上的图片和它的描述文字)
- 训练两个编码器:一个把图片变成向量,一个把文字变成向量
- 让”匹配的图文对”在向量空间中靠近,”不匹配的”远离
经过海量数据训练后,这两个编码器就学会了:同一概念的不同模态表示,在向量空间中会聚在一起。
这就是为什么多模态AI能”看图说话”——它不是真的在”看”,而是把图片向量和文字向量放在了同一个空间里,然后找到最近的语义邻居。
多模态的未来
当前的多模态模型(GPT-4o、Gemini等)已经能处理文字、图片、音频、视频四种模态。但真正的挑战在于:
- 实时性:能否像人类一样实时处理多种感官输入?
- 一致性:跨模态的理解是否真正一致,还是各自为政?
- 创造性:能否在不同模态之间产生真正的创意组合?
这些问题的答案,将决定下一代AI的形态。而你今晚亲手体验的跨模态工作流,正是理解这些问题的最佳起点。
下篇预告
明天早上8点:Day36——早课 ChatGPT深度使用
明晚5点:Day36——晚课 ChatGPT深度使用实战
发表回复