Day46——晚课 AI与音乐创作

作者:

系列教程说明

这是「AI专家养成计划」系列教程的第92篇,共140篇。本系列从零基础出发,70天带你掌握AI核心技能。晚课以实战为主,手把手教你动手操作。

上篇回顾

今天早课我们了解了AI音乐创作的全景:

  • AI音乐的原理:从MIDI生成到音频合成,AI如何理解音乐的节奏、旋律和和声
  • 主流工具概览:Suno、Udio、MusicGen等工具各自的特点和适用场景
  • 音乐提示词的基本结构:风格、情绪、乐器、节奏四个维度的描述方法

今晚的实践课,我们将亲手用AI创作完整的音乐作品,从简单的哼唱旋律到完整的歌曲制作。


实操一:Suno入门——3分钟生成第一首歌

Suno是目前最火的AI音乐生成工具,支持中文歌词,操作极其简单。

第一步:注册账号

  1. 打开浏览器,访问 suno.com
  2. 点击右上角 Sign Up
  3. 用Google或Discord账号快速注册
  4. 免费账号每天有10次生成机会(每次生成2个版本)

第二步:进入创作界面

登录后点击 Create 按钮,你会看到两种模式:

  • Simple Mode:只需输入描述,AI自动生成歌词和音乐
  • Custom Mode:自己写歌词,指定风格

我们先用Simple Mode体验:

  1. 在输入框中输入:A cheerful pop song about a sunny weekend picnic with friends
  2. 点击 Create
  3. 等待约1分钟,Suno会生成两个版本
  4. 点击播放按钮试听

第三步:用中文试试

清空输入框,输入:一首欢快的中文流行歌曲,关于夏天在海边冲浪的快乐时光

你会发现Suno能很好地理解中文描述,生成带中文歌词的歌曲。

小技巧:描述越具体,生成结果越可控。一首歌太模糊,一首80BPM的轻快民谣吉他伴奏的中文情歌则能精确控制风格。


实操二:掌握音乐提示词的四个维度

好的音乐提示词需要覆盖四个关键维度。记住这个公式:

风格 + 情绪 + 乐器 + 场景 = 精准的音乐描述

维度一:风格(Genre)

中文描述 英文提示词 适用场景

|———|———–|———|

流行 Pop, K-pop, J-pop 日常、轻松
摇滚 Rock, Indie Rock, Punk 激情、力量
电子 EDM, Synthwave, Lo-fi 科技感、放松
古典 Classical, Orchestral 庄重、史诗
爵士 Jazz, Smooth Jazz 优雅、慵懒
说唱 Hip-hop, Rap 节奏感、态度
民谣 Folk, Acoustic 温暖、叙事

维度二:情绪(Mood)

常用情绪词:happy(欢快)、melancholic(忧郁)、energetic(充满活力)、peaceful(平静)、epic(史诗)、dreamy(梦幻)、nostalgic(怀旧)

维度三:乐器(Instruments)

指定乐器能让AI更好地控制编曲:piano(钢琴)、guitar(吉他)、violin(小提琴)、synthesizer(合成器)、drums(鼓)、saxophone(萨克斯)

维度四:场景/用途(Context)

告诉AI这首歌的用途:background music for a tech presentationtheme song for a podcast intromeditation music for yoga

实战练习:组合提示词

试试这5个组合,观察生成效果的差异:

  1. Upbeat electronic pop, energetic, synth bass and drums, for a workout playlist
  2. Slow acoustic folk, nostalgic and warm, fingerpicked guitar, about childhood memories
  3. Epic orchestral cinematic, heroic and dramatic, full orchestra with choir, for a movie trailer
  4. Chill lo-fi hip-hop, relaxed and dreamy, vinyl crackle and soft piano, for late-night studying
  5. Chinese traditional fusion, peaceful and elegant, guzheng and flute, about mountain scenery

每个都生成一遍,对比感受不同维度组合带来的音乐差异。


实操三:自定义歌词创作

Simple Mode虽然方便,但Custom Mode才是真正的创作利器。你可以精确控制歌词内容。

第一步:准备歌词

在Suno的Custom Mode中,歌词支持结构标签

`

[Intro]

(纯音乐前奏,4小节)

[Verse 1]

清晨的阳光洒在键盘上

咖啡的香气弥漫在房间

打开电脑开始新的一天

AI和我一起创造无限

[Chorus]

用代码编织梦想的翅膀

让音乐在指尖流淌

科技与艺术的交汇点

这是我们共同的乐章

[Verse 2]

屏幕上的旋律渐渐成型

每一个音符都充满感情

机器学习读懂了我的心

把想象变成了真实的声音

[Chorus]

用代码编织梦想的翅膀

让音乐在指尖流淌

科技与艺术的交汇点

这是我们共同的乐章

[Bridge]

从零到一的突破瞬间

灵感与算法完美碰撞

未来已来 不必等待

音乐的世界没有边界

[Outro]

(渐弱的钢琴旋律,慢慢淡出)

`

第二步:指定音乐风格

在Style栏输入:Indie Pop, Electronic, Female Vocal, 120BPM

第三步:生成并调整

点击Create,试听两个版本。如果不满意:

  • 调整歌词的节奏感(每行字数影响节奏)
  • 修改风格描述(换个子流派)
  • 在歌词中加入[Guitar Solo][Drum Break]等结构指令

实操四:MusicGen本地生成——不花一分钱

如果你想完全掌控音乐生成过程,或者不想受限于平台的每日额度,可以用Meta开源的MusicGen在本地运行。

前提条件:需要一块至少6GB显存的显卡(GTX 1060及以上)。没有显卡也可以用CPU,但速度会慢很多。

第一步:安装环境

`bash

# 创建虚拟环境

python3 -m venv musicgen-env

source musicgen-env/bin/activate

# 安装依赖

pip install torch torchaudio –index-url https://download.pytorch.org/whl/cu118

pip install audiocraft transformers

`

第二步:编写生成脚本

创建文件 generate_music.py

`python

import torchaudio

from audiocraft.models import MusicGen

# 加载模型(首次运行会下载约3GB模型文件)

print(“正在加载MusicGen模型…”)

model = MusicGen.get_pretrained(‘facebook/musicgen-small’)

model.set_generation_params(duration=15) # 生成15秒音乐

# 文本描述生成音乐

descriptions = [

“A peaceful piano melody with soft strings, perfect for relaxation”,

“Upbeat electronic dance music with heavy bass drop”,

“Chinese traditional music with erhu and bamboo flute”,

]

print(“开始生成音乐…”)

wav = model.generate(descriptions)

# 保存文件

for i, desc in enumerate(descriptions):

filename = f”generated_{i}.wav”

torchaudio.save(filename, wav[i].cpu(), sample_rate=32000)

print(f”已保存: {filename}”)

print(f” 描述: {desc}”)

print(“全部完成!”)

`

第三步:运行生成

`bash

python generate_music.py

`

首次运行会下载模型(约3GB),之后每次生成15秒音乐大约需要30秒(GPU)或3-5分钟(CPU)。

MusicGen的三个模型规格

模型 参数量 显存需求 生成质量

|——|——–|———|———|

musicgen-small 300M 4GB 适合快速原型
musicgen-medium 1.5B 8GB 平衡之选
musicgen-large 3.3B 16GB 最高质量

进阶:旋律条件生成

MusicGen还支持旋律引导——你哼一段旋律,AI在此基础上生成完整编曲:

`python

import torchaudio

from audiocraft.models import MusicGen

model = MusicGen.get_pretrained(‘facebook/musicgen-melody’)

# 加载你的哼唱音频

melody, sr = torchaudio.load(‘my_humming.wav’)

# 基于旋律生成

wav = model.generate_with_chroma(

descriptions=[“A full band arrangement with drums, bass, and guitar”],

melody_wavs=melody,

melody_sample_rate=sr,

)

torchaudio.save(“arranged_song.wav”, wav[0].cpu(), sample_rate=32000)

`


实操五:完整项目——制作一首完整的播客片头

现在我们把学到的技能组合起来,完成一个实战项目:为一个科技播客制作片头音乐。

项目需求

  • 时长:15-20秒
  • 风格:科技感、现代、专业
  • 用途:播客每期开头的固定音乐
  • 要求:有明确的开头和结尾,中间有节奏推进

第一步:用Suno生成候选版本

在Custom Mode中输入:

歌词:

`

[Intro]

(电子音效渐入)

[Verse]

Tech vibes, future lives

Knowledge flows, insight grows

Welcome to the show

[Outro]

(电子音效渐出)

`

风格:Electronic, Futuristic, Podcast Intro, 110BPM, Clean Production

生成两个版本,选择节奏感更好的那个。

第二步:用MusicGen生成备选

`python

descriptions = [

“A modern tech podcast intro music, electronic with subtle beats, “

“professional and clean, 15 seconds, starts soft and builds up, “

“ends with a clear resolution”

]

wav = model.generate(descriptions, progress=True)

torchaudio.save(“podcast_intro_option.wav”, wav[0].cpu(), sample_rate=32000)

`

第三步:对比选择

对比维度 Suno版本 MusicGen版本

|———|———|————-|

完整度 有歌词,更像歌曲 纯音乐,更像BGM
专业感 流行风格,亲和力强 电子风格,科技感强
适用场景 娱乐类播客 科技/商业类播客
后期编辑 需要剪辑缩短 可直接使用

根据你的播客定位选择最合适的版本。

第四步:简单后期处理(可选)

如果需要调整音量或添加淡入淡出,用Audacity(免费开源音频编辑软件):

  1. 打开Audacity,导入生成的音频
  2. 选中开头2秒 → 效果淡入
  3. 选中结尾2秒 → 效果淡出
  4. 如果音量太大,效果音量标准化
  5. 导出为MP3:文件导出导出为MP3

今日总结

  • Suno是入门首选:操作简单,支持中文,免费额度够日常练习
  • 提示词四维度:风格+情绪+乐器+场景,组合越精确效果越好
  • MusicGen适合进阶:开源免费,本地运行,支持旋律引导生成
  • 实战是最好的学习:从真实需求出发(如播客片头),比漫无目的地生成更有效

今日行动项

  1. 初级:在Suno上用Simple Mode生成3首不同风格的歌曲,对比效果
  2. 中级:用Custom Mode写一段原创歌词,生成一首完整的歌曲
  3. 进阶:安装MusicGen,用代码生成一段纯音乐,尝试旋律引导功能

📖 地铁深读:AI音乐的版权迷局

这个板块专为地铁通勤设计,每篇5-10分钟。不想深读可以跳过,不影响主线学习。

AI生成的音乐,版权归谁?

这是一个目前没有明确答案的法律问题。但了解现状对你很重要。

Suno的立场:免费用户生成的音乐,Suno保留商业使用权;付费用户可以商用,但Suno仍保留模型训练的权利。换句话说,你付了钱可以卖歌,但Suno可能用你的歌来改进模型。

MusicGen的立场:作为Meta开源模型,MusicGen本身没有版权限制。但训练数据中包含受版权保护的音乐,生成的音乐是否”衍生作品”至今没有定论。

真实案例:2024年,一首AI生成的歌曲在流媒体平台获得了数百万播放量,引发了关于”AI音乐是否应该标注”的激烈讨论。目前Spotify等平台没有强制标注AI生成内容,但行业自律组织正在推动相关标准。

给你的建议

  1. 个人学习和非商用:放心使用,不必担心版权问题
  2. 商业用途:优先使用付费版Suno或Udio,保留授权记录
  3. 混合作品:AI生成+人工后期编辑的”混合创作”,版权归属更清晰
  4. 标注来源:即使不是法律要求,标注”AI辅助创作”也是行业好习惯

推荐学习资源

  • Suno官方教程suno.com/blog 有很多创作技巧
  • MusicGen论文:搜索”Simple and Controllable Music Generation”(Meta AI)
  • Audacity官网audacityteam.org 免费音频编辑软件
  • r/AIMusic子版块:Reddit上的AI音乐社区,每天都有新作品和教程分享

下篇预告

明天早上8点:Day47——早课 AI与游戏设计

明天下午5点:Day47——晚课 AI游戏设计实战

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注