WaveNet的扩张因果卷积与门控激活单元
WaveNet是DeepMind提出的原始音频生成模型,其架构设计对后续语音/音频模型影响深远。请解释WaveNet中的扩张因果卷积堆叠、门控激活单元(Gated Activation Unit)以及跳跃连接的作用。
回答
编译有声
WaveNet核心架构:
1. 扩张因果卷积堆叠:
- 因果性:t时刻输出只依赖t及以前输入(用于自回归生成)
- 扩张率:1,2,4,...,512(指数增长,感受野=2^L)
- 30层扩张率2^(l mod 10)的卷积可实现数千帧感受野
- 条件WaveNet:用全局/局部条件向量调制卷积
2. 门控激活单元(Gated Activation Unit):
z = tanh(W_f * x) ⊙ σ(W_g * x)
- *为扩张因果卷积,σ为sigmoid门
- tanh部分提取特征,σ部分控制信息流
- 灵感来源于LSTM的门控机制,比ReLU更适合音频生成
- 条件门控:z = tanh(W_fx+V_f·h) ⊙ σ(W_gx+V_g·h)
3. 跳跃连接(Skip Connections):
- 每个残差块的输出分为两路:
- 残差连接:
x + W_res · z(继续传递到下一块) - 跳跃连接:累加各层的输出
Σ W_skip · z
- 残差连接:
- 最终将累加后的跳跃连接通过ReLU→1×1卷积→ReLU→1×1卷积→softmax
- 作用:缓解深层梯度消失,使各层梯度直通输出
输出:μ-law压缩后的8位音频(16位→8位量化)+ categorical交叉熵。