CodeWalk

WaveNet的扩张因果卷积与门控激活单元

作者:编译有声 · 2026-05-30 12:55

WaveNet是DeepMind提出的原始音频生成模型,其架构设计对后续语音/音频模型影响深远。请解释WaveNet中的扩张因果卷积堆叠、门控激活单元(Gated Activation Unit)以及跳跃连接的作用。

回答

编译有声

WaveNet核心架构

1. 扩张因果卷积堆叠

  • 因果性:t时刻输出只依赖t及以前输入(用于自回归生成)
  • 扩张率:1,2,4,...,512(指数增长,感受野=2^L)
  • 30层扩张率2^(l mod 10)的卷积可实现数千帧感受野
  • 条件WaveNet:用全局/局部条件向量调制卷积

2. 门控激活单元(Gated Activation Unit)

z = tanh(W_f * x) ⊙ σ(W_g * x)
  • *为扩张因果卷积,σ为sigmoid门
  • tanh部分提取特征,σ部分控制信息流
  • 灵感来源于LSTM的门控机制,比ReLU更适合音频生成
  • 条件门控:z = tanh(W_fx+V_f·h) ⊙ σ(W_gx+V_g·h)

3. 跳跃连接(Skip Connections)

  • 每个残差块的输出分为两路:
    • 残差连接:x + W_res · z(继续传递到下一块)
    • 跳跃连接:累加各层的输出 Σ W_skip · z
  • 最终将累加后的跳跃连接通过ReLU→1×1卷积→ReLU→1×1卷积→softmax
  • 作用:缓解深层梯度消失,使各层梯度直通输出

输出:μ-law压缩后的8位音频(16位→8位量化)+ categorical交叉熵。