2.2.4 GRU_深度学习视频理解-QQ阅读中文历史网

深度学习视频理解

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

2.2.4　GRU

GRU是另一种主流的RNN衍生物。RNN和LSTM 都是在设计网络结构用于缓解梯度消失问题，只不过网络结构有所不同。GRU在数学上的形式化表示如下：

(2.31)

为了理解 GRU的设计思想，我们再一次运用“三次简化一张图”的方法来进行分析：

（1）第1次简化：忽略门控单元的来源。

（2）考虑一维门控单元。经过这两次简化，GRU的数学形式是以下两行

(2.32)

（3）第3次简化：各门控单元二值输出。这里和LSTM 略有不同的地方在于，当时，；当时，。因此，扮演的角色是一个个单刀双掷开关。

（4）一张图。将3次简化的结果用图表述出来，左边是输入，右边是输出，如图2-29所示。

图2-29　GRU 运行原理图

与 LSTM 相比，GRU 将输入门和遗忘门融合成单一的更新门，并且融合了细胞状态和隐层单元。当（重置门开关闭合）、（更新门开关连通上面）时，GRU 退化为标准的RNN。

根据图2-29，我们可以对 GRU各单元的作用进行分析。

●　重置门：用于控制前一时刻隐层单元对当前词的影响。如果对不重要，即从当前词开始表述了新的意思，与上文无关。那么开关可以打开，使得对不产生影响。

●　更新门：用于决定是否忽略当前词。类似于LSTM 中的输入门，可以判断当前词对整体意思的表达是否重要。当开关接通下面的支路时，我们将忽略当前词，同时构成了从到的短路连接，这使梯度得已有效地反向传播。和LSTM 相同，这种短路机制有效地缓解了梯度消失现象，这个机制与高速公路网络（Highway Networks）（Srivastava et al.,2015a）十分相似。

上一章目录下一章