再探循环神经网络

上一篇中，我们讨论了循环神经网络相关的基本内容，今天我们继续探讨一下循环神经网络还有那些需要注意的更高级的用法。

降低过拟合

在之前的讨论中，我们经常聊起过拟合的问题，我们一般判断训练的网络什么情况下算作训练完成，查看其精度和损失时，也都看的是其过拟合之前的数据，避免过拟合的一种方法是用 dropout 方法，随机清零的方式去实现，但是在循环神经网络中，这个问题就有点复杂了。

人们在大量的实验中早已经发现，在循环层前进行 dropout 对于降低过拟合没什么帮助，甚至可能会影响网络的正常训练，在循环层中如何 dropout 是在 2015 年的一篇论文中提出来的，具体的方式是：在每一个时间步中，使用相同的 dropout 掩码，并且将这个不随时间步变化的 dropout 掩码应用于层的内部循环激活，这样就可以将其学习的误差传递下去，如果在 Keras 中使用 LSTM、GRU 等循环神经网络都可以通过设置 dropout（输入单元 dropout）和 recurrent_out （循环单元 dropout）来降低过拟合，一般情况下，最佳情况不会有大的下降，但会稳定更多，是调优网络的一个思路。用的方法是：

model.add(layers.GRU(32, dropout=0.2, recurrent_dropout=0.2, input_shape=(None, float_data.shape[-1])))

循环层堆叠

我们训练网络一般的过程都是构建一个网络，在未出现严重过拟合前我们都会尽可能大的增加网络容量（让特征点更多），这有助于让网络模型更好的抓住数据的特征，对于循环神经网络，也是类似的思路，进行循环层的堆叠，且一般情况下，都会让数据变得更好，这是最常用其有效（使数据变好，具体提高程度视情况而不同）的调优方法，Google 产品中有挺多类似的做法。用的方法是：

model.add(layers.GRU(32, dropout=0.1, recurrent_dropout=0.5, return_sequences=True, input_shape=(None, float_data.shape[-1])))
model.add(layers.GRU(64, activation='relu', dropout=0.1, recurrent_dropout=0.5))

使用双向 RNN

针对这个问题，我一直觉得是一个玄学。双向 RNN，顾名思义，就是这个循环网络中包含两个方向相反的普通 RN，一个正向处理数据，一个反向处理数据，因为我们知道 RNN 是对顺序敏感的前一项处理出的数据值，会作用到下一项数据上，因此数据的不同不同方向的处理会获取到数据的不同特征，或者说反向的 RN 会识别出被正向 RN 忽略的特征，进而补充正向 RN 的不足，如此一来，可能使得整个 RNN 效果更好，略有玄学特征但是也可以理解吧，总之这也是一个有效的办法。用的方法是：

model.add(layers.Bidirectional(layers.LSTM(32)))

对于神经网络来说，具体哪一种调优的方法真的有效效果更好，其实根据实际问题实际的数据有比较大的差别，不能一概而论，因此这也是一项需要经验和耐心的工作，也许你还会发出这样的疑问：“我去，为什么这样不行？我去，为什么这样还不行？我去，为什么这样行了？”

当然，还有一些其他的方法对于更好的训练网络可能有用，比如调节激活函数、调节优化器学习率等，用点耐心会训练出你满意的网络的。

循环神经网络就暂时先讨论这些吧，还有很多细节但是很重要的问题还没有详细介绍，日后有机会继续讨论。

愿世界和平！

本文首发自公众号：RAIS

再探循环神经网络

降低过拟合

循环层堆叠

使用双向 RNN

renyuzhuo

引用和评论

LSTM - 长短期记忆网络

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略