【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速？

重要性：★★★ 💯

这是我常用的一个面试题。看似简单的基础题，但在面试中能准确回答的不足10% ，常识题的错误反而会让人印象深刻。
此题的关键主要是考察面试者对大矩阵运算和MapRrduce思想的理解。

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice
介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book
介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经
介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook
介绍：该仓库汇总了 NLP 算法工程师高频面题

核心思想：将小矩阵合并成大矩阵再进行梯度分块（Reduce → Map）。

现在我们先来整理一下 LSTM 中进行的计算，如下所示：

这里需要注意式中的 4 个仿射变换。这里的仿射变换是指 $xW_x + hW_h + b$ 这样的式子。4 个仿射变换，其实可以整合为通过 1 个式子进行，如下图所示。

整合4个权重，通过1次仿射变换进行4个计算：

如此，原本单独执行 4 次的仿射变换通过 1 次计算即可完成，可以加快计算速度。这是因为矩阵库计算“大矩阵”时通常会更快。

整合4个权重进行仿射变换的LSTM的计算图：

仿射变换的形状的改变：

批大小是 N，输入数据的维数是 D，记忆单元和隐藏状态的维数都是 H。另外，计算结果 A 中保存了 4 个仿射变换的结果。因此，通过 A[:, :H]、A[:, H:2H] 这样的切片取出数据，并分配给之后的运算节点。

slice节点的正向传播（上）和反向传播（下）：

本文由mdnice多平台发布