动态/双向attention和QANet

在这里插入图片描述

1.动态注意网络（DCN）：

在这里插入图片描述

1.1 encoder

查询术语序列向量表示（GloVe）： ( $x$ $^Q$ $_1$ ， $x$ $^Q$ $_2$ ,…, $x$ $^Q$ $_n$ )
文档术语序列向量表示（GloVe）：( $x$ $^D$ $_1$ ， $x$ $^D$ $_2$ ,…, $x$ $^D$ $_m$ )
使用LSTM编码文档： $d$ $_t$ = $L$ $S$ $T$ $M$ $_e$ $_n$ $_c$ ( $d$ $_t$ $_-$ $_1$ , $x$ $^D$ $_t$ )。文档编码矩阵： $D$ = [ $d_1$ … $d_m$ , $d_∅$ ] ∈ $R$ $^l$ $^×$ $^($ $^m$ $^+$ $^1$ $^)$ 。 $d_∅$ 为哨兵向量，它允许模型不关注输入中的任何特定单词。
question编码： $q$ $_t$ = $L$ $S$ $T$ $M$ $_e$ $_n$ $_c$ ( $q$ $_t$ $_-$ $_1$ , $x$ $^Q$ $_t$ )。question编码矩阵： $Q$ $^’$ = [ $q_1$ … $q_n$ , $q_∅$ ] ∈ $R$ $^l$ $^×$ $^($ $^n$ $^+$ $^1$ $^)$ ，考虑到question编码空间和文档编码空间之间的差异，引入了非线性投影层映射question：
在这里插入图片描述

1.2coattention encoder

在这里插入图片描述

1.计算相似度矩阵：
在这里插入图片描述
2.document-to-question （行）注意力权重 $A$ $^Q$ :

3.question-to-document（列）注意力权重 $A^D$ :
在这里插入图片描述
4.接下来，根据question的每个单词计算文档的摘要或注意上下文：

5.同样根据文档中的每个单词来计算问题的摘要： $C^D$ = $Q$ $A$ $^D$ ，还根据文档中的每个单词计算先前注意上下文的摘要 $C^Q$ $A$ $^D$ 。这两个操作可以并行完成：
在这里插入图片描述
6.最后的 $C^D$ 就为共同感知的question和document表示，然后通过bi-lstm融合时间信息：

所以有：

这为选择哪个跨度可能是最好的可能答案提供了基础。

1.3动态指向解码器

给定一个问题-文档对，文档中可能存在几个直观的答案区间，每个对应于一个局部最大值。本文提出了一种迭代技术，通过在预测起点和预测终点之间交替来选择答案跨度。如图三所示
在这里插入图片描述它类似于一个状态机，其状态由基于LSTM的顺序模型来维护。在每次迭代期间，解码器考虑到对应于开始和结束位置的当前估计的潜在编码来更新其状态，并通过多层神经网络产生开始和结束位置的新估计。让 $h_i$ 、 $s_i$ 和 $e_i$ 分别表示为迭代 $i$ 期间LSTM的隐藏状态、初始位置的估计和结束位置的估计。然后LSTM状态更新为：
在这里插入图片描述
其中 $u$ $_s$ $_i$ $_-$ $_1$ 和 $u$ $_e$ $_i$ $_-$ $_1$ 是对应于前一次估计的编码 $u$ 的开始和结束位置的表示，给定当前隐藏状态 $h_i$ 、先前开始位置 $u$ $_s$ $_i$ $_-$ $_1$ 和先前结束位置 $u$ $_e$ $_i$ $_-$ $_1$ ，我们估计当前开始位置和结束位置：
在这里插入图片描述
其中 $α$ 和 $β$ 代表对应于文档中第一个单词的开始分数和结束分数。用单独的神经网络计算 $α$ 和 $β$ 。这些网络具有相同的体系结构，但不共享参数。
本文提出了Highway Maxout Network (HMN)来计算由等式描述的 $α$ 和 $β$ ：
在这里插入图片描述
这里， $u$ $_t$ 对应于文档中第 $t$ 个单词的字符编码。结束分数 $β_t$ 的计算类似于开始分数 $α_t$ ，但使用单独的 $H$ $M$ $N$ $_e$ $_n$ $_d$ 。