【深層学習】RNN-Recurrent Neural Network

RNN’s structure

如果去掉图中的w，那么这个图就是一个普通的全连接神经网络。
x代表输入，U代表输入到隐藏层的权重矩阵.V是将隐藏层值映射到输出层的权重矩阵
加入了w后，代表当前隐藏层的值不仅取决于当前的输入x,还取决于上一时刻的输入.每计算完一次隐藏层后，将他存储在w里，将会在下一时刻计算隐藏层时用到.用公式来具体表示就是

$O_t=g(V\cdot S_t)\\S_t=f(U\cdot X_t+W\cdot S_{t-1})$

展开上面的图后就是

N to 1

N to N

N to M

这种结构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型。在实现问题中，我们遇到的大部分序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。而Encoder-Decoder结构先将输入数据编码成一个上下文向量c，之后在通过这个上下文向量输出预测序列。

BPTT

另$J=\sum_{t=1}^n J_t$
$s_t=\phi(Ux_t+Ws_{t-1})\\o_t=\varphi(Vs_t)$
另$s^_t=Ux_t+Ws_{t-1}\\o^_t=Vs_t$

$\frac{\partial J_t}{\partial o^*_t}=\frac{\partial L_t}{\partial o_t}\frac{\partial o_t}{\partial o^*_t}=\frac{\partial L_t}{\partial o_t}*\varphi'(o_t^*)$