RNN(Recurrent Neural Network)
input=Dim(batch_size,timesteps,input_size)output=Dim(batch_size,timesteps,hidden_size)
ht=tanh(Whxxt+Whhht−1+bh)
Vanishing/exploding gradient
긴 시퀀스를 처리하는 RNN은 깊은 네트워크가 되면서(W가 반복적으로 곱해지면서) Vanishing/exploding gradient
문제가 발생하기 쉽습니다.
- Relu와 같이 수렴하지 않는 activation을 사용하면 불안정해질 수 있습니다.
- Exploding gradient 문제가 발견되면,
gradient clipping
을 사용하여 값을 제한 해볼 수 있습니다.
LSTM(Long Short-Term Memory)