Neuron(Perceptron)
zjl=k∑ωjklakl−1+bjl
ajl=σ(zjl)
Loss function
L2 loss function
Loss≡21∥y−aL∥2=21i∑(yi−aiL)2
Loss≥0(y 는 주어진 답)
Neural Network Training
Neural Network Training
을 통해 찾아야 할 것은 Loss의 결과를 최소화하기 위한 weights
와 biases
입니다. w 가 weights와 biases를 나타내는 벡터일 때,
Lossnext=Loss+ΔLoss≈Loss+∇Loss⋅Δw
Loss는 감소해야하기 때문에, 반드시 ∇Loss⋅Δw<0 조건을 만족해야합니다. 따라서 Δw는 아래와 같이 결정 될 수 있습니다.
Δw=−η∇Loss=−ϵ∥∇Loss∥∇Loss(ϵ>0)
η는 learning rate
이고, ϵ은 step
입니다. 만약 step이 너무 크다면, Loss는 발산하고, 너무 작으면, 수렴속도가 느려집니다. 따라서 적절한 값을 설정하는 것이 중요합니다.
Δw 이 결정되면, wnext은 아래와 같이 결정됩니다.
wnext=w+Δw
Stochastic Gradient Descent(SGD)