Learning Rate
-
torch.optim.lr_scheduler를 이용하여 learning rate 조절하기PyTorch 2020. 5. 24. 17:03
요즘 knowledge distillation 논문[Hinton14]을 읽고 있다. 여기에 나온 대로 3층 퍼셉트론을 구현해서 MNIST 데이터를 학습시켜봤는데, 적혀있는 것 보다 낮은 성능이 나왔다. 네트워크 구조는 제대로 구현한 것 같은데, optimizer 옵션이 다른것이 원인인듯 했다. 그래서 learning rate, batch size 등을 논문에 나온 내용과 똑같이 수정해보려고 한다. 사실 자세한 optimizer 옵션은 이전 논문[Hinton12]에 나와있는데, 다음과 같이 적혀있다. 위 수식의 핵심은, learning rate과 momentum을 epoch수에 따라 변화시키는 것이다. learning rate : 10에서 시작해서, 각 epoch마다 0.998을 곱하여 점점 줄인다 mom..