[Training Refinement] Cosine Learning Rate Decay 학습률에 대한 조정은 중요하다. 본 논문에서는 꾸준히 초기 학습률을 줄이는 전략을 사용하였다. 대부분의 논문에서 사용하는 전략은 기하급수적으로(exponentially) 감소시키는 전략을 많이 사용한다. He et al.은 30 epochs마다 0.1 rate를 감소시켰으며 "step decay"라고 부른다. Szegedy et al.은 2에폭마다 0.94를 감소시켰다. 이와 대조적으로 Loshchilov et al.은 cosine annealing strategy를 사용하였다. 단순한 version은 초기 값을 cosine 함수에 따라서 0으로 감소시키는 것이다. warm up 전략을 무시하고 전체 배치 수 t에서 ..