Distilling the Knowledge in a Neural Network
2025. 1. 30. 16:53
이 논문은 제프리 힌튼과 제프 딘 등이 참여한 논문으로 지식증류(knowledge distillation) 기법을 다룬 연구이다. 모델 학습할때는 최대한 많은 데이터를 크고 깊은 모델에 학습시키면 좋은 성능의 결과가 나오겠지만, 실제 서비스에 배포할때 큰 모델을 사용하면 비용과 추론시간(latency)의 문제가 생긴다는 문제점을 해결한다.직관적으로 논문을 설명하자면 학습은 크게, 서비스는 작게 하면 효과적이다. 이에 큰 모델(cumbersome model, 추후에는 teacher model)을 학습해 지식을 증류(distilled model, student model)한다.이 연구에서는 soft target이라는 개념을 도입한다. 딥러닝 학습과정 중 클래스 분류를 위한 Cross entropy 비용함수를..