학습 그래프 이해하기


Loss 곡선:

보상과 성능 지표의 관계:

강화학습에서의 “일반화”


일반화(Generalization)의 핵심 의미

강화학습에서 '일반화가 잘 된다'는 것은 "학습 과정에서 경험해보지 않은 새로운 상태(State)에 마주쳤을 때, 얼마나 적절하고 좋은 행동을 할 수 있는가?"를 의미합니다.

이는 단순히 '학습을 계속하면 성능이 꾸준히 오른다'는 개념을 넘어섭니다.

예를 들어, 2048 게임에서 에이전트가 주로 128, 256 타일이 있는 상태만 경험하며 학습했다고 가정해봅시다.

일반화가 잘 된 모델에서 나타나는 특징

  1. 점진적인 성능 개선:
  2. 더 높은 한계 (성능의 천장이 높다):