학습 그래프 이해하기
Loss 곡선:
- "왜 불안정해 보이는지?":
- DQN의 Loss(주로 MSE)는 '모델의 예측(Q-value)과 실제 목표(Target Q-value) 사이의 차이'를 의미합니다. 학습 초반에는 타겟 값 자체가 불안정하고, 에이전트가 탐험하는 상태(state)가 한정적이라 Loss가 낮게 보일 수 있습니다.
- 학습이 진행되면서 더 다양하고 어려운 상태를 접하고, 정책이 변하면서 타겟 값도 계속 변하기 때문에 Loss가 안정되거나 오히려 진동하며 오르는 것은 자연스러운 현상입니다.
보상과 성능 지표의 관계:
- "왜 max tile이 높아도 보상이 크게 안 변하는지?"
- 가설: Episode Reward는 '해당 판의 누적 점수'이고, Max Tile은 '그 판의 최고 타일'입니다. 높은 타일(예: 2048)을 만들었더라도 그 직후에 바로 게임이 끝나버리면 누적 점수(Reward)는 낮을 수 있습니다. 반면, 1024에서 아슬아슬하게 오래 버티며 자잘한 합병을 많이 했다면 Max Tile은 낮아도 누적 Reward는 더 높을 수 있습니다.
- "왜 max tile은 이렇게까지 불안정한지?":
- 가설: Max Tile은 '운'의 요소가 크게 작용합니다. 한 번의 운 나쁜 타일 생성으로도 최고의 플레이가 무너질 수 있기 때문에 편차가 매우 큽니다. 이것이 "불안정함"의 원인입니다.
강화학습에서의 “일반화”
일반화(Generalization)의 핵심 의미
강화학습에서 '일반화가 잘 된다'는 것은 "학습 과정에서 경험해보지 않은 새로운 상태(State)에 마주쳤을 때, 얼마나 적절하고 좋은 행동을 할 수 있는가?"를 의미합니다.
이는 단순히 '학습을 계속하면 성능이 꾸준히 오른다'는 개념을 넘어섭니다.
예를 들어, 2048 게임에서 에이전트가 주로 128, 256 타일이 있는 상태만 경험하며 학습했다고 가정해봅시다.
- 일반화가 잘 된 모델: 처음으로 512, 1024 타일이 등장하는 '새로운' 상태를 마주했을 때, 기존에 배운 '타일을 한쪽으로 모으고, 큰 숫자를 인접시키는' 원칙을 성공적으로 적용하여 좋은 플레이를 이어갑니다.
- 일반화가 안 된 모델 (과적합, Overfitting): 처음 보는 512, 1024 보드 상태에서는 무엇을 해야 할지 몰라 형편없는 행동을 선택합니다. 이 모델은 특정 상태와 행동의 쌍(state-action pair)을 '암기'했을 뿐, 근본적인 전략을 학습하지 못한 것입니다.
일반화가 잘 된 모델에서 나타나는 특징
- 점진적인 성능 개선:
- 일반화가 잘 된 모델은 새로운 상태를 만나도 크게 당황하지 않고 '어느 정도 합리적인' 행동을 합니다. 따라서 성능 그래프가 갑자기 곤두박질치지 않고, 새로운 경험(데이터)을 바탕으로 기존의 전략을 조금씩 더 견고하게 다듬어 나갑니다. 이것이 '점진적인 개선'으로 나타납니다.
- 반면, 일반화가 안 된 모델은 익숙한 상태에서는 높은 성능을 보이다가, 새로운 종류의 상태를 탐험하기 시작하면 성능이 급격히 떨어지는 등 매우 불안정한 모습을 보일 수 있습니다.
- 더 높은 한계 (성능의 천장이 높다):
- 일반화가 잘 되었다는 것은 '인간의 휴리스틱'이나 '암기된 패턴' 같은 좁은 전략에 갇히지 않았다는 의미입니다. 모델은 게임의 근본적인 원리를 파악하고 있기 때문에, 더 복잡하고 어려운 상황에서도 그 원리를 적용해 돌파구를 찾을 수 있습니다. 이것이 곧 '성능의 한계가 높다'는 말과 연결됩니다.
- 예를 들어, 휴리스틱에 과적합된 모델은 '단조성'을 깨뜨려야만 4096 타일을 만들 수 있는 결정적인 순간에 그 선택을 하지 못하고 한계에 부딪힐 수 있습니다. 하지만 일반화된 모델은 장기적인 보상(더 높은 점수)을 위해 과감히 단조성을 포기하는 전략을 구사할 수 있습니다.