<aside>
🎯 학습 목표
<aside>
목차
몬테카를로 예측이란?
1.1. 강화학습의 핵심 문제: 가치 함수 추정하기
1.2. 기존 방식의 한계: Model-based Learning
1.3. 몬테카를로의 아이디어: Experience-based Learning
몬테카를로 예측의 핵심 원리
2.1. 핵심 개념: 에피소드와 리턴(Return)
2.2. First-Visit MC vs Every-Visit MC
2.3. 핵심 공식: V(s) = average(G_t | S_t = s)
실전 예제: 점프 게임으로 이해하기
3.1. 게임 규칙과 상태 정의
3.2. 몬테카를로 예측 알고리즘 정의
3.3. 에피소드 증가에 따른 가치 함수 수렴 관찰
</aside>
몬테카를로 예측은 강화학습에서 경험을 통해 상태의 가치를 추정하는 방법입니다. 복잡한 수학적 모델 없이도 실제 경험한 데이터만으로 학습할 수 있기 때문에 효과적인 학습 방식입니다.
= 주어진 고정 정책 하에서 상태 가치 함수 $V(s)$를 추정하는 방법
미로찾기 문제에서 최적의 정책을 찾는 heatmap
강화학습의 궁극적인 목표는 최대한의 보상을 얻을 수 있는 최적 정책(policy)을 찾는 것입니다.
이를 위해 먼저 아래 질문에 대한 답을 찾아야 합니다:
"특정 상태에서 시작했을 때, 앞으로 얼마나 많은 보상을 받을 수 있을까?"
이 질문에 대한 답이 바로 가치 함수(Value Function) 입니다. 가치 함수는 특정 상태의 '가치'를 수치화하여 나타내며, 이를 정확히 추정하는 것이 강화학습의 핵심 과제입니다.
전통적인 접근법인 **모델 기반 학습(Model-based Learning)**은 환경에 대한 완전한 이해를 바탕으로 가치를 계산합니다. (모든 경우를 다 알고 가치를 계산)