<aside>

🎯 학습 목표

<aside>

목차

  1. 몬테카를로 예측이란?

    1.1. 강화학습의 핵심 문제: 가치 함수 추정하기

    1.2. 기존 방식의 한계: Model-based Learning

    1.3. 몬테카를로의 아이디어: Experience-based Learning

  2. 몬테카를로 예측의 핵심 원리

    2.1. 핵심 개념: 에피소드와 리턴(Return)

    2.2. First-Visit MC vs Every-Visit MC

    2.3. 핵심 공식: V(s) = average(G_t | S_t = s)

  3. 실전 예제: 점프 게임으로 이해하기

    3.1. 게임 규칙과 상태 정의

    3.2. 몬테카를로 예측 알고리즘 정의

    3.3. 에피소드 증가에 따른 가치 함수 수렴 관찰

</aside>

1. 몬테카를로 예측이란? 🎲

몬테카를로 예측은 강화학습에서 경험을 통해 상태의 가치를 추정하는 방법입니다. 복잡한 수학적 모델 없이도 실제 경험한 데이터만으로 학습할 수 있기 때문에 효과적인 학습 방식입니다.

= 주어진 고정 정책 하에서 상태 가치 함수 $V(s)$를 추정하는 방법

1.1. 강화학습의 핵심 문제: 가치 함수 추정하기

미로찾기 문제에서 최적의 정책을 찾는 heatmap

미로찾기 문제에서 최적의 정책을 찾는 heatmap

강화학습의 궁극적인 목표는 최대한의 보상을 얻을 수 있는 최적 정책(policy)을 찾는 것입니다.

이를 위해 먼저 아래 질문에 대한 답을 찾아야 합니다:

"특정 상태에서 시작했을 때, 앞으로 얼마나 많은 보상을 받을 수 있을까?"

이 질문에 대한 답이 바로 가치 함수(Value Function) 입니다. 가치 함수는 특정 상태의 '가치'를 수치화하여 나타내며, 이를 정확히 추정하는 것이 강화학습의 핵심 과제입니다.

1.2. 기존 방식의 한계: Model-based Learning

전통적인 접근법인 **모델 기반 학습(Model-based Learning)**은 환경에 대한 완전한 이해를 바탕으로 가치를 계산합니다. (모든 경우를 다 알고 가치를 계산)

$V(s) = R(s) + γ * Σ P(s'|s) * V(s')$