<aside>

목차

  1. 지금까지의 흐름

    1.1 가치 기반 학습의 흐름

    1.2 기존 방식의 공통점과 한계

    1.3 다음 단계: 정책을 직접 최적화하자

  2. 정책 기반 학습: REINFORCE의 등장

    2.1 왜 정책 기반 학습이 필요한가?

    2.2 정책 기반 학습의 아이디어

    2.3 REINFORCE 알고리즘의 등장

    2.4 정책 기반 학습의 분류

  3. REINFORCE 알고리즘

    3.1 목표 함수: 기대 보상의 최대화

    3.2 알고리즘 전체 흐름

    3.3 장점과 단점 요약

  4. 실전 예제: CartPole-v1

    4.1 환경 설명: CartPole-v1

    4.2 모델 구성: Policy Network

    4.3 학습 흐름 요약

    4.4 출력 결과 확인

</aside>

1. 지금까지의 흐름

지금까지의 흐름 로드맵 (출처: https://wnthqmffhrm.tistory.com/13)

지금까지의 흐름 로드맵 (출처: https://wnthqmffhrm.tistory.com/13)

1.1 가치 기반 학습의 흐름

지금까지 우리가 배워온 알고리즘들은 가치 기반(Value-based) 접근법에 속합니다.

순서 접근법 키워드 핵심 특징
Dynamic Programming 모델 기반, 벨만 방정식 환경의 전이 확률(P), 보상(R)을 알고 있어야 함
Monte Carlo 모델 없음, 전체 에피소드 사용 평균 Return으로 가치 추정
Temporal Difference 모델 없음, 부트스트랩 MC와 DP의 장점 결합
SARSA / Q-learning TD기반, 온/오프 폴리시 상태-행동 값 Q(s, a)를 직접 학습

1.2 기존 방식의 공통점과 한계

지금까지 배운 방식은 다음의 공통점을 갖습니다.

하지만 다음과 같은 한계도 명확해집니다:

1.3 다음 단계: 정책을 직접 최적화하자