<aside>
목차
지금까지의 흐름
1.1 가치 기반 학습의 흐름
1.2 기존 방식의 공통점과 한계
1.3 다음 단계: 정책을 직접 최적화하자
정책 기반 학습: REINFORCE의 등장
2.1 왜 정책 기반 학습이 필요한가?
2.2 정책 기반 학습의 아이디어
2.3 REINFORCE 알고리즘의 등장
2.4 정책 기반 학습의 분류
REINFORCE 알고리즘
3.1 목표 함수: 기대 보상의 최대화
3.2 알고리즘 전체 흐름
3.3 장점과 단점 요약
실전 예제: CartPole-v1
4.1 환경 설명: CartPole-v1
4.2 모델 구성: Policy Network
4.3 학습 흐름 요약
4.4 출력 결과 확인
</aside>
지금까지의 흐름 로드맵 (출처: https://wnthqmffhrm.tistory.com/13)
지금까지 우리가 배워온 알고리즘들은 가치 기반(Value-based) 접근법에 속합니다.
순서 | 접근법 | 키워드 | 핵심 특징 |
---|---|---|---|
① | Dynamic Programming | 모델 기반, 벨만 방정식 | 환경의 전이 확률(P), 보상(R)을 알고 있어야 함 |
② | Monte Carlo | 모델 없음, 전체 에피소드 사용 | 평균 Return으로 가치 추정 |
③ | Temporal Difference | 모델 없음, 부트스트랩 | MC와 DP의 장점 결합 |
④ | SARSA / Q-learning | TD기반, 온/오프 폴리시 | 상태-행동 값 Q(s, a)를 직접 학습 |
지금까지 배운 방식은 다음의 공통점을 갖습니다.
하지만 다음과 같은 한계도 명확해집니다: