Policy gradient - Actor Critic

2018-06-08

Policy Gradient Methods - Actor Citic

Wonseok Jung

REINFORCE 방법에서는 BootStrap을 하지 않고 Terminal state까지 받은 총 reward $G_t$ 를 Baseline과의 차이를 계산한다.
Bootstrapping으로 인해 생기는 bias는 variance를 낮추고 learning 속도를 빠르게 한다.
반면 REINFORCE는 unbias하지만, variance가 높으며 learning 속도가 느리다.
또한 REINFORCE 는 online으로 학습할수 없기에 continuous problem에 적합하지 않다.

Bootstrapping의 장점을 이용하여 REINFORCE algorithm에 적용한 알고리즘을 Actor-Critic Methods 라고 한다.
Actor-Critic Methods의 update Rule은 다음과 같다.

bandicam 2018-06-08 13-36-49-121

bandicam 2018-06-08 13-36-58-286

Q-leraning, SARSA, MC와 같은 알고리즘은 action value를 측정하고, 이를 사용하여 actoin 을 선택한다.
여기서는 action value를 estimate하지 않아도 parameterized policy를 배워 action을 선택하는 방법을 알아보았다.
이를 Policy gradient 방법이라고 한다.
Policy gradient는 각 action을 선택할 확률을 구할 수 있으며 더이상 $\epsilon-greedy$와 같은 exploration 방법은 사용하지 않는다.
REINFORCE methods 는 state-value function을 baseline으로 추가하여 variance를 줄인다.
Bootstrapping을 사용한 TD방법은 Monte Carlo보다 variance를 줄이는 효과가 있다.
이 방법은 REINFORCE 알고리즘에 적용하여 policy에 의해 선택된 action을 critic하는 algorithm을 Actor-Critic 이라고 한다.

Policy Gradient 개념 및 REINFORCE 알고리즘, REINFORCE 알고리즘 with baseline 설명

https://github.com/wonseokjung/ReinforcementLearning_byWonseok/blob/master/8.%20Policy%20Gradient%20Methods/1.PG_REINFORCE/pgtoReinbase.pdf