Metalearning shared Hierarchy 논문 리뷰

All about A.I

얼마전 공부하였던 PG 관련 공부가 성에 차지 않아 링크 : https://wonseokjung.github.io//reinforcementlearning/update/RL-PG_RE/
POLICY GRADIENT , REINFORCE , ACTOR-CRITIC 논문을 다시 간단히 본 뒤 하는 리뷰입니다.
2000년 sutton의 policy gradient 방법을 기반으로 한 REINFORCE와 ACTOR-CRITIC 의 설명입니다.

Paper 링크 :
https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
Reinforcement Learning(강화학습)에서 Function Approximation(함수근사) 을 적용할때 기존 접근방법은 valuefunction (가치함수)을 Approximation(근사)한 뒤 Policy(정책)를 determining(결정)하는 방법을 사용하였다.
이 Paper에서는 그와 다른 접근 방법으로 policy가 function approximator에 의해 표현되며, 독립된 value function을 가지고 있으며 expected reward(보상)의 gradient에 따라 policy parameter가 update되는 방법이다.
이 paper에서는Experience( 경험 )으부터 받은 Action-value (행동의 가치) 혹은 advantage function (어드벤테이지 함수)을 이용하여 gradient를 적용할수 있는 form(형태)로 written(쓰여질수) 있다는 것이다.
action-selection policy란 estimated values들 중 “greedy”한 action을 선택하는 policy 였다. ( 각 state에서의 action들중 갖아 높은 estimated value인 action을 선택하는 것)
policy가 stochastic하지 않고 deterministic하다는 것. (Jaakkola and Jordan 1994)
Estimaed 된 action value의 아주 작은 변화에도 예민하다는것 ( greedy하게 선택되기 때문에 예를 들어 두개의 action value가 굉장히 비슷해도 아주 작은 차이도 선택될수도 선택되지 않을수도 있다. )
( Gordon, 1995, 1996; Baird, 1995 : Tsitsilils and van Roy 1996, Bersekas and Tsitsiklis 1996)
(나의 의견 : 의 관점은 Policy gradient 논문이 쓰였던 2000년 때의 관점으로 보인다. Deep learning이 function approximation으로 잘 쓰이기 이전에 쓰여진 논문이다. 또한 Action value를 사용하여 Atari에서 좋은 성능을 보인 DQN과 DQN으로부터 파생되어 좋은 성능을 보인 연구결과등이 고려되지 않은 논문이기에 현재의 시점에서는 다른 관점으로 이 논문을 봐야할것 같다.)
이 paper에서는

예를들어,
function approxmator가 neural network이며 input은 state이고 output은 각 action을 선택할 “확률”이다. 그리고 weight는 policy parameter이다.

$\alpha$는 step size이며, $\theta$는 performance measure $\rho$에 의해 locally optimal policy로 converge 한다.


Willams’s (1988, 1992) REINFORCE 알고리즘에서도 unbiased estimate of the gradient를 찾았지만 학습된 value function을 이용하지 않았다.
REINFORCE는 value function을 사용한 RL 방법보다 훨씬 느리게 학습하며, Learning value functin을 사용하므로서 variance를 줄이고 더 빠르게 학습할수 있도록 한다.
ACTOR-CRITIC 논문 리뷰 :
“Two neuronlike adaptive elements”는 어려운 control problem을 풀 수 있다.
여기서 어려운 taks는 Pole의 균형을 맞추는 것이다.
여기서 Learning system은 두가지로 구성되어 있다.
Pole의 균형을 맞추기 위해,
ASE는 reinforcement의 feeback에 영향을 받아서 찾은 input과 output의 assoication 이다.
ACE는 좀 더 informative evaluation function으로 구성되어 있으며 reinforcement feedback과는 단독으로 제공한다.
ASE의 input은 cart-pole state의 vector이며 이것은 decorder에 의해 계산되어진 것이다.
또한 ASE의 output은 Cartpole에 가해질 force를 측정한다.
ACE는 ASE와 마찬가지로 nonreinforcing input을 받으며 이것을 ASE를 개선하기 위해 사용한다.
Note 1
Association in psychology refers to a mental connection between concepts, events, or mental states that usually stems from specific experiences. https://en.wikipedia.org/wiki/Association_(psychology)
현재 Reinforcement Learning에서 Actor-Critic으로 불리는 학습 알고리즘의 아이디어가 제시된 1983년의 논문을 보았다.
현재는 네트워크 두개를 사용해 하나는 action을 다른 하나는 state를 측정하는 방법을 actor - critic이라고 범용적으로 부르는 것 같지만, 이 논문에서는 ASE와 ACE를 사용하여 Pole의 balance를 맞추는 환경에서 더 좋은 performace를 보였다 라고 제시하는 것 같다.
재밌는점은 이 논문은 동물이 학습할때 short term memory와 long-term memory를 통해 학습한다는 것을 출발한것처럼 보인다.
이 논문에서는 policy iteration에서의 general differentiable function approximation 은 locally optimal policy에 converge된다는 것의 아이디어를 가져왔다.
Baird and Moore(1999)가 VAPS 방법에서 policy-gradient가 비슷한 방법을 사용하였지만 locally optimal policy에 수렴하지 않았다.
https://github.com/wonseokjung/Papernotes/blob/master/1_Reinforcemen/1_NAETDLC/1_Neuronlike_Adaptive_Elements_that_can_solve_difficult_learning_control_problems_1983_sutton.md
Function Approximation에서 Agent의 objective를 두 가지 방법으로 Formulation한다.
Policy에 따라 per step 마다 받는 reward를 average한다. (Long-term 관점)
여기서 $d^{\pi}$ 은 state $s_0$ 에서 policy $\pi$ 를 따른 state의 distribution 이며 다음과 같이 정의한다.
$d^\pi (s) = lim_{n \rightarrow \infin} Pr { s_t = s \mid s_0 , \pi}$
1.1. Average 방법에서의 State-action
두번째 방법은 지정된 State state $s_0$에서 시작하는 방법 으로 지정된 state에서 시작하여 얻은 long-term reward만을 고려한다.



$d^\pi(s)= \sum_{t=0}^{\infin} \gamma^t Pr{s_t = s \mid s_0, \pi}$
: state 부터 시작, policy 를 따른 encountered된 state의 discounted weighting
** History
위의 연구들의 결과를 사용하여 start-state formulation과 더 간단한 증명으로 발전시켰다.
이번에는 function approximator을 사용하여 Estimate 된 $Q^\pi$를 고려하는 것을 알아보도록 하겠다.

이 부분은 예전에 내가 정리해놓은 글과 크게 다르지 않아 블로그 글 링크로 대체함
https://wonseokjung.github.io//reinforcementlearning/update/RL-PG_RE/
