Planning and Learning with Tabular Methods - 3

2018-03-15

When the model is Wrong

앞에서 real experience로 model learning을 하며 model을 만들었다. 하지만 이 model은 다음과 같은 이유로 정확하지 않은 model일 가능성이 있다.

  1. 환경이 stochastic하다.
  2. 한정된 sample만 관찰되었다.
  3. model이 function approximation을 사용하였기 때문에 완벽하지 않게 generalized되었다.

model이 틀린 model일때 planning은 suboptimal policy로 계산한다.

아래의 그림과 그래프는 막혀있는 미로 환경의 예이다.

Start S 에서 시작하여 Goal G까지 가장 짧은 거리로 가야하는 것이 목적이다.

이 환경은 time step이 1000일때 블락이 움직인다.

블락이 움직이기 전에는 에이전트가 블락이 비어있는 오른쪽으로 움직이면서 Goal로 가는 가장 짧은 길을 찾았는데,

블락이 움직이고 가장 짧은 거리로 가는 길이 막혀서 왼쪽으로 길게 돌아가야 한다.

그래프를 보면 DynaQ agent와 DynaQ+ agent 는 블락이 움직이기 전까지(1000step) G로 가는 길을 잘 찾는다.

1000step이후 블락이 움직이면 G로 가는 길을 찾지 못하여 reward를 받지 못하는 구간이 발생하며,

1500정도의 step부터 goal로 가는 optimal policy를 찾는다

a

위의 예제와는 다르게 환경이 전보다 더 좋게 변하는 경우, 더 좋은 path를 찾는데 오랜시간이 걸린다.

아래의 graph와 그림과 같이 3000step이후 블락이 움직여 더 짧은 거리로 목적지에 도착할수 있어도, 더 짧은 path를 찾는데 오래 걸린다.

b

여기서의 문제는 exploration과 explotation의 문제이다. planning에서 이 둘의 정의는 다음과 같다.

exploration : model을 더 개선시키려는 action을 선택

exploitation은 현재의 model에서 optimal한 action을 선택

Agent는 exploration을 많이 하면서 퍼포먼스를 크게 낮추지 않는 방법을 사용해야 한다.

Dyna Q+는 짧은길을 찾는 방법을 heuristic을 사용하여 풀었다.

bouns reward***

Reference

  • Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto Second Edition, in progress MIT Press, Cambridge, MA, 2017