A3C - Asynchorous Advantage Actor Critic Network
2018-07-03
The Asynchronous Advantage Actor Critic Network - A3C
wonseok Jung
- DQN은 많은 computation을 요구한다.
- Google deepind에서 computation 이슈를 해결하기 위한 알고리즘을 만들어냄
1. A3C
- 그 알고리즘을 Asynchronous Advantage Actor Critic Network ( A3C ) 라고 정의함
- A3C는 DQN보다 적은 computation을 요구하며 training 시간 또한 짧다.
1.1 A3C의 학습방법, 적용 action spaces
- A3C의 idea는 agent를 여러개 만들어 병렬로 학습하는 방법이다.
- A3C는 continuous action 또는 discrete action spaces에서 둘다 적용할 수 있다.
1.2 A3C의 특징인 global network
-
여러 agents ( 혹은 workers )가 각 environment에서 pareller하게 학습한다.
-
각 agent가 수집한 experience는 global agent로 aggregated 된다.
-
Global agent는 master network 혹은 global network라고 불린다.
2. The Asynchronous Advantage Actor Critic Network에서 Triple의 의미
2.1 A3C에서 AAA 의 의미 - Asynchronous?
- Asynchronous :
- DQN은 하나의 Agent가 Environment와 interactrion하며 optimal policy를 찾기위해 학습을 한다.
- A3C는 multiple agents가 각 environment와 interaction하며 학습한다.
2.2 A3C에서 AAA 의 의미 - Advantage ?
- Advantage :
- Advantage function은 Q function과 value function의 차이이다.
- Q function은 action value가 얼마나 좋은지 측정하는 것이고, value function은 state value가 얼마나 좋은지 측정하는 것이다.
- 이 둘의 차이를 직관적으로 비교해보면, agent가 action을 하는 것이 모든 action들보다 얼마나 나쁜지 혹은 좋은지 측정하는 것이다.
2.3 A3C에서 AAA 의 의미 - Actor - ?
- Actor-critic
- Architecture는 두가지 network로 Actor와 Critic이 있다.
- Actor : policy를 배운다.
- Critic : Actor에 의해 배운 policy가 얼마나 좋은지 Critic한다.
3.Architecture of A3C
- multiple agents가 각 환경에서 interaction을 한다.
- 각 agent는 policy를 배우고, policy loss의 gradient를 계산하여 gradient를 global network로 update한다.
- A3C는 여러 Agent가 환경과 interaction하며 global network로 aggregate하며 experience의 correlate를 없앤다.
- 그렇기 때문에 replaymemory를 사용하지 않기 때문에 storage와 computation time이 줄어든다.