제2편: To the Rainbow- Noisy Networks for Exploration
To the Rainbow 제 2편 : Noisy Networks for Exploration
제1편: To the Rainbow
Deepmind Rainbow를 이해하기까지 -1
Deepmind의 Rainbow를 이해하기 위해서는 선행되어야할 지식이 꽤 많다.
Rainbow는 Deepmind의 DQN에서 파생되어 나온 알고리즘으로,
기존의 DQN에 아래와같이 6개가 더 추가 되었다.
아래의 성능비교 그래프와같이 아주아주 명확하게 성능 차이를 보인다. ㄷㄷㄷ
특히 Muti-step, priority, distibution, noisy의 유무에 따라 성능차이를 많이 보인다.
그래서 Rainbow를 이해하기위해 1.이론 2.코드 분석을 하나씩 하려고 한다.
순서
-
DQN
-
Double DQN
-
Dueling DQN
-
Prioritized replay memory
-
noisy networks
-
distributional RL
-
Rainbow
1.DQN
1.1 DQN 이론
DQN의 이론은 이전에 작성한 글로 대체
https://wonseokjung.github.io//rl_paper/update/RL-PP-DQN/
1.2 DQN 구현
pytorch를 사용하여 DQN을 구현해보도록 하자
A. 필요한 라이브러리를 import한다.
import math, random
import gym
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.autograd as autograd
import torch.nn.functional as F
-
import math : 수학함수를 불러올수 있다.
-
import random : random number generators
-
import gym : openAI 강화학습 gym library
openAI gym 사용법 :
https://wonseokjung.github.io//reinforcementlearning/update/openai-gym/
-
import torch : pytorch를 불러온다.
-
import torch.nn as nn : Module을 불러올수 있도록 한다.
-
import torch.optim as optim : 여러가지 optimization algorithm을 불러올수 있다.
-
import torch.autograd as autograd : 자동으로 gradient를 해준다.
-
import torch.nn.functional as F : Forward neural network를 불러온다.
B. 그래프를 plot하기 위한 jupyter notebook package
from IPython.display import clear_output
import matplotlib.pyplot as plt
%matplotlib inline
C. CUDA 사용
USE_CUDA = torch.cuda.is_available()
Variable = lambda *args, **kwargs: autograd.Variable(*args, **kwargs).cuda() if USE_CUDA else autograd.Variable(*args, **kwargs)
D. Replay Memory
from collections import deque
class ReplayBuffer(object):
def __init__(self, capacity):
self.buffer = deque(maxlen=capacity)
def push(self, state, action, reward, next_state, done):
state = np.expand_dims(state, 0)
next_state = np.expand_dims(next_state, 0)
self.buffer.append((state, action, reward, next_state, done))
def sample(self, batch_size):
state, action, reward, next_state, done = zip(*random.sample(self.buffer, batch_size))
return np.concatenate(state), action, reward, np.concatenate(next_state), done
def __len__(self):
return len(self.buffer)
-
deque() : 빠르게 append하거나 pop할수 있는 list
-
np.expand_dims : expanded array shape.
-
zip : iterator of tuples, where the i-th tuple contains the i-th element from each of the argument sequences or iterables.
F. Enviornment ( CartPole )
env = gym.make("CartPole-v0")
- CartPole 환경을 불러온다.
G.Epsilon greedy exploration
epsilon_start = 1.0
epsilon_final = 0.01
epsilon_decay = 500
epsilon_by_frame = lambda frame_idx: epsilon_final + (epsilon_start - epsilon_final) * math.exp(-1. * frame_idx / epsilon_decay)
-
epsilon을 1부터 0.01까지 점점 줄인다.
-
lambda : creation of anonymous functions
H. Plot
plt.plot([epsilon_by_frame(i) for i in range(10000)])
위의 epsilon을 출력한다.
I. DQN Model
class DQN(nn.Module):
def __init__(self, num_inputs, num_actions):
super(DQN, self).__init__()
self.layers = nn.Sequential(
nn.Linear(env.observation_space.shape[0], 128),
nn.ReLU(),
nn.Linear(128, 128),
nn.ReLU(),
nn.Linear(128, env.action_space.n)
)
def forward(self, x):
return self.layers(x)
def act(self, state, epsilon):
if random.random() > epsilon:
state = Variable(torch.FloatTensor(state).unsqueeze(0), volatile=True)
q_value = self.forward(state)
action = q_value.max(1)[1].data[0]
else:
action = random.randrange(env.action_space.n)
return action
-
def forward() : forward neural network 생성
-
def act() : epsilon policy로 action 선택
model = DQN(env.observation_space.shape[0], env.action_space.n)
if USE_CUDA:
model = model.cuda()
optimizer = optim.Adam(model.parameters())
replay_buffer = ReplayBuffer(1000)
-
Cuda를 사용하고, optimizer는 Ada을 사용한다.
-
replay memory 는 1000으로 한다.
J.Computing Temporal Difference Loss
def compute_td_loss(batch_size):
state, action, reward, next_state, done = replay_buffer.sample(batch_size)
state = Variable(torch.FloatTensor(np.float32(state)))
next_state = Variable(torch.FloatTensor(np.float32(next_state)), volatile=True)
action = Variable(torch.LongTensor(action))
reward = Variable(torch.FloatTensor(reward))
done = Variable(torch.FloatTensor(done))
q_values = model(state)
next_q_values = model(next_state)
q_value = q_values.gather(1, action.unsqueeze(1)).squeeze(1)
next_q_value = next_q_values.max(1)[0]
expected_q_value = reward + gamma * next_q_value * (1 - done)
loss = (q_value - Variable(expected_q_value.data)).pow(2).mean()
optimizer.zero_grad()
loss.backward()
optimizer.step()
return loss
- TD learning을 계산한다.
K. Training
num_frames = 10000
batch_size = 32
gamma = 0.99
losses = []
all_rewards = []
episode_reward = 0
state = env.reset()
for frame_idx in range(1, num_frames + 1):
epsilon = epsilon_by_frame(frame_idx)
action = model.act(state, epsilon)
next_state, reward, done, _ = env.step(action)
replay_buffer.push(state, action, reward, next_state, done)
state = next_state
episode_reward += reward
if done:
state = env.reset()
all_rewards.append(episode_reward)
episode_reward = 0
if len(replay_buffer) > batch_size:
loss = compute_td_loss(batch_size)
losses.append(loss.data[0])
if frame_idx % 200 == 0:
plot(frame_idx, all_rewards, losses)
References
1.from anyrl.algos import DQN
https://github.com/unixpickle/anyrl-py/blob/master/anyrl/algos/dqn.py
2.from anyrl.envs import BatchedGymEnv
https://github.com/unixpickle/anyrl-py/blob/b43f0728400fd5c01daf4ae110c797622d0c9ddb/anyrl/envs/gym.py
3.from anyrl.envs.wrappers import BatchedFrameStack
https://github.com/unixpickle/anyrl-py/blob/8a1ab680e56be8de435b0b8fff1fc48d7a37463a/anyrl/envs/wrappers/batched.py
4.from anyrl.models import rainbow_models
https://github.com/unixpickle/anyrl-py/blob/8e119ca25724d537db3e620bd922f39a2ac61ea4/anyrl/models/dqn_dist.py
5.from anyrl.rollouts import BatchedPlayer, PrioritizedReplayBuffer, NStepPlayer
5.1batchplayer:
https://github.com/unixpickle/anyrl-py/blob/1543af96346293e90ff30b6912dab66c681c2ed1/anyrl/rollouts/players.py
5.2PrioritizedReplayBuffer
https://github.com/unixpickle/anyrl-py/blob/5e3fed0b0e249dcd01d844e4a9a47bb80b990699/anyrl/rollouts/replay.py
5.3 NStepPlayer
https://github.com/unixpickle/anyrl-py/blob/1543af96346293e90ff30b6912dab66c681c2ed1/anyrl/rollouts/players.py
6.from anyrl.spaces import gym_space_vectorizer
https://github.com/unixpickle/anyrl-py/blob/8a1ab680e56be8de435b0b8fff1fc48d7a37463a/anyrl/spaces/gym.py
7. Noisy Networks for Exploration
https://arxiv.org/abs/1706.10295
8.
https://github.com/higgsfield/RL-Adventure/blob/master/4.prioritized%20dqn.ipynb
제2편: 강화학습의 거의 모든것: Multi-armed Bandit
제1편: 강화학습의 거의 모든것 https://wonseokjung.github.io//reinforcementlearning/update/RL-RL1/
제2편: 강화학습의 거의 모든것 : Multi-armed Bandit
Multi-armed Bandit은 아주아주 간단한 Reinforcement 의 문제중 하나이지만,
이 챕터를 다시 읽어보며, 이 간단한 Multi-armed Bandit을 풀기위해 적용된 방법들이 현재 강화학습 이론이 바탕이 되었구나 라고 판단되었다.
그만큼, 매우 중요하니 꼭 볼것!
순서
Multi-armed Bandits
1.A k-armed Bandit Problem
2.Action-value Method
3.The 10-armed Testbed
4.Incremental Implementation
5.Tracking a Nonstationary Problem
6.Optimistic Initial values
7.Upper-Confidence-Bound Action Selection
8.Gradient Bandit Algorithms
Multi-Armed Bandits
Reinforcement learning는 다른 learning과 구분지을수 있는 특징으로는 ,
action을 evaluate 한다는 것이다.
이렇게 evaluate하는 과정은 좋은 behavior을 찾기 위해 active exploration을 한다는 것이ㅏ.
Feedback의 종류가 두가지가 있는데,
-
첫번째는 evaluaute feedback으로 선택된 action에 따라 달라지는 feedback
-
두번째는 intructive feedback으로 선택되어진 action과 독립적인 feedback
이 챕터에서는 Reinforcement learning ( 강화학습 ) 의 evaluate feedback에 대하여 한 상황에 대해서만 행동을 하도록 학습하는
간단한 예제를 통하여 배울 것이다.
1. A k-armed Bandit Problem
K-armed Bandit 의 learning problem은 다음과 같다.
==“Bandit problems embody in essential form a conflict evident in all human action: choosing actions which yield immediate reward vs. choosing actions (e.g. acquiring information or preparing the ground) whose benefit will come only later” - P. Whittle (1980).==
1.k-different option이나 action을 선택할 수 있다.
2.한 번 action을 선택할 때마다 stationary probability distribution에서 numberical reward를 받는다.
3.목표는 한정된 시간동안 expected total reward를 maximize 시키는 것이다.
k-armed Bandit의 의미는 k개의 lever가 있는 slotmachine이다.
http://www.primarydigit.com/
각 action을 선택할때는 machine의 lever를 당기는 것과 같고,
rewar는 jackpot을 터트려 받는 돈과 같다.
action을 select하는 것을 반복하며 reward를 많이 주는 최고의 lever 찾아 승률을 최대화 시킨다.
k-armed bandit problem 에서는 각 action이 선택되었을때, 그 action을 expected 또는 mean reward를 한다.
이와 같은 것을 value of the action ( 그 행동을 한 가치)라고 한다.
그 시간에 선택된 action을 라고 하며, corresponding한 reward를 Reward 라고 한다.
Action a가 선택되었을때의 expected reward를 라고 하며, 다음의 식으로 정의한다.
만약 각 action의 value를 알고 있다면, 가장 높은 reward를 받는 선택만 선택하므로 bandit 문제를 해결할 수 있을 것이다.
여기서는 action value를 모른다고 가정하며,
시간 (time ste t)에서 선택된 action을 estimate value를 를 가 되기를 원한다.
Action value를 측정할때 항상 최소한 하나의 ation은 가장 큰 value를 estimate할것이다. (예를 들어서 10개의 레버를 당겼을때 최소한 한개의 레버는 그중 가장 큰 reward를 줄 것이다.)
위와 같이 가장 큰 value를 선택하는 action을 greedy한 action 이라고 부르며,
greedy 한 action을 선택할때는 exploiting한다고 한다.
반대로, 만약 greedy 하지 않은 action중 하나를 선택한다면 explorating 한다고 한다.
Exploitation으로 한 step에서의 expected reward를 maximize하기위해 greedy action을 선택할 수 있지만,
현재 당장 받는 reward가 적더라도, long term에서는 exploration을 함으로서 더 높은 reward를 받을 수도 있다.
2. Action-value Methods
ACtion 을 선택했을때의 action value를 estimate하는 방법에 대하여 자세히 알아보겠다.
먼저 여기서 True action value의 정의는 action이 선택되었을때의 평균 reward이다.
이 True action value를 계산하는 방법은 실제로 받을 reward를 평균한 값이다.
여기서 은 predicate가 true면 1, 아니면 0이다.
만약denominator가 0이면 는 default value 정의한다.
그리고 denominator가 무한대로 가면 는 $$q_(a)로 converge한다.
이런 방법을 action value를 estimate한 sample-average라고 하며, 이외에도 action value을 estimate하는 방법은 여러가지가 있다.
그렇다면 action을 선택하는 방법에는 무엇이 있을까?
1.
greedy action은 위와같이 정의하며, 는 를 가장 maximize 시켜주는 action.
현재의 정보를 통해 바로 받는 reward를 maximze 하는 action을 선택한다.
2.
가끔 epsilon의 확률로 greedy한 action이 아닌 다른 action을 선택하는 방법이 있다.
exploitation으로 한 step에서의 expected reward를 maximaze하는 action을 선택할 수 있지만, 어쩌면 long term에서는 exploration을
하여 미래에 더 높은 reward를 얻을수도 있을 것이다.
3. The 10-armed Testbed
Greedy와 방법을 실험하기 위해 비교 실험을 하였다.
k-arm bandit ( k = 10)에서 2000개의 데이터를 random 하게 생성하였고,( normal distribution, mean 0, variance 1의 조건)
두번째는 greedy method 와 method의 비교이다. (= 0.1 과 = 0.01)
10 Arm bandit에서 sample-average technique를 사용하였다.
아래의 그래프는 experience 에 따라 expected reward가 증가하는 그래프이다.
greedy 가 보다 average reward가 증가하는 량이 느리다.
step 1000에서의 average rewawrd도 greedy방법이 1 정도로 가장 낮다.
gredy action은 suboptimal action에 갇히기 쉽게 때문에 에 비해 성능이 나쁘다.
밑의 graph에서 greedy는 금방 optimal한 action을 찾고 더이상 향상되지 않는다.
는 계속 optimal action 을 찾기 위해 explore하고 개선하여 더 좋은 결과를 보인다.
4.Incremental Implementation
지금까지 다룬 actin-value method는 관찰된 reward를 sample average하여 estimate한 것이다.
좀 더 효율적인 방법으로 action-value를 측정할 수는 없을까?
은 action이 n-1만큼 선택된 후에 estimate 된 action value 이다.
은 다음과 같이 정의할 수 있다.
Obvious implementation은 모든 reward를 기록할때, estimate value가 필요한때 언제라도 사용할 수 있다.
하지만 reward가 늘어날 때마다 memory와 computation이 늘어날 것이다.
하지만 Incremental formular을 사용하면 위의 방식이 필요없다.
의 식을 아래와 같이 바꿀수 있다.
이 Implementation 방법은 과 , 의 메모리만 있으면 된다.
Simple Bandit Algorithm 의 Pseudocode는 아래와 같다.
1.Q와 N을 0으로 초기값을 준다.
2.Action은 로 선택된다.
3.선택된 Action을 통하여 Reward를 받는다.
4.N(A)+1로 N(A)를 업데이트 한다.
5.Reward - Q(A) 값에 1/N(A)를 해준것에 Q(A)를 더해주어 Q(A)를 업데이트 한다.
여기서 Reward - Q(A)는 estimate의 error라고 하며, 다음과 같이 표기할 수 있다.
[ Target - OldEstimate ] 가 estimate의 error이며, 이 error는 step을 진행하면서 Target에 가까이 갈수록 줄어든다.
Target은 이동하여야 하는 바람직한 방향이며,여기서 Target은 n번째의 reward이다.
Step-size parameter는 time step 마다의 incremental method이며, action a 의 n번째 step size는 1/n 이다.
또는 라고 정의하기도 한다.
5. Tracking a Nonstationary Problem
Stationary 한 Bandit problem을 Average하는 방법을 알아보았다.
(여기서 stationary 하다는 것은 reward의 probabilites가 시간에 따라 변하지 않는다.)
Reinforcement learning에서는 가끔 nonstationary한 상황과 마주치는데,
(예를 들어 최근의 받은 reward를 오래전에 받은 reward보다 weight를 더 많이 준다.)
이것을 하는 방법으로 유명한 방법은 ste-size parameter을 조절하는 것이다.
예를 들어, Incremental Update rule ( n-1의 reward의 평균 Qn을 update )
또는 step마다 step-size parameter을 다르게 하는 방법도 있다.
이 방법은 다음과 같이 정의할 수 있다.
여기서 는 이며,
는 weighted average의 과거 reward이다.
위의 식을 풀면 다음과 같이 정의할수 있다.
이것은 weighted average라고 부르는데 weight의 합이 항상 1이 되기 때문이다.
에서 Reward는 n-i에 따라 weighted 되어진다.
6. Optimistic Initial Values
Exploration 방법으로 epsilon-greedy를 사용하여 exploration을 하였는데, 여기서는 꼭 어떠한 epsilon의 확률로
non-greedy한 action을 선택하는 epsilon-greedy 방법을 사용하지 않는다.
다른 방법으로는 Initial action value을 0이 아닌 높은 값으로 주는 것이다.
이것은 action a를 선택할때 starting value가 reward보다 더 크기 때문에 다른 action을 선택하며, 그로 인해 exploration을
encourage하는 효과가 있다.
아래의 그래프는 10-armed bandit 에서 이를 실험한 결과이다.
Optimistic greedy 방법은 action value를 0이 아닌 5로 초기화 해주었고 epsilon 은 0으로 항상 greedy한 action만 선택한다.
그렇기에 초반에 exploration을 비교적 많이 한다.
realistic, epsilon-greedy 방법은 epsilon 값은 0.1이며, 초기 action value 는 0 이다.
두 greedy 방법을 10-armed bandit 에서 실험해본 결과,
초기 (200 steps) 까지는 realistic 방법이 optimistic 방법에 비해 optimal action을 찾을 확률이 더 높았지만,
200steps이후에는 optimistic 방법이 더 좋은 성능을 보였다.
이는 optimistic 방법이 explore를 많이 하기 때문에 처음에는 성능이 떨어지지만, 시간에 따라 exploration이 줄어들기 때문에 결국
더 좋은 성능을 보인다.
7. Upper-Confidence-Bound Action selection
action -value estimation의 정확도는 uncertainty하기에 exploration은 항상 필요하다.
Greedy action은 현재에서 Best한 action을 선택한다.
현재 reward를 가장 많이 받는 action을 선택하는 것이 미래의 reward도 가장 많이 받는 action 이라고 확실할수 있을까?
어쩌면 현재 reward는 작게 받는 action이라도, 미래에는 더 좋은 reward를 받는 action일수도 있다.
Epsilon-greedy action selection은 강제로 non-greedy한 action을 선택한다.
하지만 action을 preference를 하지 않고 무작위로 결정을 한다.
non-greedy action을 선택할때 실제로 optimal이 될 잠재력이 높은 action을 선택하는 것이 더욱 효율적이지 않을까?
위의 식으로 을 추가하여 action을 선택하는 방법을 알아보자
여기서 는 natural logarithm의 t 이며, 는 prior 부터 time t 까지 action a가 선택된 횟수이다.
는 exlporation의 정도를 조정하며, 가 0 일때는 maximizing action을 선택한다.
위와 같은 아이디러를 Upeer confidence bound (UCB)action selection value라고 한다. 여기서 은 uncertainty를 측정 또는 a value의 variance 값을 측정한다.
가 커질수록 uncertainty term이 decrease하며, 아래의 그래프와 같이 perform이 좋아보이지만
사실은 bandit문제를 제외한 다른 reinforcement learning에서는 epsilon-greedy 방법보다 성능이 좋지 않다.
8. Gradient Bandit Algorithms
지금까지는 action의 value를 estimate한 값을 구하였고, action을 선택할때 그 action value를 기준으로 하였다.
다른 approach는 numberical preference를 배우자는 목적이며, ( 각각 action의 preference )
denote는 다음과 같이 로 합니다.
preference가 커지면 그 action은 더 많이 선택될 것이고, 하지만 reward에는 preference가 없다.
Gradient 방법에서는 action을 선택할때 아래와 같이 soft-max distribution을 따른다.
는 time t에서 action a를 선택할 확률이다. 모든 preference의 초기값은 같기 때문에 (예를 들어 ) 초기화 했을때 모든 action은 같은 확률로 선택되어진다.
Stochastic gradient ascent의 idea를 기반으로 natual learning algorithm 이 있다.
각 Step마다, 를 선택한 후 를 받고, 다음의 식을 통하여 preference가 update된다.
은 step-size parameter임 time t를 포함한 모든 reward의 average는 위에서 봤던
update rule에 의하여 계산된다.
는 reward가 비교되는 baseline으로 사용된다.
만약 그 reward가 baseline보다 높으면 가 선택될 확률이 높아지며, 반대로 reward가 baseline보다 낮으면 그 가 선택될 확률이 줄어든다.
아래의 그래프는 baseline을 사용했을때와 사용하지 않았을때의 비교이다.
steps에 따라 optimal action을 선택할 확률인데,
baseline을 사용한 경우가 그러지 않았을때보다 월등히 optimal action을 선택할 확률이 높았다.
정리
지금까지 Multi-armed Bandit에 대하여 알아보았다.
1.A k-armed Bandit Problem
2.Action-value Method
3.The 10-armed Testbed
4.Incremental Implementation
5.Tracking a Nonstationary Problem
6.Optimistic Initial values
7.Upper-Confidence-Bound Action Selection
8.Gradient Bandit Algorithms
이 챕터에서 Multi-armed bandit 문제를 풀기 위하여 여러가지 방법이 시도 되었고,
이는 고전알고리즘의 전체의 아이디어와 동일하다고 생각한다.
다음 챕터는 MDP ( Markov decision process )로 Bandit 처럼 action을 선택했을때 reward만 받는것이 아닌,
action을 선택하므로서 state ( 상태 ) 가 달라진다.
여기서 Agent, State, Environment의 개념이 추가되는데,
자세한 것은 다음 챕터에 알아보겠다.
Reference
- Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto Second Edition, in progress MIT Press, Cambridge, MA, 2017
2편 : Open AI Retro 소닉 대회 : 대회 목표, 대회 참여, 에이전트 제출
제2편 Open AI Retro 소닉 대회 : 대회 목표, 대회 참여, 에이전트 제출
1편 : OpenAIRetro Contest 참여 및 소닉 설치방법
https://wonseokjung.github.io//openairetro/update/Retro-1/
강화학습과 친해지기 위한 OpenAI의 Gym사용법
https://wonseokjung.github.io//reinforcementlearning/update/openai-gym/
1.대회 목표
Sonic The Hedgehog™ series of games for SEGA Genesis 을 사용하여,
Transfer-learning contest를 개최합니다.
Transfer-learning을 이용하여 소닉게임을 플레이 하는 최고의 소닉게임을 만들어보세요.
2.대회에 참여하기 위한 필요 요소
- git repo 설치하기
To install the repo for the contest, which includes environment wrappers to set things up in the official way, run this:
git clone --recursive https://github.com/openai/retro-contest.git
sudo pip3 install -e "retro-contest/support[docker]"
Sonic-train.csv를 이용하여 python에서 새로운 contest 환경을 만들수 있습니다.
sonic-train와 랜덤한 행동을 하는 에이전트의 파일은 아래의 링크에서 다운받을 수 있습니다.
sonic-train.csv 다운로드 링크 :
https://contest.openai.com/static/sonic-train.csv
random agent 링크:
https://contest.openai.com/static/random-agent-contest.py
from retro_contest.local import make
def main():
env = make(game='SonicTheHedgehog-Genesis', state='LabyrinthZone.Act1')
obs = env.reset()
while True:
obs, rew, done, info = env.step(env.action_space.sample())
env.render()
if done:
obs = env.reset()
if __name__ == '__main__':
main()
Note that it imports from retro_contest.local instead of retro. When you run this script you should see Sonic jumping randomly around a level. At this point, you can submit a simple agent to the evaluation server.
Also, be sure to check out our Discord server to chat with us or other contestants.
3.에이전트 Submit하기
리더보드에 에이전트를 오리기 위해서는 오픈에이아이의 서버에서 evaluate하여야 합니다.
아래는 submit을 하기위한 에이전트의 예 입니다.
프레임워크 없이 submission을 하기 위해서 Doncker을 이용합니다.
만약 Mac을 사용하고 있다면 맥을 위한 Docker을 이용하고, 윈도우 사용자라면 윈도우를 위한 Dokcer 를 이용하세요.
만약 저와같이 우분투를 사용한다면, docker 설치 가이드를 따라가세요.
Docker가 설치되면, 다음의 링크에서 register을 하세요.
https://contest.openai.com/register
등록을 하신 뒤 프로필을 열어서 보시면, Dokcer의 URL, 유저이름, 패스워드가 있습니다.
프로필 링크 :
https://contest.openai.com/user
Docker command line tool로 login을 하실수 있습니다.
export DOCKER_REGISTRY=<docker registry url>
docker login $DOCKER_REGISTRY \
--username <docker registry username> \
--password <docker registry password>
export DOCKER_REGISTRY=retrocontestrtziplgvadskhfwu.azurecr.io
- registry와 username, password 를 넣을때 < > 는 제거해주셔야하며, 우분투 기준으로 dock login에 sudo로 해줘야 permission denied가 되지 않습니다.
다음의 코드는 random action을 하는 간단한 agent입니다.
하지만 이 agent느 항상 오른쪽으로 가는 키가 눌러져 있습니다.
링크 주소 :
https://contest.openai.com/static/simple-agent.py
import gym_remote.exceptions as gre
import gym_remote.client as grc
def main():
print('connecting to remote environment')
env = grc.RemoteEnv('tmp/sock')
print('starting episode')
env.reset()
while True:
action = env.action_space.sample()
action[7] = 1
ob, reward, done, _ = env.step(action)
if done:
print('episode complete')
env.reset()
if __name__ == '__main__':
try:
main()
except gre.GymRemoteError as e:
print('exception', e)
- 에이전트 이미지를 build할 Dockerfile
링크 주소 : https://contest.openai.com/static/simple-agent.docker
FROM openai/retro-agent
ADD simple-agent.py .
CMD ["python", "-u", "/root/compo/simple-agent.py"]
만약 이 파일들을 받고 에이전트를 build 하려면 다음을 하세요
mkdir simple-agent
cd simple-agent
curl -O https://contest.openai.com/static/simple-agent.py
curl -O https://contest.openai.com/static/simple-agent.docker
docker build -f simple-agent.docker -t $DOCKER_REGISTRY/simple-agent:v1 .
Docker이미지를 업로드 합니다.
docker push $DOCKER_REGISTRY/simple-agent:v1
그 다음 Submit하기 로 들어가서 submit을 합니다.
처음 submission은 리더보드에 올라가기까지 몇시간이 소요됩니다.
레트로 콘세스트 깃헙주소
https://github.com/openai/retro-contest
- Reference
https://contest.openai.com/
https://contest.openai.com/leaderboard
https://blog.openai.com/retro-contest/