Fix typo: stocahstic -> stochastic

ryanjulian · ryanjulian · commit c0a6fbbfcdd9 · 2017-10-22T18:02:41.000-07:00
diff --git a/gailtf/algo/behavior_clone.py b/gailtf/algo/behavior_clone.py
@@ -7,7 +7,7 @@
 from common.statistics import stats
 import ipdb
 
-def evaluate(env, policy_func, load_model_path, stocahstic_policy=False, number_trajs=10):
+def evaluate(env, policy_func, load_model_path, stochastic_policy=False, number_trajs=10):
   from algo.trpo_mpi import traj_episode_generator
   ob_space = env.observation_space
   ac_space = env.action_space
@@ -16,7 +16,7 @@ def evaluate(env, policy_func, load_model_path, stocahstic_policy=False, number_
   ob = U.get_placeholder_cached(name="ob")
   ac = pi.pdtype.sample_placeholder([None])
   stochastic = U.get_placeholder_cached(name="stochastic")
-  ep_gen = traj_episode_generator(pi, env, 1024, stochastic=stocahstic_policy)
+  ep_gen = traj_episode_generator(pi, env, 1024, stochastic=stochastic_policy)
   U.load_state(load_model_path)
   len_list = []
   ret_list = []
@@ -25,7 +25,7 @@ def evaluate(env, policy_func, load_model_path, stocahstic_policy=False, number_
     ep_len, ep_ret = traj['ep_len'], traj['ep_ret']
     len_list.append(ep_len)
     ret_list.append(ep_ret)
-  if stocahstic_policy:
+  if stochastic_policy:
     print ('stochastic policy:')
   else:
     print ('deterministic policy:' )
diff --git a/gailtf/algo/trpo_mpi.py b/gailtf/algo/trpo_mpi.py
@@ -385,7 +385,7 @@ def traj_episode_generator(pi, env, horizon, stochastic):
         t += 1
 
 def evaluate(env, policy_func, load_model_path, timesteps_per_batch, number_trajs=10, 
-         stocahstic_policy=False):
+         stochastic_policy=False):
     
     from tqdm import tqdm
     # Setup network
@@ -396,7 +396,7 @@ def evaluate(env, policy_func, load_model_path, timesteps_per_batch, number_traj
     U.initialize()
     # Prepare for rollouts
     # ----------------------------------------
-    ep_gen = traj_episode_generator(pi, env, timesteps_per_batch, stochastic=stocahstic_policy)
+    ep_gen = traj_episode_generator(pi, env, timesteps_per_batch, stochastic=stochastic_policy)
     U.load_state(load_model_path)
 
     len_list = []
@@ -406,7 +406,7 @@ def evaluate(env, policy_func, load_model_path, timesteps_per_batch, number_traj
         ep_len, ep_ret = traj['ep_len'], traj['ep_ret']
         len_list.append(ep_len)
         ret_list.append(ep_ret)
-    if stocahstic_policy: 
+    if stochastic_policy: 
         print ('stochastic policy:')
     else:
         print ('deterministic policy:' )
diff --git a/main.py b/main.py
@@ -20,7 +20,7 @@ def argsparser():
     # Task
     parser.add_argument('--task', type=str, choices=['train', 'evaluate'], default='train')
     # for evaluatation
-    parser.add_argument('--stocahstic_policy', type=bool, default=False)
+    parser.add_argument('--stochastic_policy', type=bool, default=False)
     #  Mujoco Dataset Configuration
     parser.add_argument('--ret_threshold', help='the return threshold for the expert trajectories', type=int, default=0)
     parser.add_argument('--traj_limitation', type=int, default=np.inf)
@@ -79,7 +79,7 @@ def policy_fn(name, ob_space, ac_space, reuse=False):
         # Pretrain with behavior cloning
         from gailtf.algo import behavior_clone
         if args.algo == 'bc' and args.task == 'evaluate':
-            behavior_clone.evaluate(env, policy_fn, args.load_model_path, stocahstic_policy=args.stocahstic_policy)
+            behavior_clone.evaluate(env, policy_fn, args.load_model_path, stochastic_policy=args.stochastic_policy)
             sys.exit()
         pretrained_weight = behavior_clone.learn(env, policy_fn, dataset,
             max_iters=args.BC_max_iter, pretrained=args.pretrained, 
@@ -114,7 +114,7 @@ def policy_fn(name, ob_space, ac_space, reuse=False):
                 task_name=task_name)
         elif args.task == 'evaluate':
             trpo_mpi.evaluate(env, policy_fn, args.load_model_path, timesteps_per_batch=1024,
-                number_trajs=10, stocahstic_policy=args.stocahstic_policy)
+                number_trajs=10, stochastic_policy=args.stochastic_policy)
         else: raise NotImplementedError
     else: raise NotImplementedError