关于q lambda的问题 #43

ayton-zhang · 2024-07-02T13:20:52Z

作者您好，再q lambda的实现代码中，我想问一下如果episode是terminated的话，那么它的exp_return应该是零，但是terminated状态的reward是不是应该考虑进去？
我不太理解这步的操作：reward = rewards[:, t] + exp_qvals[:, t] - qvals[:, t] #off-policy correction，有什么理论依据吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于q lambda的问题 #43

关于q lambda的问题 #43

ayton-zhang commented Jul 2, 2024

关于q lambda的问题 #43

关于q lambda的问题 #43

Comments

ayton-zhang commented Jul 2, 2024