Press "Enter" to skip to content

《强化学习》入门C5 Monte Carlo Methods

On-policy 的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用数据就可以优化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很好的同时保持即探索又利用

 

 

 

理解重要性采样

 

###Importance Sample 解决的问题

 

 

 

 

 

 

重要性采样 的计算中

 

ρt=(连乘)π(st,at)/b(st,at)

 

π是greedy策略,则π等于1或0,那幺只要有一个π=0,那幺 就等于0,根本算不了

 

解决方案:计算 时,一遇到等于0的,就停止连乘,前面非0项之积即为答案

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注