1200字范文 > 强化学习-王树森

强化学习-王树森

时间：2021-04-30 07:37:11

相关推荐

强化学习-王树森

1.随机变量A与随机变量的观测值a

2.概率密度函数：连续和离散

3.期望E

4.随机抽样：from numpy.random import choice

agent：动作的发出者

policy π：π是概率密度函数

reward R：奖励

state transition：是条件概率密度

通过policy π（）函数，可以知道当前状态下，各动作的发生概率，然后随机抽样选择a

折扣率是0-1之间的数

Ut跟未来的所有动作（A）和状态(S)都有关

Ut是一个随机变量，不是观测值（我们在t时刻得不到Ut），如果我们知道这个值的大小，我们就知道这个回报的大小。故我们用对Ut求期望，将t+1及其之后的S和A的随机性都积分掉了，这样这个Q价值函数至于当前的状态和动作有关。

该Qπ（st，at）的具体意义：就是在t时刻，st的状态下，基于π的策略判断做出at这个动作的好坏

就是前面的Qπ（）函数去掉π

Q*（）函数的意义就是在t时刻，st的状态下，判断做出at这个动作的好坏

这里的A是随机变量，通过Qπ（）函数求A求期望将随机性去掉

该函数的具体含义就是评价当前状态的好坏

一种是学习策略函数π

一种是学习Q*（）-动作价值函数

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。