1200字范文 > 强化学习（王树森）

强化学习（王树森）

时间：2018-08-18 01:44:08

相关推荐

强化学习（王树森）

基本概念

**策略函数(policy)**是根据观测到的状态做出决策

策略函数 π \pi π：S × \times × A → \rightarrow →[0,1]是一个条件概率函数：

π \pi π(a|s) = P(A = a | S = s)

策略函数的输入是状态s和动作a，输出是一个0到1之间的概率值

奖励(reward)是在智能体执行一个动作之后，环境返回给智能体的一个数值

状态转移是指当前状态 s 变成新的状态 s’，状态转移的随机性来源于环境

状态转移函数是环境用于生成新的状态时用到的函数

随即状态转移函数p(s’|s,a)=P(S’=s’,A=a)

意思是：如果观察到当前状态s以及动作a，那么p函数输出状态变成s’的概率

动作的随机性来源于策略函数

状态的随机性来源于状态转移函数

回报(return)*[累计奖励]*是指从当前时刻开始到一回合结束的所有奖励的总和，强化学习的目标是最大化回报，不是最大化当前的奖励

U t U_{t} Ut = R t R_{t} Rt + R t + 1 R_{t+1} Rt+1 + R t + 2 R_{t+2} Rt+2 + R t + 3 R_{t+3} Rt+3 + ···

但是在 t 时刻，除了 R t R_{t} Rt 以外的奖励对 t 时刻回报的重要性是依次降低的，因此 t 时刻的回报需要打一个折扣，即

U t U_{t} Ut = R t R_{t} Rt + γ γ^{} γ· R t + 1 R_{t+1} Rt+1 + γ 2 γ^{2} γ2· R t + 2 R_{t+2} Rt+2 + γ 3 γ^{3} γ3· R t + 3 R_{t+3} Rt+3 + ···

在 t 时刻，我们不知道 U t U_{t} Ut 的值，而我们又想预判 U t U_{t} Ut 的值从而知道局势的好坏，解决方案就是对 U t U_{t} Ut 求期望，消除掉其中的随机性

Q π Q_{\pi} Qπ(s,a)意思是在已经观测到的（s,a）情况下， U t U_{t} Ut 的期望

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。