1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 强化学习(王树森)

强化学习(王树森)

时间:2018-08-18 01:44:08

相关推荐

强化学习(王树森)

目录

基本概念价值函数目的

基本概念

**策略函数(policy)**是根据观测到的状态做出决策

策略函数 π \pi π:S × \times × A → \rightarrow →[0,1]是一个条件概率函数:

π \pi π(a|s) = P(A = a | S = s)

策略函数的输入是状态s和动作a,输出是一个0到1之间的概率值

奖励(reward)是在智能体执行一个动作之后,环境返回给智能体的一个数值

状态转移是指当前状态 s 变成新的状态 s’,状态转移的随机性来源于环境

状态转移函数是环境用于生成新的状态时用到的函数

随即状态转移函数p(s’|s,a)=P(S’=s’,A=a)

意思是:如果观察到当前状态s以及动作a,那么p函数输出状态变成s’的概率

动作的随机性来源于策略函数

状态的随机性来源于状态转移函数

回报(return)*[累计奖励]*是指从当前时刻开始到一回合结束的所有奖励的总和,强化学习的目标是最大化回报,不是最大化当前的奖励

U t U_{t} Ut​ = R t R_{t} Rt​ + R t + 1 R_{t+1} Rt+1​ + R t + 2 R_{t+2} Rt+2​ + R t + 3 R_{t+3} Rt+3​ + ···

但是在 t 时刻,除了 R t R_{t} Rt​ 以外的奖励对 t 时刻回报的重要性是依次降低的,因此 t 时刻的回报需要打一个折扣,即

U t U_{t} Ut​ = R t R_{t} Rt​ + γ γ^{} γ· R t + 1 R_{t+1} Rt+1​ + γ 2 γ^{2} γ2· R t + 2 R_{t+2} Rt+2​ + γ 3 γ^{3} γ3· R t + 3 R_{t+3} Rt+3​ + ···

价值函数

目的

在 t 时刻,我们不知道 U t U_{t} Ut​ 的值,而我们又想预判 U t U_{t} Ut​ 的值从而知道局势的好坏,解决方案就是对 U t U_{t} Ut​ 求期望,消除掉其中的随机性

Q π Q_{\pi} Qπ​(s,a)意思是在已经观测到的(s,a)情况下, U t U_{t} Ut​ 的期望

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。