一、强化学习中的基本概念

##state and action
Alt text

policy

根据观测到的状态做出决策,以控制Agent运动。

强化学习就是学pocily函数。

Alt text

pocily函数一般是个概率密度函数,具有随机性。

比如,在玩剪刀石头布时,如果你的出拳策略不随机,那么就有规律可循,当对方观察到这一规律时,你就gg了。

reward

Alt text
强化学习的目标是使得reward更高。

state transition

Alt text

agent environment interaction

Alt text

Randomness in Reinforcement Learning

Alt text

Play the game with AI

Alt text

rewards and returns

Alt text
当前时刻的return定义为当前时刻以及之后时刻reward的总和。

但是时间越久,奖励越不明显,因此对应的权重可以设置小一些:
Alt text

return中的随机性:
Alt text

Action-value functions

Alt text
Alt text

State-Value Function

Alt text

Value Functions Summary

Alt text

Play the game with AI

两种方式:
Alt text

OpenAI-gym

Alt text
Alt text

Summary

Alt text

Alt text

Next

Alt text

二、价值学习

Alt text

$Q^*$函数基于当前环境状态$s_t$,可以给动作$a_t$打分。选择打分最高的动作,因为这样才能期望回报才会最大化。

用神经网络近似$Q^*$函数,就有了 Deep Q-Network。

Alt text
把$Q^*$函数看作一个先知,他能告诉你每个动作带来的平均回报,选择平均回报最高的那个动作。

Alt text

神经网络的输入是状态s,输出是很多数值,代表对于一些动作的打分。w是神经网络的参数,需要学习。

一个栗子:
Alt text

Alt text

奖励r便是监督信号。

训练DQN最常用的是TD算法。

TD算法的一个栗子:
Alt text

Alt text

Alt text

将TD算法应用到DQN:
Alt text

一个不太严谨的解释:
Alt text
Alt text
Alt text

开始训练DQN:
Alt text

总结:
Alt text
Alt text

三、策略学习:Policy-Based Reinforcement Learning

用神经网络近似policy函数,称之为policy Network。

Alt text
Alt text

回顾:
Alt text
给定状态s:

策略函数pi越好,状态价值函数取值$V_{pi}$越大,也就是胜算大。
策略函数pi越差,状态价值函数取值$V_{pi}$越小,也就是胜算小。

Alt text

Alt text

求解用了类似随机梯度上升的方法,这里叫做策略梯度上升。

简略推导下:
Alt text
这两种形式是等价的:
Alt text

离散:
Alt text

连续:用了蒙特卡罗近似
Alt text

总结一下策略梯度算法:
Alt text
Alt text
Alt text

总结:
Alt text