RL基本概念
一、强化学习中的基本概念
##state and action
policy
根据观测到的状态做出决策,以控制Agent运动。
强化学习就是学pocily函数。
pocily函数一般是个概率密度函数,具有随机性。
比如,在玩剪刀石头布时,如果你的出拳策略不随机,那么就有规律可循,当对方观察到这一规律时,你就gg了。
reward
强化学习的目标是使得reward更高。
state transition
agent environment interaction
Randomness in Reinforcement Learning
Play the game with AI
rewards and returns
当前时刻的return定义为当前时刻以及之后时刻reward的总和。
但是时间越久,奖励越不明显,因此对应的权重可以设置小一些:
return中的随机性:
Action-value functions
State-Value Function
Value Functions Summary
Play the game with AI
两种方式:
OpenAI-gym
Summary
Next
二、价值学习
$Q^*$函数基于当前环境状态$s_t$,可以给动作$a_t$打分。选择打分最高的动作,因为这样才能期望回报才会最大化。
用神经网络近似$Q^*$函数,就有了 Deep Q-Network。
把$Q^*$函数看作一个先知,他能告诉你每个动作带来的平均回报,选择平均回报最高的那个动作。
神经网络的输入是状态s,输出是很多数值,代表对于一些动作的打分。w是神经网络的参数,需要学习。
一个栗子:
奖励r便是监督信号。
训练DQN最常用的是TD算法。
TD算法的一个栗子:
将TD算法应用到DQN:
一个不太严谨的解释:
开始训练DQN:
总结:
三、策略学习:Policy-Based Reinforcement Learning
用神经网络近似policy函数,称之为policy Network。
回顾:
给定状态s:
策略函数pi越好,状态价值函数取值$V_{pi}$越大,也就是胜算大。
策略函数pi越差,状态价值函数取值$V_{pi}$越小,也就是胜算小。
求解用了类似随机梯度上升的方法,这里叫做策略梯度上升。
简略推导下:
这两种形式是等价的:
离散:
连续:用了蒙特卡罗近似
总结一下策略梯度算法:
总结: