《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 Box 8.1 马尔可夫决策过程的平稳分布

news/2024/9/28 1:23:45 标签: 强化学习, 笔记

Box 8.1: 马尔可夫决策过程的平稳分布

整理自 链接

分析平稳分布的关键工具是 P π ∈ R n × n P_\pi \in {\mathbb R}^{n\times n} PπRn×n,它是给定策略 π π π 下的概率转移矩阵。
如果状态被索引为 s 1 , ⋯   , s n s_1,\cdots, s_n s1,,sn,则定义 [ P π ] i j [P_\pi]_{ij} [Pπ]ij 为 agent 从 s i s_i si 转换成 s j s_j sj 的概率。
P π P_\pi Pπ 的定义可以在 2.6 节 中找到。
在这里插入图片描述

关于 P π k ( k = 1 , 2 , 3 , ⋯   ) P_\pi^k(k=1,2,3,\cdots) Pπk(k=1,2,3,)

p i j ( k ) = Pr ( S t k = j ∣ S t 0 = i ) p_{ij}^{(k)}=\text{Pr}(S_{t_k}=j|S_{t_0}=i) pij(k)=Pr(Stk=jSt0=i): agent 从 s i s_i si s j s_j sj 恰好经过 k k k 个时间步的概率。

  • t 0 t_0 t0 t k t_k tk 分别表示初始 和 第 k k k 个时间步

[ P π ] i j = p i j ( 1 ) [P_\pi]_{ij}=p_{ij}^{(1)} [Pπ]ij=pij(1) [ P π ] i j [P_\pi]_{ij} [Pπ]ij 表示 agent 从 s i s_i si s j s_j sj 恰好经过一个时间步的概率。

[ P π 2 ] i j = [ P π P π ] i j = ∑ q = 1 n [ P π ] i q [ P π ] q j = p i j ( 2 ) [P_\pi^2]_{ij}=[P_\pi P_\pi]_{ij}=\sum\limits_{q=1}^n[P_\pi]_{iq}[P_\pi]_{qj}=p_{ij}^{(2)} [Pπ2]ij=[PπPπ]ij=q=1n[Pπ]iq[Pπ]qj=pij(2): agent 从 s i s_i si s j s_j sj 恰好经过两个时间步的概率。

类似的, [ P π k ] i j = p i j ( k ) [P_\pi^k]_{ij}=p_{ij}^{(k)} [Pπk]ij=pij(k): agent 从 s i s_i si s j s_j sj 恰好经过 k k k 个时间步的概率。

平稳分布的定义

d 0 ∈ R n d_0 \in {\mathbb R}^n d0Rn 表示初始时间步状态概率分布的向量。
例如,如果总是选择 s s s 作为起始状态,则 d 0 ( s ) = 1 d_0(s) = 1 d0(s)=1, d 0 d_0 d0 的其他条目为 0。
d k ∈ R n d_k\in {\mathbb R}^n dkRn 为表示从 d 0 d_0 d0 开始 k k k 步后得到的概率分布的向量。然后,我们有

d k ( s i ) = ∑ j = 1 n d 0 ( s j ) [ P π k ] j i ,    i = 1 , 2 , ⋯ d_k(s_i)=\sum\limits_{j=1}^nd_0(s_j)[P_\pi^k]_{ji}, ~~i=1,2,\cdots dk(si)=j=1nd0(sj)[Pπk]ji,  i=1,2,

这个方程表明,智能体在第 k k k 个时间步访问 s i s_i si 的概率等于智能体恰好 在 第 k k k 个时间步从 { s j } j = 1 n \{s_j\}_{j=1}^n {sj}j=1n 过渡到 s i s_i si 的概率之和。上式的矩阵向量形式为:

d k T = d 0 T P π k              ( 8.7 ) d_k^T=d_0^TP_\pi^k~~~~~~~~~~~~(8.7) dkT=d0TPπk            (8.7)

考虑马尔可夫过程的长期行为,有 lim ⁡ k → ∞ P π k = 1 n d π T              ( 8.8 )    \textcolor{blue}{\lim\limits_{k\to\infty}P_\pi^k={\bf 1}_nd_\pi^T}~~~~~~~~~~~~(8.8)~~ klimPπk=1ndπT            (8.8)   !!!后面证明要用

其中 1 n = [ 1 , ⋯   , 1 ] T ∈ R n {\bf 1}_n =[1,\cdots,1]^T \in {\mathbb R}^n 1n=[1,,1]TRn
1 n d π T {\bf 1}_nd_\pi^T 1ndπT 是一个所有行都等于 d π T d_\pi^T dπT 的常数矩阵。(8.8)成立的条件将在后面讨论。将 (8.8) 代入 (8.7) 得到

lim ⁡ k → ∞ d k T = d 0 T lim ⁡ k → ∞ P π k ⏟ 式  ( 8.7 ) = 代入式  ( 8.8 ) d 0 T 1 n ⏟ 1 d π T = d π T              ( 8.9 ) \underbrace{\lim\limits_{k\to\infty}d_k^T=d_0^T\lim\limits_{k\to \infty}P_\pi^k}_{式~(8.7)}\xlongequal{代入 式 ~(8.8)} \underbrace{d_0^T{\bf 1}_n}_{1}d_\pi^T=d_\pi^T~~~~~~~~~~~~(8.9)  (8.7) klimdkT=d0TklimPπk代入式 (8.8) 1 d0T1ndπT=dπT            (8.9)

式 (8.9) 表示状态分布 d k d_k dk 收敛于恒定值 d π d_\pi dπ,称为极限分布
极限分布取决于 系统模型 和 策略 π \pi π

  • 与初始分布 d 0 d_0 d0 无关。也就是说,无论 agent 从哪个状态开始,在足够长的一段时间后,智能体的概率分布总是可以用极限分布来描述。

d π T = d π T P π              ( 8.10 ) \textcolor{blue}{d_\pi^T=d_\pi^TP_\pi}~~~~~~~~~~~~(8.10) dπT=dπTPπ            (8.10) !!!后面证明要用

因此, d π d_\pi dπ 是与特征值 1 相关联的 P π P_\pi Pπ 的左特征向量。
式 (8.10) 的解称为平稳分布
它认为对于所有 s ∈ S , ∑ s ∈ S d π ( s ) = 1 s \in {\cal S}, \sum_{s\in {\cal S}} d_\pi(s) = 1 sSsSdπ(s)=1 d π ( s ) > 0 d_\pi(s) > 0 dπ(s)>0。【!!!没有等于 0】

如果存在一个有限的整数 k k k,使得 [ P π ] i j k > 0 [P_\pi]_{ij}^k> 0 [Pπ]ijk>0,则从状态 s i s_i si 到 状态 s j s_j sj 是可达的,这意味着从 s i s_i si 开始的智能体经过有限次转移后可能到达 s j s_j sj

如果两个状态 s i s_i si s j s_j sj 是可相互访问的,那么这两个状态就被称为通信。communicate

如果马尔可夫过程的所有状态相互通信,则称其为 不可约irreducible。
换句话说,从任意状态出发的代理可以在有限的步数内到达任何其他状态。
数学上,它表明,对于任意 s i s_i si s j s_j sj,存在 k ≥ 1 k\geq 1 k1 使得 [ P π k ] i j > 0 ( k [P_\pi^k]_{ij} > 0 (k [Pπk]ij>0(k 的值可以随 i , j i, j i,j 的不同而变化)。

如果一个马尔可夫过程对所有 i , j > 0 i,j > 0 i,j>0, 存在 k ≥ 1 k\geq1 k1 使得 [ P π k ] i j [P_\pi^k]_{ij} [Pπk]ij,则称为正则regular。
同样地,存在 k > 1 k > 1 k>1 使得 P π k > 0 P_\pi^k > 0 Pπk>0,其中 > 是元素级。
因此,每个状态都可以在最多 k k k 步内从任何其他状态到达。
正则马尔可夫过程也是不可约的,但反之则不成立。
然而,如果一个马尔可夫过程不可约且存在 i i i 使得 [ P π ] i i > 0 [P_\pi]_{ii} > 0 [Pπ]ii>0,那么它也是正则的。
而且,如果 P π k > 0 P_\pi^k > 0 Pπk>0,由于 P π ≥ 0 P_\pi\geq 0 Pπ0,则对任意 k ′ ≥ k k' \geq k kk,有 P π k ′ > 0 P_\pi^{k^\prime} > 0 Pπk>0。由式 8.9 可知,对于每一个 s s s d π ( s ) > 0 d_π(s) > 0 dπ(s)>0

可能导致唯一平稳分布的策略。
一旦策略给定马尔可夫决策过程就成为马尔可夫过程,其长期行为是由给定的策略系统模型共同决定的。
那么,一个重要的问题是什么样的策略可以导致规则的马尔可夫过程?
一般来说,答案是探索性策略,如 ϵ \epsilon ϵ-贪婪策略。
这是因为探索性策略在任何状态下采取任何行动的概率都是正的
因此,当系统模型允许时,状态可以相互通信。


http://www.niftyadmin.cn/n/5680025.html

相关文章

【1分钟学会】更好的 Git 分支命名技巧

有些时候为了方便就直接用名字命名分支,但是这个习惯并不好,所以整理了一下合理的、优雅的更好的分支命名技巧 使用分隔符以提高可读性: 使用连字符 (-) 或斜线 (/) 等分隔符来制作分支名称,以提高可读性。 例子: …

每日论文6—16ISCAS一种新型低电流失配和变化电流转向电荷泵

《A Novel Current Steering Charge Pump with Low Current Mismatch and Variation》16ISCAS 本文首先介绍了传统的current steering charge pump,如下图: 比起最简单的电荷泵,主要好处是UP和DN开关离输出节点较远,因此一定程度…

AT89C51 利用SBIT寻址,并且在内存中实现伪动态密码的混淆

前置发现 && 分析 char bdata DB[2]; //char sbit x bdata DB[0]^7; //取内存地址数组[0]地址的的七位 这样我们可以对数组DB中索引0的位置进行修改… 例如,将密码A映射到真实密码C,这样做的好处是你的程序被逆向分析的时候,攻击者无法真正知道密码到底是什么…因为…

【C++】托管类和托管函数

托管类和托管函数 1. 托管类 托管类是指在 .NET 环境中运行的类,它们由公共语言运行时(CLR)管理。托管类具有以下特点: 自动内存管理:托管类的实例由 CLR 的垃圾回收机制管理,自动处理内存的分配和释放。…

[SwiftUI 开发] @dynamicCallable 与 callAsFunction:将类型实例作为函数调用

在 Swift 中,dynamicCallable 和 callAsFunction 提供了两种将类型实例作为函数调用的方式。 1. callAsFunction 对于 callAsFunction,只需实现名为 callAsFunction 的方法,参数和返回值可自行任意定义。 例如,考虑一个ShapeCal…

Vercel部署/前端部署

Vercel 部署 今天要讲的是如何对别人向自己的开源仓库提的PR进行自动代码审核 1. 注册并登录Vercel 访问 Vercel官网点击右上角的"Sign Up"选择使用GitHub、GitLab、Bitbucket或邮箱注册完成注册流程并登录 2. 连接代码仓库 在Vercel仪表板,点击"New Proje…

JavaEE——多线程Thread 类及常见方法

目录 一、Thread(String name) 二、是否后台线程 isDeamon() 三、是否存活 isAlive() 四、run()方法和start()方法的区别 五、中断线程 法一: 法二: 六、线程等待join() 七、线程休眠sleep() 一、Thread(String name) 定义:这个东西…

初识Vue3(详细版)

目录 前言 Vue3简介 spring 和Vue3 区别 创建Vue3工程 1 使用vite 构建 0 前提;安装好node.js(node.js作为JavaScript的运行环境) 1 打开终端,切换到桌面(或自己专门创建一个文件夹单独放置) 2 输入命令:npm ge…