Box 8.1: 马尔可夫决策过程的平稳分布
整理自 链接
分析平稳分布的关键工具是
P
π
∈
R
n
×
n
P_\pi \in {\mathbb R}^{n\times n}
Pπ∈Rn×n,它是给定策略
π
π
π 下的概率转移矩阵。
如果状态被索引为
s
1
,
⋯
,
s
n
s_1,\cdots, s_n
s1,⋯,sn,则定义
[
P
π
]
i
j
[P_\pi]_{ij}
[Pπ]ij 为 agent 从
s
i
s_i
si 转换成
s
j
s_j
sj 的概率。
P
π
P_\pi
Pπ 的定义可以在 2.6 节 中找到。
关于 P π k ( k = 1 , 2 , 3 , ⋯ ) P_\pi^k(k=1,2,3,\cdots) Pπk(k=1,2,3,⋯)
p i j ( k ) = Pr ( S t k = j ∣ S t 0 = i ) p_{ij}^{(k)}=\text{Pr}(S_{t_k}=j|S_{t_0}=i) pij(k)=Pr(Stk=j∣St0=i): agent 从 s i s_i si 到 s j s_j sj 恰好经过 k k k 个时间步的概率。
- t 0 t_0 t0 和 t k t_k tk 分别表示初始 和 第 k k k 个时间步
[ P π ] i j = p i j ( 1 ) [P_\pi]_{ij}=p_{ij}^{(1)} [Pπ]ij=pij(1): [ P π ] i j [P_\pi]_{ij} [Pπ]ij 表示 agent 从 s i s_i si 到 s j s_j sj 恰好经过一个时间步的概率。
[ P π 2 ] i j = [ P π P π ] i j = ∑ q = 1 n [ P π ] i q [ P π ] q j = p i j ( 2 ) [P_\pi^2]_{ij}=[P_\pi P_\pi]_{ij}=\sum\limits_{q=1}^n[P_\pi]_{iq}[P_\pi]_{qj}=p_{ij}^{(2)} [Pπ2]ij=[PπPπ]ij=q=1∑n[Pπ]iq[Pπ]qj=pij(2): agent 从 s i s_i si 到 s j s_j sj 恰好经过两个时间步的概率。
类似的, [ P π k ] i j = p i j ( k ) [P_\pi^k]_{ij}=p_{ij}^{(k)} [Pπk]ij=pij(k): agent 从 s i s_i si 到 s j s_j sj 恰好经过 k k k 个时间步的概率。
平稳分布的定义
设
d
0
∈
R
n
d_0 \in {\mathbb R}^n
d0∈Rn 表示初始时间步状态概率分布的向量。
例如,如果总是选择
s
s
s 作为起始状态,则
d
0
(
s
)
=
1
d_0(s) = 1
d0(s)=1,
d
0
d_0
d0 的其他条目为 0。
设
d
k
∈
R
n
d_k\in {\mathbb R}^n
dk∈Rn 为表示从
d
0
d_0
d0 开始
k
k
k 步后得到的概率分布的向量。然后,我们有
d k ( s i ) = ∑ j = 1 n d 0 ( s j ) [ P π k ] j i , i = 1 , 2 , ⋯ d_k(s_i)=\sum\limits_{j=1}^nd_0(s_j)[P_\pi^k]_{ji}, ~~i=1,2,\cdots dk(si)=j=1∑nd0(sj)[Pπk]ji, i=1,2,⋯
这个方程表明,智能体在第 k k k 个时间步访问 s i s_i si 的概率等于智能体恰好 在 第 k k k 个时间步从 { s j } j = 1 n \{s_j\}_{j=1}^n {sj}j=1n 过渡到 s i s_i si 的概率之和。上式的矩阵向量形式为:
d k T = d 0 T P π k ( 8.7 ) d_k^T=d_0^TP_\pi^k~~~~~~~~~~~~(8.7) dkT=d0TPπk (8.7)
考虑马尔可夫过程的长期行为,有 lim k → ∞ P π k = 1 n d π T ( 8.8 ) \textcolor{blue}{\lim\limits_{k\to\infty}P_\pi^k={\bf 1}_nd_\pi^T}~~~~~~~~~~~~(8.8)~~ k→∞limPπk=1ndπT (8.8) !!!后面证明要用
其中
1
n
=
[
1
,
⋯
,
1
]
T
∈
R
n
{\bf 1}_n =[1,\cdots,1]^T \in {\mathbb R}^n
1n=[1,⋯,1]T∈Rn
1
n
d
π
T
{\bf 1}_nd_\pi^T
1ndπT 是一个所有行都等于
d
π
T
d_\pi^T
dπT 的常数矩阵。(8.8)成立的条件将在后面讨论。将 (8.8) 代入 (8.7) 得到
lim k → ∞ d k T = d 0 T lim k → ∞ P π k ⏟ 式 ( 8.7 ) = 代入式 ( 8.8 ) d 0 T 1 n ⏟ 1 d π T = d π T ( 8.9 ) \underbrace{\lim\limits_{k\to\infty}d_k^T=d_0^T\lim\limits_{k\to \infty}P_\pi^k}_{式~(8.7)}\xlongequal{代入 式 ~(8.8)} \underbrace{d_0^T{\bf 1}_n}_{1}d_\pi^T=d_\pi^T~~~~~~~~~~~~(8.9) 式 (8.7) k→∞limdkT=d0Tk→∞limPπk代入式 (8.8)1 d0T1ndπT=dπT (8.9)
式 (8.9) 表示状态分布
d
k
d_k
dk 收敛于恒定值
d
π
d_\pi
dπ,称为极限分布。
极限分布取决于 系统模型 和 策略
π
\pi
π。
- 它与初始分布 d 0 d_0 d0 无关。也就是说,无论 agent 从哪个状态开始,在足够长的一段时间后,智能体的概率分布总是可以用极限分布来描述。
d π T = d π T P π ( 8.10 ) \textcolor{blue}{d_\pi^T=d_\pi^TP_\pi}~~~~~~~~~~~~(8.10) dπT=dπTPπ (8.10) !!!后面证明要用
因此,
d
π
d_\pi
dπ 是与特征值 1 相关联的
P
π
P_\pi
Pπ 的左特征向量。
式 (8.10) 的解称为平稳分布。
它认为对于所有
s
∈
S
,
∑
s
∈
S
d
π
(
s
)
=
1
s \in {\cal S}, \sum_{s\in {\cal S}} d_\pi(s) = 1
s∈S,∑s∈Sdπ(s)=1 且
d
π
(
s
)
>
0
d_\pi(s) > 0
dπ(s)>0。【!!!没有等于 0】
如果存在一个有限的整数 k k k,使得 [ P π ] i j k > 0 [P_\pi]_{ij}^k> 0 [Pπ]ijk>0,则从状态 s i s_i si 到 状态 s j s_j sj 是可达的,这意味着从 s i s_i si 开始的智能体经过有限次转移后可能到达 s j s_j sj。
如果两个状态 s i s_i si 和 s j s_j sj 是可相互访问的,那么这两个状态就被称为通信。communicate
如果马尔可夫过程的所有状态相互通信,则称其为 不可约irreducible。
换句话说,从任意状态出发的代理可以在有限的步数内到达任何其他状态。
数学上,它表明,对于任意
s
i
s_i
si 和
s
j
s_j
sj,存在
k
≥
1
k\geq 1
k≥1 使得
[
P
π
k
]
i
j
>
0
(
k
[P_\pi^k]_{ij} > 0 (k
[Pπk]ij>0(k 的值可以随
i
,
j
i, j
i,j 的不同而变化)。
如果一个马尔可夫过程对所有
i
,
j
>
0
i,j > 0
i,j>0, 存在
k
≥
1
k\geq1
k≥1 使得
[
P
π
k
]
i
j
[P_\pi^k]_{ij}
[Pπk]ij,则称为正则regular。
同样地,存在
k
>
1
k > 1
k>1 使得
P
π
k
>
0
P_\pi^k > 0
Pπk>0,其中 > 是元素级。
因此,每个状态都可以在最多
k
k
k 步内从任何其他状态到达。
正则马尔可夫过程也是不可约的,但反之则不成立。
然而,如果一个马尔可夫过程不可约且存在
i
i
i 使得
[
P
π
]
i
i
>
0
[P_\pi]_{ii} > 0
[Pπ]ii>0,那么它也是正则的。
而且,如果
P
π
k
>
0
P_\pi^k > 0
Pπk>0,由于
P
π
≥
0
P_\pi\geq 0
Pπ≥0,则对任意
k
′
≥
k
k' \geq k
k′≥k,有
P
π
k
′
>
0
P_\pi^{k^\prime} > 0
Pπk′>0。由式 8.9 可知,对于每一个
s
s
s,
d
π
(
s
)
>
0
d_π(s) > 0
dπ(s)>0。
可能导致唯一平稳分布的策略。
一旦策略给定,马尔可夫决策过程
就成为马尔可夫过程
,其长期行为是由给定的策略和系统模型共同决定的。
那么,一个重要的问题是什么样的策略可以导致规则的马尔可夫过程?
一般来说,答案是探索性策略,如
ϵ
\epsilon
ϵ-贪婪策略。
这是因为探索性策略在任何状态下采取任何行动的概率都是正的。
因此,当系统模型允许时,状态可以相互通信。