如何理解POMDP中的状态估计与最优策略的求解?

如题,求解POMDP问题时,一般需要通过贝叶斯理论公式,根据上一时刻的动作a、当前时刻的观测状态o、系统可能状态Sopp,计算状态转移概率函数和观测状态概率函数,从而更新置信状态。即下图所示
贝叶斯推导
看到一种one-step lookahead(作者称之为一步前瞻在线规划算法)方法是用最大化即时期望奖励R(b, a)对应的动作决定策略π,也就是不考虑未来的长期收益而只考虑下一步?并且将立即回报函数r(o' , s', s, a)改为能够一定程度上衡量未来收益的回报,从而将POMDP动态规划求最优值函数 动态规划
的形式 转化为线性规划
π (b) = arg max/arg min R(b, a) , a∈A,因此只需进行一次迭代计算 ↓

其中期望奖励

τ(s', s, a) 为状态转移概率函数
z(o', s ', a)为观测状态概率函数
r(o' , s', s, a)为立即回报函数
R(b, a)为置信b下执行a的立即期望回报
π* (b)为得到的策略

这种方法有理论依据吗?它的优缺点是什么呢?

另外,如果从得到的置信状态概率分布b(Sopp)中,贪婪选择其中最有可能(概率最大)的对应的状态,来作为系统的真实状态,似乎对应了一种叫做MLS(Most Likely State)最有可能状态算法,即S_true = arg max( b (Sopp) ) Sopp∈S , 从而转换为一个完全可观测的决策规划问题,并用相应领域的一些一般方法来解决,而不是上述的将POMDP动态规划问题转化为线性规划的方法或者其他POMDP求解算法,请问这种方法又可行吗?貌似能以牺牲一小部分的精度和性能为代价而大幅降低复杂度与求解时间?

阅读 1.7k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题