如何理解POMDP中的状态估计与最优策略的求解？

Question

如何理解POMDP中的状态估计与最优策略的求解？

发布于
2023-06-05 重庆

更新于
2023-06-05

新手上路，请多包涵

如题，求解POMDP问题时，一般需要通过贝叶斯理论公式，根据上一时刻的动作a、当前时刻的观测状态o、系统可能状态Sopp，计算状态转移概率函数和观测状态概率函数，从而更新置信状态。即下图所示
贝叶斯推导
看到一种one-step lookahead（作者称之为一步前瞻在线规划算法）方法是用最大化即时期望奖励R（b, a）对应的动作决定策略π，也就是不考虑未来的长期收益而只考虑下一步？并且将立即回报函数r(o' , s', s, a)改为能够一定程度上衡量未来收益的回报，从而将POMDP动态规划求最优值函数
的形式转化为线性规划
π (b) = arg max/arg min R(b, a) , a∈A，因此只需进行一次迭代计算 ↓

其中期望奖励

τ(s', s, a) 为状态转移概率函数
z(o', s ', a)为观测状态概率函数
r(o' , s', s, a)为立即回报函数
R（b, a）为置信b下执行a的立即期望回报
π* (b)为得到的策略

这种方法有理论依据吗？它的优缺点是什么呢？

另外，如果从得到的置信状态概率分布b(Sopp)中，贪婪选择其中最有可能（概率最大）的对应的状态，来作为系统的真实状态，似乎对应了一种叫做MLS（Most Likely State）最有可能状态算法，即S_true = arg max( b (Sopp) ) Sopp∈S , 从而转换为一个完全可观测的决策规划问题，并用相应领域的一些一般方法来解决，而不是上述的将POMDP动态规划问题转化为线性规划的方法或者其他POMDP求解算法，请问这种方法又可行吗？貌似能以牺牲一小部分的精度和性能为代价而大幅降低复杂度与求解时间？

人工智能机器人算法自动驾驶机器学习

阅读 1.7k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

如何理解POMDP中的状态估计与最优策略的求解？

你尚未登录，登录后可以

` Stable Diffusion ` 开源之后为何一直不更新呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

要运行本地Midjourney只自己用（只自己使用，不给别人服务使用）1张显卡就足够了吗？

有哪些方案可以实现员工疑问智能回复的机器人系统？

本地部署使用 miniCpmV2-6 、chatglm 这些本地 LLM 的时候，如何实现统计 token？

哪个AI可以满足替换视频里面的声音？

使用cursor编程时，有时会遇到composer模式卡住不回答的情况？