基于强化学习的劣化系统维修策略研究

作者:葡京网站app   来源:http://www.vankedievi.com    栏目: 葡京网站app    日期:2019-10-10

  15),观测状态空间的大小呈爆炸性的增大,很多算法实际上不可 行,因此如何利用函数估计方法有效减少计算量、加快学习算法的收敛速度和 研究新的解决算法是有待解决的问题。 1.12 OMDP的主要优化算法 求解 POMDP 问题我们可以利用强化学习的理论知识直接对其求解,主要 包括数值迭代算法和策略迭代算法两大类,每一类按照迭代的方式是精确的还 是近似的又可以划分为精确算法和近似算法 32-34] 。值迭代算法是在值函数空间 里进行搜索最优或次优策略,而策略迭代算法是在策略空间里进行对最优或次 优策略的搜索。除了可以运用强化学习的知识求解以外,还能利用机器学习或 神经网络的理论和算法,而目前大量的有关研究都集中在数值迭代的近似算法 和策略迭代的近似算法上。 POMDP的问题中,通常采取构建 t-step 策略树和值函数,通过不断的迭代来更 新值函数,当迭代时两次值函数的差值小于预先设定好的阈值则终止迭代,输 出值函数,从而完成对最优策略的搜索。 策略迭代算法策略迭代算法,是动态规划中求解最优策略的基本方法之一,它又被称为 策略空间逼近算法。策略迭代算法利用动态规划的基本方程式,交替进行“策 略评估”和“策略改进”两个步骤,以此求出逐步改进的、最终到达或收敛于 最优策略的策略序列。 近似POMDP 算法 近似的 POMDP 求解算法的研究,通常从三个思路来考虑如何解决感知混 淆和隐藏状态的问题:直接利用观测状态作为环境模型的状态( 无记忆型),使 用记忆采样的交互过程(基于记忆型)和利用信念状态对环境状态进行概率估计 (基于信念状态)。 17 常见的近似算法有: QMDP近似算法:算法主要利用了信念状态的值函数是基于 MDP 的值函数 加权平均的思想,权向量为信念状态的概率向量,该算法保留了每个动作所对

上一篇:10万元不到加速比思域还快荣威i5要逆天_车家号_发现车生活       下一篇:各种大小交通事故解决处理维修的策略