强化学习的需要的环境如何创建?

友马
  • 1
广东新手上路,请多包涵

我是一个小白,对于很多知识别我都不懂,所以在这里想请教大神们帮忙解答一些问题。

我在某些学习机构里报的名学python,现在学到了强化学习。对于现在的我来说,只能抄作业,并且抄也不能完全理解里面的代码含意。现在已经学到了强化学习,一直在纠结一个问题。强化学习的环境是怎么构建的?就是我如何创建一个属于自己的state 和 reward.例如:自动架使的环境,游戏LOL的环境,围棋的环境等等

1.已经多次请教了机构里的老师,也百度和在csdn上搜了很多相关的贴。也没有得到我想要的答案。

百度和csdn和其它的回答是,gym上有各种各样的游戏环境可以直接使用(前题已说明我不要用这些, 我需要自己构建的环境)

机构里的老师的回答好像是说了。但以像没说一样。老师说环境就在那里,不需要自己构建!!!!我就疑惑,怎么个得到:像游戏一样,我需要得到人物位置,血条,动作等等的参数,该怎么才能学到构建我需要的state 和 reward呢?

请大神们添加一下我。我需要解答

应该说环境是不用创建的,我可以用类似yolo等其它算法得到些类似于血条,位置等信息。但具体这些信息我应该怎么写成state , reward , done,还有环境对应的step。不知应该怎么构建。

回复
阅读 170
1 个回答
十八
  • 37
北京市

照你题中的说明我能得出来我所理解的意思, 回答的不对的话欢迎讨论
我学过 python 但是没有涉及到机器学习,或者说是题目中的强化学习,但是我在网上了解了一下强化学习的一些解释,

强化学习 又称再励学习,评价学习,是一种重要的机器学习的一种方式,这种方式的学习过程有区别去监督学习,是属于无监督学习的一种,主要表现在强化信号上,通过对强化信号对行为的反应造成的结果导致的好坏来作为一种评价.

你想要的答案是怎么去创建一个自己的环境, 这简单来说就好像,我是去饭店去吃饭,我不想吃厨师做出来的,就想吃自己做出来的饭一模一样.

强化学习是用来解决问题的, 问题可能是自动驾驶,或者是最优路径,或者是一些自动打怪寻路等一些问题, 这些问题的. 不能因为想要去解决问题而去创造一个环境,
换句话来说 就是我不能去想要打败一个敌人去创建一个敌人,

或者来说, 是在想去创建一个这样的"环境", 那就自己写一个游戏, 可能写一个游戏的时间 你学习 python 就已经学完结业了

在学习阶段就用已经有的环境就好
就像学 python 不用吧汇编再学一遍一样

这里有一个环境你可以参考一下

-o—T:T 就是宝藏的位置, o 是探索者的位置。环境是一个一维世界,在世界的右边有宝藏,探索者只要得到宝藏尝到了甜头,以后就记住了得到宝藏的方法,这就是他用强化学习所学习到的行为。
https://blog.csdn.net/weixin_...