我是一个小白,对于很多知识别我都不懂,所以在这里想请教大神们帮忙解答一些问题。
我在某些学习机构里报的名学python,现在学到了强化学习。对于现在的我来说,只能抄作业,并且抄也不能完全理解里面的代码含意。现在已经学到了强化学习,一直在纠结一个问题。强化学习的环境是怎么构建的?就是我如何创建一个属于自己的state 和 reward.例如:自动架使的环境,游戏LOL的环境,围棋的环境等等
1.已经多次请教了机构里的老师,也百度和在csdn上搜了很多相关的贴。也没有得到我想要的答案。
百度和csdn和其它的回答是,gym上有各种各样的游戏环境可以直接使用(前题已说明我不要用这些, 我需要自己构建的环境)
机构里的老师的回答好像是说了。但以像没说一样。老师说环境就在那里,不需要自己构建!!!!我就疑惑,怎么个得到:像游戏一样,我需要得到人物位置,血条,动作等等的参数,该怎么才能学到构建我需要的state 和 reward呢?
请大神们添加一下我。我需要解答
应该说环境是不用创建的,我可以用类似yolo等其它算法得到些类似于血条,位置等信息。但具体这些信息我应该怎么写成state , reward , done,还有环境对应的step。不知应该怎么构建。
照你题中的说明我能得出来我所理解的意思, 回答的不对的话欢迎讨论
我学过 python 但是没有涉及到机器学习,或者说是题目中的强化学习,但是我在网上了解了一下强化学习的一些解释,
你想要的答案是怎么去创建一个自己的环境, 这简单来说就好像,我是去饭店去吃饭,我不想吃厨师做出来的,就想吃自己做出来的饭一模一样.
强化学习是用来解决问题的, 问题可能是自动驾驶,或者是最优路径,或者是一些自动打怪寻路等一些问题, 这些问题的. 不能因为想要去解决问题而去创造一个环境,
换句话来说 就是我不能去想要打败一个敌人去创建一个敌人,
或者来说, 是在想去创建一个这样的"环境", 那就自己写一个游戏, 可能写一个游戏的时间 你学习 python 就已经学完结业了
在学习阶段就用已经有的环境就好
就像学 python 不用吧汇编再学一遍一样
这里有一个环境你可以参考一下