滴滴KDD2018:强化学习派单

2018-12-29
阅读 2 分钟
3.4k
动态规划思路:假设总共有时刻区间为[0, T);先计算T-1时刻的所有网格的预期收入(此时未来收入为0,只有当前收入),其本质就是计算当前收入的均值;然后计算T-2时刻的所有网格的预期收入;...;以此类推