原名:Approximate Dynamic Programming Finally Performs Well in the Game of Tetris
作品简介:近似动态规划(ADP)和强化学习(RL)算法已在俄罗斯方块中使用。基于交叉熵(CE)方法的优化器[15]。他们报告的分数为 350,..c 是列的平均高度,h = 10 或 20 是棋盘中的总行数。……

资源下载
包年VIP免费升级包年VIP
0
显示验证码
没有账号?注册  忘记密码?

社交账号快速登录