漫游鲸二手书店
淘二手好书+回收闲置图书
深度强化学习原理与实践
深度强化学习原理与实践
作者:陈仲铭著;何明著 | 人民邮电出版社
ISBN:9787115505323
原价: ¥99.00
销售价:¥17.82元
参与书籍回收后,可享更低价格
分类 计算机/网络
作者 作者:陈仲铭著;何明著
出版社 人民邮电出版社
图书简介

本书构建了一个完整的深度强化学习理论和实践体系:从马尔可夫决策过程开始,根据价值函数、策略函数求解贝尔曼方程,到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关算法,如Rainbow、Ape-X算法等,并阐述了相关算法的具体实现方式和代表性应用(如AlphaGo)。此外,本书还深度剖析了强化学习各算法之间的联系,有助于读者举一反三。本书分为四篇:初探强化学习、求解强化学习、求解强化学习进阶和深度强化学习。涉及基础理论到深度强化学习算法框架的各方面内容,反映了深度强化学习领域过去的发展历程和研究进展,有助于读者发现该领域中新的研究问题和方向。 陈仲铭,西安电子科技大学硕士,OPPO研究院人工智能算法研究员。主要研究方向为强化学习与深度学习、数据挖掘、图像算法及其应用。曾参与激光点云三维扫描、个性化推荐系统、多传感器融合系统等大型项目,多次获创新项目奖,并在国内外发表多篇相关论文。此外,作为技术顾问为多家科研机构和企业提供关于数学建模、深度学习等方面的咨询和培训。著有《深度学习原理与实践》一书。何明,重庆大学学士,中国科学技术大学博士,曾于美国北卡罗来纳大学夏洛特分校访问交流,目前为上海交通大学电子科学与技术方向博士后研究人员、OPPO研究院人工智能算法研究员。主要研究方向为深度强化学习、数据挖掘与知识发现、机器学习方法及其应用,侧重于移动端用户行为分析与建模。在TIP、TWEB、DASFAA、IEEE Access等国际学术会议和期刊共发表论文10余篇,曾获数据挖掘领域国际会议KSEM2018论文奖。 第 一篇 初探强化学习第 1章 强化学习绪论 31.1 初探强化学习 41.1.1 强化学习与机器学习 51.1.2 强化学习与监督学习的区别 61.1.3 历史发展 81.2 基础理论 101.2.1 组成元素 111.2.2 环境模型 121.2.3 探索与利用 121.2.4 预测与控制 131.2.5 强化学习的特点 141.3 应用案例 141.4 强化学习的思考 181.4.1 强化学习待解决问题 181.4.2 强化学习的突破点 231.5 小结 25第 2章 数学基础及环境 262.1 简介 272.2 马尔可夫决策过程 272.2.1 马尔可夫性质 272.2.2 马尔可夫决策过程 272.3 强化学习的数学基础理论 292.3.1 策略 302.3.2 奖励 302.3.3 价值函数 312.4 求解强化学习 312.4.1 贝尔曼方程 312.4.2 最优值函数 322.4.3 最优策略 322.4.4 求解最优策略 332.5 示例:HelloGrid迷宫环境 362.5.1 初识OpenAI Gym库 372.5.2 建立HelloGrid环境 382.6 小结 43第二篇 求解强化学习第3章 动态规划法 473.1 动态规划 483.1.1 动态规划概述 483.1.2 动态规划与贝尔曼方程 483.2 策略评估 493.2.1 策略评估算法 493.2.2 策略评估算法实现 503.3 策略改进 543.4 策略迭代 563.4.1 策略迭代算法 573.4.2 策略迭代算法实现 583.5 值迭代 603.5.1 值迭代算法 613.5.2 值迭代算法实现 623.6 异步动态规划 643.6.1 In-Place动态规划 653.6.2 加权扫描动态规划 653.6.3 实时动态规划 663.7 讨论 663.8 小结 67第4章 蒙特卡洛法 684.1 认识蒙特卡洛法 694.1.1 经验轨迹 694.1.2 蒙特卡洛法数学原理 744.1.3 蒙特卡洛法的特点 744.2 蒙特卡洛预测 744.2.1 蒙特卡洛预测算法 754.2.2 蒙特卡洛预测算法的实现 764.3 蒙特卡洛评估 804.4 蒙特卡洛控制 814.4.1 蒙特卡洛控制概述 824.4.2 起始点探索 844.4.3 非起始点探索 854.4.4 非固定策略 904.5 小结 96第5章 时间差分法 985.1 时间差分概述 995.2 时间差分预测 995.2.1 时间差分预测原理 995.2.2 TD(λ)算法 1015.2.3 时间差分预测特点 1045.2.4 CartPole游戏 1045.3 时间差分控制Sarsa算法 1065.3.1 Sarsa算法原理 1065.3.2 Sarsa算法实现 1085.4 时间差分控制Q-learning算法 1145.4.1 Q-learning算法原理 1145.4.2 Q-learning算法实现 1155.5 扩展时间差分控制法 1215.5.1 期望Sarsa算法 1215.5.2 Double Q-learning算法 1215.6 比较强化学习求解法 1235.7 小结 126第三篇 求解强化学习进阶第6章 值函数近似法 1296.1 大规模强化学习 1306.2 值函数近似法概述 1316.2.1 函数近似 1316.2.2 值函数近似的概念 1336.2.3 值函数近似的类型 1336.2.4 值函数近似的求解思路 1346.3 值函数近似法原理 1356.3.1 梯度下降算法 1356.3.2 梯度下降与值函数近似 1376.3.3 线性值函数近似法 1386.4 值函数近似预测法 1396.4.1 蒙特卡洛值函数近似预测法 1396.4.2 时间差分TD(0)值函数近似预测法 1406.4.3 TD(λ)值函数近似预测法 1416.5 值函数近似控制法 1426.5.1 值函数近似控制原理 1436.5.2 爬山车游戏 1436.5.3 Q-learning值函数近似 1456.6 小结 156第7章 策略梯度法 1577.1 认识策略梯度法 1587.1.1 策略梯度概述 1587.1.2 策略梯度法与值函数近似法的区别 1597.1.3 策略梯度法的优缺点 1607.2 策略目标函数 1617.2.1 起始价值 1627.2.2 平均价值 1627.2.3 时间步平均奖励 1627.3 优化策略目标函数 1637.3.1 策略梯度 1637.3.2 评价函数 1637.3.3 策略梯度定理 1657.4 有限差分策略梯度法 1657.5 蒙特卡洛策略梯度法 1657.5.1 算法原理 1667.5.2 算法实现 1667.6 演员-评论家策略梯度法 1777.6.1 算法原理 1777.6.2 算法实现 1797.7 小结 185第8章 整合学习与规划 1878.1 基于模型的强化学习概述 1888.1.1 基于模型的强化学习 1888.1.2 基于模型的优点 1888.1.3 基于模型的缺点 1898.2 学习与规划 1898.2.1 学习过程 1898.2.2 规划过程 1918.3 架构整合 1928.3.1 Dyna算法 1938.3.2 优先遍历算法 1948.3.3 期望更新和样本更新 1968.4 基于模拟的搜索 1968.4.1 蒙特卡洛搜索

阅读更多

相关推荐

漫游鲸二手书店

漫游鲸二手书店

微信扫码去买书

漫游鲸二手书店

扫码访问微信小程序