本书是关于大数据和Spark的实用手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理如何监控Spark应用等。 许桂秋,计算机学士,工商管理硕士。 2009年-2012年,中国石油天然气股份有限公司,负责项目管理工作,企业内部高级讲师; 2012年-2015年,曙光信息产业股份有限公司,负责项目管理与企业内部培训工作,企业内部高级讲师; 2016年至今,曙光瑞翼教育合作中心,教学运营总监,负责各高校合作项目部的具体运营管理及指导工作。 第1章 Spark简介与运行原理 11.1 Spark是什么 11.1.1 Spark的版本发展历程 21.1.2 Spark与Hadoop的区别与联系 21.1.3 Spark的应用场景 31.2 Spark的生态系统 31.3 Spark的架构与原理 41.3.1 Spark架构设计 41.3.2 Spark作业运行流程 51.3.3 Spark分布式计算流程 61.4 Spark 2.X新特性 61.4.1 精简的API 61.4.2 Spark作为编译器 71.4.3 智能化程度 71.5 小结 7习题 8第2章 Spark的环境搭建 92.1 环境搭建前的准备 92.2 Spark相关配置 132.2.1 安装SSH 132.2.2 SSH免密码登录 142.2.3 修改访问权限 152.2.4 修改profile文件 152.2.5 修改Spark配置文件 162.3 Spark集群启动与关闭 172.4 Spark应用提交到集群 182.5 Spark Web监控页面 192.6 小结 20习题 20第3章 使用Python开发Spark应用 213.1 Python编程语言 213.1.1 Python语言介绍 213.1.2 PySpark是什么 223.2 PySpark的启动与日志设置 223.2.1 PySpark的启动方式 223.2.2 日志输出内容控制 243.3 PySpark开发包的安装 243.3.1 使用pip命令安装 243.3.2 使用离线包安装 253.4 使用PyCharm编写Spark应用 253.4.1 PyCharm的安装与基本配置 253.4.2 编写Spark应用 273.5 小结 29习题 30第4章 Spark RDD 314.1 弹性分布式数据集 314.1.1 RDD的定义 314.1.2 RDD的特点 324.1.3 RDD的创建 334.1.4 RDD的操作 344.2 transform算子 344.2.1 map转换 344.2.2 flatMap转换 354.2.3 filter转换 354.2.4 union转换 354.2.5 intersection转换 364.2.6 distinct转换 364.2.7 sortBy转换 364.2.8 mapPartitions转换 364.2.9 mapPartitionsWithIndex转换 374.2.10 partitionBy转换 374.3 action算子 374.3.1 reduce(f)动作 374.3.2 collect( )动作 384.3.3 count( )动作 384.3.4 take(num)动作 394.3.5 first( )动作 394.3.6 top(num)动作 394.3.7 saveAsTextFile( )动作 394.3.8 foreach(f)动作 404.3.9 foreachPartition(f)动作 404.4 RDD Key-Value转换算子 414.4.1 mapValues(f)操作 414.4.2 flatMapValues(f)操作 414.4.3 combineByKey操作 414.4.4 reduceByKey操作 424.4.5 groupByKey操作 424.4.6 sortByKey操作 434.4.7 keys( )操作 434.4.8 values( )操作 434.4.9 join操作 434.4.10 leftOuterJoin操作 434.4.11 rightOuterJoin操作 444.5 RDD Key-Value动作运算 444.5.1 collectAsMap( )操作 444.5.2 countByKey( )操作 444.6 共享变量 454.6.1 累加器 454.6.2 广播变量 454.7 依赖关系 474.7.1 血统 474.7.2 宽依赖与窄依赖 474.7.3 shuffle 484.7.4 DAG的生成 494.8 Spark RDD的持久化 504.8.1 持久化使用方法 504.8.2 持久化存储等级 514.8.3 检查点 524.9 小结 52习题 52第5章 DataFrame与Spark SQL 545.1 DataFrame 545.1.1 DataFrame介绍 545.1.2 DataFrame创建 555.2 Spark SQL 565.2.1 Spark SQL介绍 565.2.2 Spark SQL的执行原理 575.2.3 Spark SQL的创建 585.3 Spark SQL、DataFrame的常用操作 615.3.1 字段计算 615.3.2 条件查询 625.3.3 数据排序 635.3.4 数据去重 635.3.5 数据分组统计 645.3.6 数据连接 655.3.7 数据绘图 675.4 小结 68习题 69第6章 Spark Streaming 706.1 Spark Streaming介绍 706.1.1 什么是Spark Streaming 706.1.2 Spark Streaming工作原理 706.2 流数据加载 716.2.1 初始化StreamingContext 716.2.2 Discretized Stream离散化流 716.2.3 Spark Streaming数据源 726.3 DStream输出操作 736.4 DStream转换操作 756.4.1 map转换 756.4.2 flatMap转换 766.4.3 filter转换 766.4.4 reduceByKey转换 776.4.5 count转换 776.4.6 updateStateByKey转换 776.4.7 其他转换 786.5 DataFrame与SQL操作 786.6 实时WordCount实验 796.7 小结 81习题 81第7章 Spark机器学习库 827.1 Spark机器学习库 827.1.1 机器学习简介 827.1.2 Spark机器学
阅读更多
漫游鲸二手书店
微信扫码去买书
扫码访问微信小程序