大数据实践

本书内容涵盖了目前使用*为广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统：分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL，详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤，常用命令也都有具体示例介绍，是一本实操性很强的工具书，能帮助初学者快速掌握这几款常用的大数据处理系统。本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门，可以作为培养应用型人才的课程教材，也可作为开发人员的自学教材和参考手册。袁晓东-数据库和大数据专家，1998年毕业于南京大学计算机系，获软件博士学位。曾任职于Oracel公司纽约分部、趋势科技南京研发中心，现为南京市领军型科技创业人才，云白科技创始人，江苏省计算机学会软件专委会委员，东南大学研究生院校外导师。第1章大数据概述1.1 从数据库到大数据库 11.1.1 关系型数据库 11.1.2 大数据库 21.2 大数据库的类型 41.3 大数据库的应用 5习题1 8参考文献 8第2章 Hadoop基础2.1 Hadoop简介 92.2 Hadoop部署 142.2.1 单节点部署 142.2.2 伪分布式部署 182.2.3 集群部署 252.3 Hadoop常用命令 332.3.1 用户命令 332.3.2 管理命令 352.3.3 启动/关闭命令 362.4 HDFS常用命令 382.4.1 用户命令 382.4.2 管理命令 39实验1 Hadoop实验 41习题2 42参考文献 42第3章 Hadoop数据库HBase3.1 HBase简介 433.1.1 体系架构 433.1.2 数据模型 463.1.3 主要特性 513.2 HBase部署 513.2.1 准备工作 513.2.2 单节点部署 533.2.3 伪分布式部署 553.2.4 集群部署 573.2.5 版本升级 613.3 HBase配置 633.3.1 配置文件 633.3.2 主要配置项 653.3.3 配置建议 693.3.4 客户端配置 723.4 HBase Shell 723.4.1 交互模式 733.4.2 非交互模式 823.5 HBase模式设计 843.5.1 设计准则 843.5.2 列族属性883.5.3 表属性 913.5.4 设计实例 943.6 HBase安全 973.6.1 安全访问配置 973.6.2 数据访问权限控制 99实验2 HBase集群搭建 100习题3 101参考文献 102第4章数据仓库工具Hive4.1 Hive简介 1034.1.1 工作原理 1044.1.2 体系架构 1044.1.3 数据模型 1064.2 Hive部署 1084.2.1 Hive部署模式 1094.2.2 Hive内嵌模式部署 1104.2.3 Hive本地和远程模式部署 1134.3 Hive配置 1154.4 Hive接口 1174.4.1 Hive Shell接口 1174.4.2 Hive Web接口 1194.5 Hive SQL 1224.5.1 数据类型 1224.5.2 DDL语句 1224.5.3 DML语句 1374.6 Hive操作实例 146实验3 Hive实验 147习题4 150参考文献 150第5章内存大数据计算框架Spark5.1 Spark简介 1515.1.1 Spark概览 1515.1.2 Spark生态系统BDAS 1525.1.3 Spark架构与原理 1535.2 Spark部署 1555.2.1 准备工作 1555.2.2 Spark单节点部署 1565.2.3 Spark集群部署 1575.3 Spark配置 1695.3.1 Spark属性 1695.3.2 环境变量配置 1715.3.3 日志配置 1715.3.4 查看配置 1725.4 Spark RDD 1735.4.1 RDD特征 1745.4.2 RDD转换操作 1745.4.3 RDD依赖 1755.4.4 RDD行动操作 1775.5 Spark Shell 1775.5.1 准备工作 1775.5.2 启动Spark Shell 1785.5.3 创建RDD 1795.5.4 转换RDD 1805.5.5 执行RDD作业 181实验4 Spark Standalone集群搭建 184习题5 185参考文献 185第6章 Spark SQL6.1 SparkSQL简介 1866.1.1 Spark SQL概览 1866.1.2 Spark SQL特性 1886.1.3 Spark SQL架构与原理 1886.1.4 和Hive的兼容性 1906.1.5 数据类型 1916.2 分布式SQL引擎 1926.2.1 Spark SQL配置 1926.2.2 Spark SQL CLI 1956.2.3 Thrift JDBC/ODBC Server的搭建与测试 1986.3 使用DataFrameAPI处理结构化数据 201实验5 Thrift JDBC/ODBC Server的搭建与测试 205习题6 206参考文献 206附录A 大数据和人工智能实验环境附录B Hadoop环境要求附录C 名词解释