大数据学习路径规划

1)基础阶段

Linux学习(看鸟哥就可以)

Linux常用命令

Linux常用软件安装

Linux网络

防火墙

Shell编程

官网和中文社区

https://www.centos.org/download/
http://www.linuxidc.com/Linux/2017-09/146919.htm

Java 高级学习《深入理解Java虚拟机》、《Java高并发实战》

掌握多线程

掌握并发包下的队列

了解JMS

掌握JVM技术

掌握反射和动态代理

官网和中文社区

https://www.java.com/zh_CN/
http://www.java-cn.com/index.html

Zookeeper学习

Zookeeper分布式协调服务介绍

Zookeeper集群的安装部署

Zookeeper数据结构、命令

Zookeeper的原理以及选举机制

可参照博客 http://www.cnblogs.com/wuxl360/p/5817471.html 学习

2)攻坚阶段

Hadoop (《Hadoop 权威指南》)

HDFS

HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作机制。
HDFS的Java应用开发

MapReduce

运行WordCount示例程序。
了解MapReduce内部的运行机制。
MapReduce程序运行流程解析。
MapTask并发数的决定机制。
MapReduce中的combiner组件应用。
MapReduce中的序列化框架及应用。
MapReduce中的排序。
MapReduce中的自定义分区实现。
MapReduce的shuffle机制。
MapReduce利用数据压缩进行优化。
MapReduce程序与YARN之间的关系。
MapReduce参数优化。
MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html

Hive(《Hive开发指南》)

Hive 基本概念

Hive 应用场景。
Hive 与hadoop的关系。
Hive 与传统数据库对比。
Hive 的数据存储机制。

Hive 基本操作

Hive 中的DDL操作。
在Hive 中如何实现高效的JOIN查询。
Hive 的内置函数应用。
Hive shell的高级使用方式。
Hive 常用参数配置。
Hive 自定义函数和Transform的使用技巧。
Hive UDF/UDAF开发实例。

Hive 执行过程分析及优化策略

官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html

HBase(《HBase权威指南》)—20小时

hbase简介。
habse安装。
hbase数据模型。
hbase命令。
hbase开发。
hbase原理。
官网:http://hbase.apache.org/
中文文档:http://abloz.com/hbase/book.html
中文社区:http://www.aboutyun.com/forum-142-1.html

Scala(《快学Scala》)–20小时

Scala概述。
Scala编译器安装。
Scala基础。
数组、映射、元组、集合。
类、对象、继承、特质。
模式匹配和样例类。
了解Scala Actor并发编程。
理解Akka。
理解Scala高阶函数。
理解Scala隐式转换。
官网:http://www.scala-lang.org/
初级中文教程:http://www.runoob.com/scala/scala-tutorial.html

Spark (《Spark 权威指南》)

Spark core

Spark概述。
Spark集群安装。
执行第一个Spark案例程序(求PI)。

RDD

RDD概述。
创建RDD。
RDD编程API(Transformation 和 Action Operations)。
RDD的依赖关系
RDD的缓存
DAG(有向无环图)

Spark SQL and DataFrame/DataSet

Spark SQL概述。
DataFrames。
DataFrame常用操作。
编写Spark SQL查询程序。

Spark Streaming

park Streaming概述。
理解DStream。
DStream相关操作(Transformations 和 Output Operations)。

Spark Streaming

其他(MLlib and GraphX )
官网:http://spark.apache.org
中文文档(但是版本有点老):https://www.gitbook.com/book/aiyanbo/spark-programming-guide-zh-cn/details
中文社区:http://www.aboutyun.com/forum-146-1.html

Python (推荐廖雪峰的博客)

自己用虚拟机搭建一个集群,把所有工具都装上,自己开发一个小demo

持续学习资源推荐

Apache 官网(http://apache.org/)
Stackoverflow(https://stackoverflow.com/)
Github(https://github.com/)
Cloudra官网(https://www.cloudera.com/)
Databrick官网(https://databricks.com/)
About 云 :http://www.aboutyun.com/
CSDN,51CTO (http://www.csdn.net/,http://www.51cto.com/)
至于书籍当当一搜会有很多,其实内容都差不多。

项目案例分析

1)点击流日志项目分析(此处借鉴CSDN博主的文章,由于没有授权,所以就没有贴过来,下面附上链接)—-批处理http://blog.csdn.net/u014033218/article/details/76847263
2)Spark Streaming在京东的项目实战(京东的实战案例值得好好研究一下,由于没有授权,所以就没有贴过来,下面附上链接)—实时处理http://download.csdn.net/download/csdndataid_123/8079233

版权声明:本文为m0_37973030原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。