1)基础阶段
Linux学习(看鸟哥就可以)
Linux常用命令
Linux常用软件安装
Linux网络
防火墙
Shell编程
官网和中文社区
https://www.centos.org/download/
http://www.linuxidc.com/Linux/2017-09/146919.htm
Java 高级学习《深入理解Java虚拟机》、《Java高并发实战》
掌握多线程
掌握并发包下的队列
了解JMS
掌握JVM技术
掌握反射和动态代理
官网和中文社区
https://www.java.com/zh_CN/
http://www.java-cn.com/index.html
Zookeeper学习
Zookeeper分布式协调服务介绍
Zookeeper集群的安装部署
Zookeeper数据结构、命令
Zookeeper的原理以及选举机制
可参照博客 http://www.cnblogs.com/wuxl360/p/5817471.html 学习
2)攻坚阶段
Hadoop (《Hadoop 权威指南》)
HDFS
HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作机制。
HDFS的Java应用开发
MapReduce
运行WordCount示例程序。
了解MapReduce内部的运行机制。
MapReduce程序运行流程解析。
MapTask并发数的决定机制。
MapReduce中的combiner组件应用。
MapReduce中的序列化框架及应用。
MapReduce中的排序。
MapReduce中的自定义分区实现。
MapReduce的shuffle机制。
MapReduce利用数据压缩进行优化。
MapReduce程序与YARN之间的关系。
MapReduce参数优化。
MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html
Hive(《Hive开发指南》)
Hive 基本概念
Hive 应用场景。
Hive 与hadoop的关系。
Hive 与传统数据库对比。
Hive 的数据存储机制。
Hive 基本操作
Hive 中的DDL操作。
在Hive 中如何实现高效的JOIN查询。
Hive 的内置函数应用。
Hive shell的高级使用方式。
Hive 常用参数配置。
Hive 自定义函数和Transform的使用技巧。
Hive UDF/UDAF开发实例。
Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html
HBase(《HBase权威指南》)—20小时
hbase简介。
habse安装。
hbase数据模型。
hbase命令。
hbase开发。
hbase原理。
官网:http://hbase.apache.org/
中文文档:http://abloz.com/hbase/book.html
中文社区:http://www.aboutyun.com/forum-142-1.html
Scala(《快学Scala》)–20小时
Scala概述。
Scala编译器安装。
Scala基础。
数组、映射、元组、集合。
类、对象、继承、特质。
模式匹配和样例类。
了解Scala Actor并发编程。
理解Akka。
理解Scala高阶函数。
理解Scala隐式转换。
官网:http://www.scala-lang.org/
初级中文教程:http://www.runoob.com/scala/scala-tutorial.html
Spark (《Spark 权威指南》)
Spark core
Spark概述。
Spark集群安装。
执行第一个Spark案例程序(求PI)。
RDD
RDD概述。
创建RDD。
RDD编程API(Transformation 和 Action Operations)。
RDD的依赖关系
RDD的缓存
DAG(有向无环图)
Spark SQL and DataFrame/DataSet
Spark SQL概述。
DataFrames。
DataFrame常用操作。
编写Spark SQL查询程序。
Spark Streaming
park Streaming概述。
理解DStream。
DStream相关操作(Transformations 和 Output Operations)。
Spark Streaming
其他(MLlib and GraphX )
官网:http://spark.apache.org
中文文档(但是版本有点老):https://www.gitbook.com/book/aiyanbo/spark-programming-guide-zh-cn/details
中文社区:http://www.aboutyun.com/forum-146-1.html
Python (推荐廖雪峰的博客)
自己用虚拟机搭建一个集群,把所有工具都装上,自己开发一个小demo
持续学习资源推荐
Apache 官网(http://apache.org/)
Stackoverflow(https://stackoverflow.com/)
Github(https://github.com/)
Cloudra官网(https://www.cloudera.com/)
Databrick官网(https://databricks.com/)
About 云 :http://www.aboutyun.com/
CSDN,51CTO (http://www.csdn.net/,http://www.51cto.com/)
至于书籍当当一搜会有很多,其实内容都差不多。
项目案例分析
1)点击流日志项目分析(此处借鉴CSDN博主的文章,由于没有授权,所以就没有贴过来,下面附上链接)—-批处理http://blog.csdn.net/u014033218/article/details/76847263
2)Spark Streaming在京东的项目实战(京东的实战案例值得好好研究一下,由于没有授权,所以就没有贴过来,下面附上链接)—实时处理http://download.csdn.net/download/csdndataid_123/8079233