IT博客汇 | [原]Spark1.0.0 学习路线

[原]Spark1.0.0 学习路线

book_mmicky发表于 2014-05-13 15:24:24

2014-05-30 Spark1.0.0 Relaease 经过11次RC后终于发布，虽然还有不少bug，还是很令人振奋。作为一个骨灰级的老IT，经过很成一段时间的消沉，再次被点燃激情，决定近几年内投入Spark的队伍，去见证Spark的不断强大。在最初的阶段，将作为Spark的布道者，宣传和介绍Spark，最终将选择某一个方向，深入研究和编写代码。

随着国家对软件安全的重视， Spark1.0.0 学习路线 - mmicky - mmicky 的博客

，看看这几天股市中软件股的表现，可以预见，在今后很长一段时间内，开源软件将越来越受到重视。作为大数据处理平台的开源软件Spark，由于其一体化的解决方案、高效的代码编写速度、高速的计算能力，将不断在大数据阵营中脱颖而出。为了方便更多新手投入Spark队伍，笔者将自己的学习经验整理了一下，陆陆续续地以博客形式发布出来，计划60篇左右，尽量在8月底完成，同时也是自己对所学的内容加以沉淀。

在本系列博客中，所使用的软件有：

Spark 1.0.0

官方下载地址：http://spark.apache.org/downloads.html
- 其中Spark1.0.0 for hadoop2的直接下载地址：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz
- 源代码的直接下载地址：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz
自编译的部署包：百度盘（pan.baidu.com） /s/1dDmqK4h#dir/path=%2Fdeploy
- spark-1.0.0-bin-2.2.0.tgz是基于hadoop2.2.0的安装部署包
- spark-1.0.0-techyon-bin-2.2.0.tgz是基于hadoop2.2.0和techyon0.41的安装部署包
- spark-assembly-1.0.0-hadoop2.2.0.jar是基于hadoop2.2.0的Spark1.0.0应用程序开发包

本系列博客将分成6个部分进行勾划Spark内存计算框架，每周会更新或增加，逐步完善整体。每周周末会更新下图，做了标记的是已经完成的，没作标记的是计划写的或是要准备更新其中内容的，要更新的是以前写的基于Spark1.0.0-SNAPSHOT的博客；同时也会更新下面的博客链接。博客中涉及的实验和代码都是基于Spark1.0.0开发环境快速搭建一文中实验环境。

1：预览篇

2：原理篇

RDD 细解
- Spark RDD
- Spark Streaming RDD
- Spark SQL RDD
- MLLib RDD
- GraphX RDD
DAG Scheduler 细解
Task Scheduler 细解
Spark1.0.0 Standalone 运行架构实例解析
Spark1.0.0 on YARN 运行架构实例解析
Spark1.0.0 on Mesos 运行原理解析

Spark1.0.0 编程模型

Spark1.0.0 编程模型解析

Spark Streaming运行架构基本概念

3：运维篇

部署篇

配置篇

Spark1.0.0属性配置
Spark1.0.0环境变量配置
Spark1.0.0日志配置
Spark1.0.0 history server 配置
Spark1.0.0 job server配置

运行篇

Spark1.0.0应用提交工具spark-submit
Spark1.0.0交互工具spark-shell

监控篇

Spark1.0.0 UI监控解读
用ganglia监控Spark1.0.0

优化篇

Spark1.0.0 的一些小经验
Spark1.0.0 性能调优

4：Spark生态环境

Spark1.0.0 生态环境

Spark SQL 简介

Spark MLlib 简介

Spark GraphX 简介

BlinkDB 简介

SparkR 简介

相关系统比较
Apache Hadoop MapReduce
Apache Tez
Storm

5：开发篇

Spark1.0.0 开发环境快速搭建

Spark1.0.0 多语言编程

Spark1.0.0 多语言编程之Scala实现

Spark1.0.0 多语言编程之Python实现

Spark1.0.0 应用

Spark1.0.0 和 Hbase

Spark1.0.0 和 RDBMS

SparkStreaming 和 flume

Spark SQL和hive

Spark1.0.0 案例

历史数据和实时数据分析

欺诈检测

推荐系统

6：源码篇

Spark1.0.0 源码研读环境搭建

一张图看懂Spark源码

Spark1.0.0内核解读

spark-submit 源码分析

RDD 解读

DAG Schedule 解读

Task Scheduler 解读

Spark AKKA 解读

Spark log4j 解读