IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]Spark1.0.0 学习路线

    book_mmicky发表于 2014-05-13 15:24:24
    love 0
    2014-05-30 Spark1.0.0 Relaease 经过11次RC后终于发布,虽然还有不少bug,还是很令人振奋。作为一个骨灰级的老IT,经过很成一段时间的消沉,再次被点燃激情,决定近几年内投入Spark的队伍,去见证Spark的不断强大。在最初的阶段,将作为Spark的布道者,宣传和介绍Spark,最终将选择某一个方向,深入研究和编写代码。
    随着国家对软件安全的重视,Spark1.0.0 学习路线 - mmicky - mmicky 的博客,看看这几天股市中软件股的表现,可以预见,在今后很长一段时间内,开源软件将越来越受到重视。作为大数据处理平台的开源软件Spark,由于其一体化的解决方案、高效的代码编写速度、高速的计算能力,将不断在大数据阵营中脱颖而出。为了方便更多新手投入Spark队伍,笔者将自己的学习经验整理了一下,陆陆续续地以博客形式发布出来,计划60篇左右,尽量在8月底完成,同时也是自己对所学的内容加以沉淀。
    在本系列博客中,所使用的软件有:
    Spark 1.0.0
    • 官方下载地址:http://spark.apache.org/downloads.html
      • 其中Spark1.0.0 for hadoop2的直接下载地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz
      • 源代码的直接下载地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz
    • 自编译的部署包:百度盘 (pan.baidu.com) /s/1dDmqK4h#dir/path=%2Fdeploy
      • spark-1.0.0-bin-2.2.0.tgz是基于hadoop2.2.0的安装部署包
      • spark-1.0.0-techyon-bin-2.2.0.tgz是基于hadoop2.2.0和techyon0.41的安装部署包
      • spark-assembly-1.0.0-hadoop2.2.0.jar是基于hadoop2.2.0的Spark1.0.0应用程序开发包
    Hadoop 2.20
    Java 7UP21
    Maven 3.05
    Scala 2.10.4

    本系列博客将分成6个部分进行勾划Spark内存计算框架,每周会更新或增加,逐步完善整体。每周周末会更新下图,做了标记的是已经完成的,没作标记的是计划写的或是要准备更新其中内容的,要更新的是以前写的基于Spark1.0.0-SNAPSHOT的博客;同时也会更新下面的博客链接。博客中涉及的实验和代码都是基于Spark1.0.0开发环境快速搭建一文中实验环境。


    1:预览篇
    为什么学习Spark
    Spark1.0.0的新特性
    Spark1.0.0生态圈一览

    2:原理篇
    Spark1.0.0 运行架构基本概念
    • RDD 细解
      • Spark RDD
      • Spark Streaming RDD
      • Spark SQL RDD
      • MLLib RDD
      • GraphX RDD
    • DAG Scheduler 细解
    • Task Scheduler 细解
    • Spark1.0.0 Standalone 运行架构实例解析
    • Spark1.0.0 on YARN 运行架构实例解析
    • Spark1.0.0 on Mesos 运行原理解析
    Spark1.0.0 编程模型
    • Spark1.0.0 编程模型解析
    Spark Streaming运行架构基本概念

    3:运维篇
    部署篇
    • Spark1.0.0 源码编译和部署包生成
    • Spark1.0.0 on YARN 模式部署
    • Spark1.0.0 on Mesos 模式部署
    • Spark1.0.0 Standalone模式部署
    • Spark1.0.0 Standalone HA实现
    配置篇
    • Spark1.0.0属性配置
    • Spark1.0.0环境变量配置
    • Spark1.0.0日志配置
    • Spark1.0.0 history server 配置
    • Spark1.0.0 job server配置
    运行篇
    • Spark1.0.0应用提交工具spark-submit
    • Spark1.0.0交互工具spark-shell
    监控篇
    • Spark1.0.0 UI监控解读
    • 用ganglia监控Spark1.0.0
    优化篇
    • Spark1.0.0 的一些小经验
    • Spark1.0.0 性能调优

    4:Spark生态环境
    Spark1.0.0 生态环境
    Spark SQL 简介
    Spark MLlib 简介
    Spark GraphX 简介
    BlinkDB 简介
    SparkR 简介
    相关系统比较
    Apache Hadoop MapReduce
    Apache Tez
    Storm

    5:开发篇
    Spark1.0.0 开发环境快速搭建
    Spark1.0.0 多语言编程
    Spark1.0.0 多语言编程之Scala实现
    Spark1.0.0 多语言编程之Python实现
    Spark1.0.0 应用
    Spark1.0.0 和 Hbase
    Spark1.0.0 和 RDBMS
    SparkStreaming 和 flume
    Spark SQL和hive
    Spark1.0.0 案例
    历史数据和实时数据分析
    欺诈检测
    推荐系统

    6:源码篇
    Spark1.0.0 源码研读环境搭建
    一张图看懂Spark源码
    Spark1.0.0内核解读
    spark-submit 源码分析
    RDD 解读
    DAG Schedule 解读
    Task Scheduler 解读
    Spark AKKA 解读
    Spark log4j 解读





沪ICP备19023445号-2号
友情链接