IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
Spark技术内幕:Storage 模块整体架构
anzhsoft2008
发表于
2015-01-18 19:13:13
love
0
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户