IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?
anzhsoft2008
发表于
2015-01-11 15:13:24
love
0
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?