对垃圾回收进行分析前,我们先来了解一些基本概念
char *pc = 0; // 设置指针为空值 char& rc = *pc; // 让引用指向空值
这是非常有害的,毫无疑问。结果将是不确定的(编译器能产生一些输出,导致任何事情都有可能发生),应该躲开写出这样代码的人除非他们同意改正错误。如果你担心这样的代码会出现在你的软件里,那么你最好完全避免使用引用,要不然就去让更优秀的程序员去做。
2.临时变量:包括函数的非静态局部变量以及编译器自动生成的其它临时变量 3.保存的上下文:包括在函数调用前后需要保存不变的寄存器值
1.返回地址:一个main函数中断执行的执行点.
2.ebp:指向函数活动记录的一个固定位置,ebp又被称为帧指针.固定位置是,这样在函数返回的时候,ebp就可以通过这个恢复到调用前的值。
3.esp始终指向栈顶,因此随着函数的执行,它总是变化的。
4.入栈顺序:先压此次调用函数参数入栈,接着是main函数返回地址,然后是ebp等寄存器。
这里我们对比了解不同的 “找到需要标记的对象”的方法
给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时, 计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。如下图所示:
优点:引用计数收集器可以很快地执行,交织在程序的运行之中。这个特性对于程序不能被长时间打断的实时环境很有利。 缺点:很难处理循环引用,比如图中相互引用的两个对象则无法释放。 应用:Python 和 Swift 采用引用计数方案。
从GC Roots(每种具体实现对GC Roots有不同的定义)作为起点,向下搜索它们引用的对象,可以生成一棵引用树,树的节点视为可达对象,反之视为不可达。如下图所示:
虚拟机栈(帧栈中的本地变量表)中引用的对象。 方法区中静态属性引用的对象。 方法区中常量引用的对象。 本地方法栈中JNI引用的对象。 本地方法栈则为虚拟机所使用的Native方法服务。 Native方法是指本地方法,当在方法中调用一些不是由java语言写的代码或者在方法中用java语言直接操纵计算机硬件。 JNI:Java Native Interface缩写,允许Java代码和其他语言写的代码进行交互。
这里我们介绍几种不同的 “标记对象”的方法
16位的 特殊位 标记位 16位的 垃圾回收 标记位 16位的 无指针/块边界 的标记位 16位的 已分配 标记位
前面提到堆区域和堆地址的标记位图区域是分开存储的,其实它们是以
mheap.arena_start地址为边界,向上是实际使用的堆地址空间,向下则是标记位图区
域。以64位系统为例,计算堆中某个地址的标记位的公式如下:
偏移 = 地址 - mheap.arena_start 标记位地址 = mheap.arena_start - 偏移/16 - 1 移位 = 偏移 % 16 标记位 = *标记位地址 >> 移位
然后就可以通过 (标记位 & 垃圾回收标记位),(标记位 & 分配位),等来测试相应的位。
(也就是说,本来64位是一个字,需要4位标记位。但是,为了与字长相对,16个标记位
放一起(刚好一个字长)一起表示16个字。并且每类标记位都放在一起
AA..AABB…BB)
这里我们介绍几种不同的垃圾回收算法
标记-清除算法分为两个阶段:标记阶段和清除阶段。标记阶段的任务是标记出所有需要被回收的对象,清除阶段就是回收被标记的对象所占用的空间。
优点是简单,容易实现。缺点是容易产生内存碎片,碎片太多可能会导致后续过程中需要为大对象分配空间时无法找到足够的空间而提前触发新的一次垃圾收集动作。(因为没有对不同生命周期的对象采用不同算法,所以碎片多,内存容易满,gc频率高,耗时,看了后面的方法就明白了)
根据对象存活的生命周期将内存划分为若干个不同的区域。不同区域采用不同算法(复制算法,标记整理算法),这就是分代回收算法。
一般情况下将堆区划分为老年代(Old Generation)和新生代(Young Generation),老年代的特点是每次垃圾收集时只有少量对象需要被回收,而新生代的特点是每次垃圾回收时都有大量的对象需要被回收,那么就可以根据不同代的特点采取最适合的收集算法。
1.新生代回收
新生代使用Scavenge算法进行回收。在Scavenge算法的实现中,主要采用了Cheney算法。
Cheney算法是一种采用复制的方式实现的垃圾回收算法。 它将内存一分为二,每一部分空间称为semispace。在这两个semispace中,一个处于使用状态,另一个处于闲置状态。 简而言之,就是通过将存活对象在两个semispace空间之间进行复制。 复制过程采用的是BFS(广度优先遍历)的思想,从根对象出发,广度优先遍历所有能到达的对象 优点:时间效率上表现优异(牺牲空间换取时间) 缺点:只能使用堆内存的一半
新生代的空间划分比例为什么是比例为8:1:1(不是按照上面算法中说的1:1)?
新创建的对象都是放在Eden空间,这是很频繁的,尤其是大量的局部变量产生的临时对 象,这些对象绝大部分都应该马上被回收,能存活下来被转移到survivor空间的往往不 多。所以,设置较大的Eden空间和较小的Survivor空间是合理的,大大提高了内存的使 用率,缓解了Copying算法的缺点。 8:1:1就挺好的,当然这个比例是可以调整的,包括上面的新生代和老年代的1:2的 比例也是可以调整的。
具体的执行过程是怎样的?
假设有类似如下的引用情况:
+----- A对象 | 根对象----+----- B对象 ------ E对象 | +----- C对象 ----+---- F对象 | +---- G对象 ----- H对象 D对象
在执行Scavenge之前,From区长这幅模样:
+---+---+---+---+---+---+---+---+--------+ | A | B | C | D | E | F | G | H | | +---+---+---+---+---+---+---+---+--------+
那么首先将根对象能到达的ABC对象复制到To区,于是乎To区就变成了这个样子:
allocationPtr ↓ +---+---+---+----------------------------+ | A | B | C | | +---+---+---+----------------------------+ ↑ scanPtr
接下来进入循环,扫描scanPtr所指的A对象,发现其没有指针,于是乎scanPtr移动,变成如下这样
allocationPtr ↓ +---+---+---+----------------------------+ | A | B | C | | +---+---+---+----------------------------+ ↑ scanPtr
接下来扫描B对象,发现其有指向E对象的指针,且E对象在From区,那么我们需要将E对象复制到allocationPtr所指的地方并移动allocationPtr指针:
allocationPtr ↓ +---+---+---+---+------------------------+ | A | B | C | E | | +---+---+---+---+------------------------+ ↑ scanPtr
中间过程省略,具体参考[新生代的垃圾回收具体的执行过程][3] From区和To区在复制完成后的结果:
//From区 +---+---+---+---+---+---+---+---+--------+ | A | B | C | D | E | F | G | H | | +---+---+---+---+---+---+---+---+--------+ //To区 +---+---+---+---+---+---+---+------------+ | A | B | C | E | F | G | H | | +---+---+---+---+---+---+---+------------+
最终当scanPtr和allocationPtr重合,说明复制结束。 注意:如果指向老生代我们就不必考虑它了。(通过写屏障)
对象何时晋升?
1.当一个对象经过多次新生代的清理依旧幸存。 2.如果To空间已经被使用了超过25%(后面还要进来许多新对象,不敢占用太多) 3.大对象 (其实这部分,包括次数,比例等,是视情况设置的。)
2.老生代回收
Mark-Sweep(标记清除)
标记清除分为标记和清除两个阶段。 主要是标记清除只清除死亡对象,而死亡对象在老生代中占用的比例很小,所以效率较高。
Mark-Compact(标记整理)
标记整理正是为了解决标记清除所带来的内存碎片的问题。 大体过程就是 双端队列标记黑(邻接对象已经全部处理),白(待释放垃圾),灰(邻 接对象尚未全部处理)三种对象. 标记算法的核心就是深度优先搜索.
1.触发GC(何时发生垃圾回收?)
一般都是内存满了就回收,下面列举几个常见原因: GC_FOR_MALLOC: 表示是在堆上分配对象时内存不足触发的GC。 GC_CONCURRENT: 当我们应用程序的堆内存达到一定量,或者可以理解为快要满的时候,系统会自动触发GC操作来释放内存。 GC_EXPLICIT: 表示是应用程序调用System.gc、VMRuntime.gc接口或者收到SIGUSR1信号时触发的GC。 GC_BEFORE_OOM: 表示是在准备抛OOM异常之前进行的最后努力而触发的GC。
2.写屏障(一个老年代的对象需要引用年轻代的对象,该怎么办?)
如果新生代中的一个对象只有一个指向它的指针,而这个指针在老生代中,我们如何判断 这个新生代的对象是否存活?为了解决这个问题,需要建立一个列表用来记录所有老生代 对象指向新生代对象的情况。每当有老生代对象指向新生代对象的时候,我们就记录下 来。 当垃圾回收发生在年轻代时,只需对这张表进行搜索以确定是否需要进行垃圾回收,而不 是检查老年代中的所有对象引用。
3.深度、广度优先搜索(为什么新生代用广度搜索,老生代用深度搜索)
深度优先DFS一般采用递归方式实现,处理tracing的时候,可能会导致栈空间溢出,所以一般采用广度优先来实现tracing(递归情况下容易爆栈)。 广度优先的拷贝顺序使得GC后对象的空间局部性(memory locality)变差(相关变量散开了)。 广度优先搜索法一般无回溯操作,即入栈和出栈的操作,所以运行速度比深度优先搜索算法法要快些。 深度优先搜索法占内存少但速度较慢,广度优先搜索算法占内存多但速度较快。 结合深搜和广搜的实现,以及新生代移动数量小,老生代数量大的情况,我们可以得到了解答。