这篇文章主要讲解Java虚拟机的内存分布以及对象的创建。

Java运行时数据区域

Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有的区域则依赖用户线程的启动和结束而建立和销毁。

img

注:白色区域为线程私有的,蓝色区域为线程共享的。

程序计数器

指当前线程正在执行的字节码指令的地址(行号)。由于Java虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,在任何一个确定的时刻,一个处理器(对于多核处理器来说是一个内核)都只会执行一条线程中的指令。因此,为了线程之间计数器互不影响,独立存储,我们称这类内存区域为“线程私有”。

Java虚拟机栈

Java虚拟机栈也是线程私有的,它的生命周期与线程相同。虚拟机栈的描述的是Java方法执行的内存模型:每个方法在执行的同时都会创建一个栈帧(Stack Frame) 用于存储:

  • 局部变量表
  • 操作数表
  • 动态链接
  • 方法出口

微信图片_20180312143210.jpg

每个方法从调用直至执行完成的过程,就对应着一个栈帧在虚拟机中入栈和出栈的过程。(当线程执行一个方法时,就会随之创建一个对应的栈帧,并将建立的栈帧压栈

本地方法栈

本地方法栈(Native Method Stacks)与虚拟机栈所发挥的作用是非常相似的,其区别不过是虚拟机栈为虚拟机执行Java方法(也就是字节码)服务,而本地方法栈则是为虚拟机使用到的Native方法服务。

Java堆(Heap)

对于大多数应用来说,Java堆(Java Heap)是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例几乎所有的对象实例都在这里分配内存

Java堆是垃圾收集器管理的主要区域,因此很多时候也被称做“GC堆”。如果从内存回收的角度看,由于现在收集器基本都是采用的分代收集算法,所以Java堆中还可以细分为:新生代和老年代;再细致一点的有Eden空间、From Survivor空间、To Survivor空间等。

根据Java虚拟机规范的规定,Java堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘空间一样。在实现时,既可以实现成固定大小的,也可以是可扩展的,不过当前主流的虚拟机都是按照可扩展来实现的(通过-Xmx和-Xms控制)。

方法区

方法区(Method Area)与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的

  • 类信息
  • 常量
  • 静态变量
  • 即时编译器编译后的代码等数据。

方法区并不是存方法的,存方法的应该是栈或者栈帧。

运行时常量池

运行时常量池(Runtime Constant Pool)是方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息就是常量池,用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区运行时常量池存放。

程序计数器、虚拟机栈和本地方法栈这三个区域属于线程私有的,只存在线程的生命周期内,线程结束之后也会消失,因此不需要对这三个区域进行垃圾回收。垃圾回收主要针对Java堆和方法区进行

HotSpot虚拟机对象探秘

介绍完Java虚拟机的运行时数据区之后,我们大致知道了虚拟机内存的情况,读者了解内存中放了些什么后,也许就会想更进一步了解这些虚拟机内存中的数据的其他细节,比如它们是如何创建、如何布局以及如何访问的。

image.png

对象的创建

类检查及类加载

虚拟机遇到一条New指令是,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那必须先执行相应的类加载过程。

内存分配

在类加载检查通过后,接下来虚拟机将为新生对象分配内存。对象所需内存空间的大小在类加载完成后便可以确定的,为对象分配内存的任务等同于把一块确定大小的内存从Java堆中划分出来。此分配的过程有两种方法:

  • 对于规整的堆内存,直接将指针向空闲一侧移动所需的大小,这种方式叫做“指针碰撞”。(Serial、ParNew)
  • 对于不规整的堆内存,虚拟机会维护一个空闲内存列表,当需要分配内存时,划分出一个足够的空间并且更新空闲表,这种方式叫做“空闲列表”。(CMS)

至于堆内存是否规整连续,取决于具体的垃圾收集器(主要取决于是否带有compact功能的收集器)。

由于对象的创建是一个十分频繁的过程,在并发情况下会有并发安全的问题。解决这个问题有两种方案:

  • 一种是对分配内存空间的动作进行同步处理,实际上虚拟机采用CAS配上失败重试的方式保证更新操作的原子性;
  • 另一种是把内存分配的动作按照线程划分在不同的空间中进行。即每个线程会预先分配一小块内存,称为本地线程分配缓冲(Thread Local Allocation Buffer,TLAB)。哪个线程需要分配内存,就在哪个线程的TLAB上分配。只有在TLAB用完需要新分配的时候在采取同步处理

初始化零值

内存分配完毕后,虚拟机会对该内存区域初始化零值,如果是TLAB方式,这一步可以提前到TLAB分配时进行。这一步保证了对象的实例字段在Java代码中可以不赋初始值就直接使用,程序能访问到这些字段的数据类型所对应的零值。

对象头设置

接下来,虚拟机要对对象进行必要的设置。将类的元数据、哈希码、GC分代信息等设置到对象头中。

对象初始化

执行完上述步骤后,对象的实例属性还都是零值,下面会执行方法,按照程序的意图对对象进行初始化

。之后再将对象的引用放在栈中,至此,对象的创建过程结束。

对象的内存布局

在HotSpot虚拟机中,对象在内存中存储的布局可以分为3块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。

image.png

对象头

对象头主要存储两部分信息:

  • 一部分用于存储对象自身的运行时数据,如哈希码、GC分代年龄等信息。
  • 另一部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例。

实例数据

实例数据部分是对象真正存储的有效信息,也会在程序代码中所定义的各种类型的字段内容。无论是从父类继承下来的,还是在子类中定义的,都需要记录起来的。

对齐填充

第三部分对齐填充并不是必然存在的,也没有特别的含义,它仅仅起着占位符的作用。

对象的访问定位

建立对象是为了使用对象,我们的Java程序需要通过栈上的reference数据来操作堆上的具体对象。由于reference类型在Java虚拟机规范中只规定了一个指向对象的引用,并没有定义这个引用应该通过何种方式去定位、访问堆中的对象的具体位置,所以对象访问方式也是取决于虚拟机实现而定的。目前主流的访问方式使用句柄直接指针两种。

  • 句柄访问:栈中对象的引用存储的是对象的句柄地址(句柄在句柄池中维护),句柄存储了堆中对象实例的地址以及方法区中对象的类型数据的地址。

句柄:一个唯一的整数,作为对象的身份的ID,区分不同的对象和同类中的不同实例。程序可以通过句柄访问对象的部分信息。句柄不代表对象的内存地址。

句柄和指针的区别:程序不能通过句柄直接阅读文件中的信息,指针是可以的。从所起的作用这点来说,句柄就是弱化后的指针,更安全,功能减少。

这种方式的优点是引用中存储的是稳定的句柄,当对象地址变化的时候(GC过程中可能会移动对象实例),只需要更新句柄,不需要更新引用;缺点也显而易见,访问对象时多一次指针操作。

image.png

  • 直接指针访问:栈中对象的引用存储的就是对象实例的地址,对象实例(对象头)中又存储了方法区中对象的类型数据的地址。

这种方式的优点就是访问迅速(比前者少一次指针操作),在HotSpot虚拟机中采用此种方式。

image.png

虚拟机栈和本地方法栈溢出

关于虚拟机栈和本地方法栈,在Java虚拟机规范中描述了两种异常:

  • 如果线程请求的栈深度大于虚拟机所允许的最大深度,将抛出StackOverflowError异常。
  • 如果虚拟机在扩展栈时无法申请到足够的内存空间,则抛出OutOfMemoryError异常。

参考资料

https://github.com/CyC2018/Interview-Notebook/blob/master/notes/JVM.md

https://www.jianshu.com/u/95f457e5042e

https://www.jianshu.com/p/9c845e4cb8a2