1

如果你是一名 Java 开发人员,你肯定指定 Java 代码有很多种不同的运行方式。比如说可以在开发工具(IDEA、Eclipse等)中运行,可以双击执行 jar 文件运行,也可以在命令行中运行,甚至可以在网页(比如各种 OJ)中运行。当然,这些执行方式都离不开 JRE(Java 运行时环境)。

JRE 包含运行 Java 程序的必需组件,包括 JVM(Java 虚拟机)以及 Java 核心类库等。Java 程序员经常接触到的 JDK(Java 开发工具包)同样包含了 JRE,并且还附带了一系列开发、诊断工具。

本篇文章主要针对以下两个问题和大家一起探讨:

  1. 为什么需要 JVM?
  2. JVM 是怎样运行 Java 代码的呢?

为什么需要 JVM?

Java 的一个非常重要的特点就是与平台的无关性,而使用 JVM 是实现这一特点的关键。Java 作为一门高级程序语言,语法复杂,抽象程度高。因此,直接在硬件上运行这种复杂的程序并不现实。所以在运行 Java 程序之前,我们需要对其进行转换。

设计一个面向 Java 语言特性的虚拟机,并通过编译器将 Java 程序转换成该虚拟机所能识别的指令序列(因为 Java 字节码指令的操作码(opcode)被固定为一个字节,故又称 Java 字节码)。

JVM 一般是在各个现有平台(如 Windows、Linux)上提供软件实现,这样可以使一旦一个程序被转换成 Java 字节码,那么便可以在不同平台上的虚拟机实现里运行(一次编写,到处运行)。

JVM 另外一个好处是带有托管环境(Managed Runtime),托管环境能够代替处理一些代码中冗长而且容易出错的部分,其中包括自动内存管理与垃圾回收(GC)。

另外,托管环境还提供了诸如数组越界、动态类型、安全权限等等的动态检测,使我们免于书写这些无关业务逻辑的代码。

JVM 是怎样运行 Java 代码的呢?

JVM 具体是怎么运行 Java 字节码的呢?下面我们一起来看一下:

从 JVM 来看,执行 Java 代码首先需要将它编译而成的 class 文件加载到 JVM 中。加载后的 Java 类会被存放于方法区(Method Area)中。实际运行时,JVM 会执行方法区内的代码。

JVM 会在内存中划分出堆和栈来存储运行时数据,JVM 会将栈细分为面向 Java 方法的 Java 方法栈,面向本地方法(用 C++ 写的 native 方法)的本地方法栈,以及存放各个线程执行位置的 PC 寄存器。

在运行过程中,每当调用进入一个 Java 方法,JVM 会在当前线程的 Java 方法栈中生成一个栈帧,用以存放局部变量以及字节码的操作数。栈帧的大小是提前计算好的,而且 JVM 不要求栈帧在内存空间里连续分布。

当退出当前执行的方法时,不管是正常返回还是异常返回,JVM 均会弹出当前线程的当前栈帧,并将之舍弃。

从硬件视角来看,Java 字节码无法直接执行。因此,JVM 需要将字节码翻译成机器码。

在 HotSpot 里面,上述翻译过程有两种形式:第一种是解释执行(interpreter),即逐条将字节码翻译成机器码并执行;第二种是即时编译(Just-In-Time compilation,JIT),即将一个方法中包含的所有字节码编译成机器码后再执行。

前者的优势在于无需等待编译,而后者的优势在于实际运行速度更快。HotSpot 默认采用混合模式,综合了解释执行和即时编译两者的优点。它会先解释执行字节码,而后将其中反复执行的热点代码,以方法为单位进行即时编译。

整个 Java 代码执行过程如下:

  1. 使用 javac 把 .java 源文件编译为字节码(文件后缀名为 .class)
  2. 字节码经过 JIT 环境变量进行判断,是否属于热点代码(多次调用的方法或循环体)
  3. 热点代码使用 JIT 编译为可执行的机器码
  4. 非热点代码使用解释器解释执行所有字节码

其中,在运行过程中会被即时编译的热点代码有两类:

  1. 被多次调用的方法
  2. 被多次执行的循环体

针对第一类,编译器会将整个方法作为编译对象,这也是标准的 JIT 编译方式。对于第二类是由循环体出发的,但是编译器依然会以整个方法作为编译对象,因为发生在方法执行过程中,称为栈上替换。

HotSpot 采用了多种技术来提升启动性能以及峰值性能,刚刚提到的即时编译便是其中最重要的技术之一。

即时编译建立在程序符合二八定律的假设上,也就是百分之二十的代码占据了百分之八十的计算资源。

对于占据大部分的不常用的代码,我们无需耗费时间将其编译成机器码,而是采取解释执行的方式运行;另一方面,对于仅占据小部分的热点代码,我们则可以将其编译成机器码,以达到理想的运行速度。

为了满足不同用户场景的需要,HotSpot 内置了多个即时编译器:C1、C2。之所以引入多个即时编译器,是为了在编译时间和生成代码的执行效率之间进行取舍。

  • C1 (Client 编译器)面向的是对启动性能有要求的客户端 GUI 程序,采用的优化手段相对简单,因此编译时间较短。
  • C2 (Server 编译器)面向的是对峰值性能有要求的服务器端程序,采用的优化手段相对复杂,因此编译时间较长,但同时生成代码的执行效率较高。

从 Java 7 开始,HotSpot 默认采用分层编译的方式:热点方法首先会被 C1 编译,而后热点方法中的热点会进一步被 C2 编译。

为了不干扰应用的正常运行,HotSpot 的即时编译是放在额外的编译线程中进行的。HotSpot 会根据 CPU 的数量设置编译线程的数目,并且按 1:2 的比例配置给 C1 及 C2 编译器。

在计算资源充足的情况下,字节码的解释执行和即时编译可同时进行。编译完成后的机器码会在下次调用该方法时启用,以替换原本的解释执行。

其中判断一段代码是否为热点代码,是不是需要触发即时编译,这样的行为称为热点探测(Hot Spot Detection),探测算法有两种:

  1. 基于采样的热点探测(Sample Based Hot Spot Detection):虚拟机会周期的对各个线程栈顶进行检查,如果某些方法经常出现在栈顶,这个方法就是热点方法。优点是实现简单、高效,很容易获取方法调用关系。缺点是很难确认方法的 reduce,容易受到线程阻塞或其他外因扰乱。
  2. 基于计数器的热点探测(Counter Based Hot Spot Detection):为每个方法(甚至是代码块)建立计数器,执行次数超过阈值就认为是热点方法。优点是统计结果精确严谨。缺点是实现麻烦,不能直接获取方法的调用关系。

HotSpot 使用的是第二种-基于计数器的热点探测,并且有两类计数器:方法调用计数器(Invocation Counter)和回边计数器(Back Edge Counter)。

总结

这篇文章主要介绍了为什么需要 JVM 以及 JVM 是怎样运行 Java 代码的。

为什么需要 JVM:

  1. 提供了可移植性。一次编译,到处执行。
  2. 提供了代码托管的环境,代替处理部分冗长而且容易出错的部分。

JVM 将运行时内存区域划分为五个部分,分别为方法区、堆、PC 寄存器、Java 方法栈和本地方法栈。Java 程序编译而成的 class 文件,需要先加载至方法区中,方能在 JVM 中运行。

为了提高运行效率,HotSpot 虚拟机采用的是一种混合执行的策略,会解释执行 Java 字节码,然后会将其中反复执行的热点代码,以方法为单位进行即时编译,翻译成机器码后直接运行在底层硬件之上。

HotSpot 装载了多个不同的即时编译器,以便在编译时间和生成代码的执行效率之间做取舍。

判断热点代码的探测算法包括基于采样和基于计数器两种,HotSpot 采用基于计数器的热点探测,计数器又分为方法调用计数器和回边计数器。


武培轩
156 声望15 粉丝

专注分享后端技术干货,包括 Java 基础、Java 并发、JVM、分布式、微服务、消息队列、Git、源码解析、数据库、设计模式、面经等,助你编程之路少走弯路。