1 Java 内存模型
JMM(Java Memory Model),是一种基于计算机内存模型
(定义了共享内存系统中多线程程序读写操作行为的规范)并屏蔽了各种硬件和操作系统的访问差异,保证了Java程序在各种平台下对内存的访问都能保证效果一致的机制及规范。
Java内存模型描述了Java程序中各种变量(线程共享变量)的访问规则,以及在JVM中将变量存储到内存和从内存中读取出变量这样的底层细节。
在Java中,所有实例域、静态域和数组元素都存储在堆内存中,堆内存在线程之间共享。由于线程的工作内存是线程私有内存,线程间无法互相访问对方的工作内存。所以线程 0 、线程 1 和线程 2需要读写主内存的共享变量
时,就都先将该共享变量拷贝(load)到自己的工作内存,然后在自己的工作内存中对该变量进行所有操作,线程工作内存对变量副本完成操作之后再将结果同步(save)至主内存。
JMM存在三大特性:原子性、可见性、有序性。
原子性:
保证指令不会受到线程上下文切换的影响。对共享内存的操作必须是要么全部执行直到执行结束,且中间过程不能被任何外部因素打断,要么就不执行。
可见性:
保证指令不会受 CPU缓存的影响。多线程操作共享内存时,执行结果能够及时的同步到共享内存,确保其他线程对此结果可见。
有序性:
保证指令不会受CPU指令并行优化的影响。程序的执行顺序按照代码顺序执行,在单线程环境下,程序的执行都是有序的;但是在多线程环境下,JMM 为了性能优化,编译器和处理器会对指令进行重排,程序的执行会变成无序。
1.1 可见性
在下面案例中,main 线程中run
变量的修改对于子线程不可见,导致子线程无法停止:
public class Test {
static boolean run = true;
public static void main(String[] args) throws InterruptedException {
Thread t = new Thread(() -> {
while (run) {
}
});
System.out.println(t.isAlive());
t.start();
System.out.println(t.isAlive());
Thread.sleep(1000);
run = false; // 线程t不会如预想的停下来
}
}
运行结果:
false
true
不难分析:
- 初始状态, t 线程刚开始从主内存读取了
run
的值到工作内存。 - 因为t线程频繁地从主存中读取run的值,JIT即时编译器会将run的值缓存至自己工作内存中的高速缓存中,减少对主存中run的访问以提高效率。
- 1 秒之后,main 线程修改了run的值,并同步至主内存,而 t线程仍是从自己工作内存中的高速缓存中读取这个变量。
的值,结果永远是旧值。
关于这个问题,我们可以使用sychronized关键字解决。
public class Test2 {
static boolean run = true;
final static Object lock = new Object();
public static void main(String[] args) throws InterruptedException {
Thread thread = new Thread(() -> {
while (true) {
synchronized (lock) {
if (!run) {
break;
}
}
}
});
thread.start();
Thread.sleep(1);
synchronized (lock) {
run = false;
}
}
}
synchronized 语句块既可以保证代码块的原子性,也同时保证代码块内变量的可见性。但缺点是synchronized 是重量级锁,性能相对更低。
1.2 初识volatile
上面问题也可以用volatile关键字解决。
volatile(表示易变关键字的意思),它可以用来修饰成员变量和静态成员变量,它要求线程必须从主内存中获取变量的值。线程操作 volatile 变量都是直接操作主内存。
public class Test {
volatile static boolean run = true;
public static void main(String[] args) throws InterruptedException {
Thread t = new Thread(() -> {
while (run) {
}
});
t.start();
Thread.sleep(1000);
run = false; // 线程t会停下来
}
}
volatile体现的就是JMM的可见性,volatile保证的是在多个线程之间,一个线程对 volatile 变量的修改对另一个线程可
见, 但不能保证多线程的原子性,仅用在一个写线程,多个读线程的情况。 上例从字节码理解是这样的:
getstatic run // 线程 t 获取 run true
getstatic run // 线程 t 获取 run true
getstatic run // 线程 t 获取 run true
getstatic run // 线程 t 获取 run true
putstatic run // 线程 main 修改 run 为 false, 仅此一次
getstatic run // 线程 t 获取 run false 。
1.3 有序性
1.3.1 重排序
JVM 会在不影响正确性的前提下,可以调整语句的执行顺序,例如下面代码:
static int i;
static int j;
// 在某个线程内执行如下赋值操作
i = ...;
j = ...;
可以看到,至于是先执行 i 还是 先执行 j ,对最终的结果不会产生影响。所以,上面代码真正执行时,既可以是
i = ...;
j = ...;
// 或者
j = ...;
i = ...;
这种特性称之为重排序,重排序主要分3种类型。
(1)编译器优化的重排序。编译器在不改变单线程程序语义的前提下,可以重新安排语句的执行顺序。
(2)指令级并行的重排序。现代处理器采用了指令级并行技术(ILP)来将多条指令重叠执行。如果不存在数据依赖性,处理器可以改变语句对应机器指令的执行顺序。
(3)内存系统的重排序。由于处理器使用缓存和读/写缓冲区,这使得加载和存储操作看上去可能是在乱序执行。
上述的1属于编译器重排序,2和3属于处理器重排序。这些重排序可能会导致多线程程序出现内存可见性问题。
对于编译器,JMM的编译器重排序规则会禁止特定类型的编译器重排序(不是所有的编译器重排序都要禁止)。
对于处理器重排序,JMM的处理器重排序规则会要求Java编译器在生成指令序列时,插入特定类型的内存屏障(Memory Barriers,Intel称之为Memory Fence)指令,通过内存屏障指令来禁止特定类型的处理器重排序。
指令重排序优化
事实上,现代处理器会设计为一个时钟周期完成一条执行时间最长的 CPU 指令。为什么这么做呢?可以想到指令还可以再划分成一个个更小的阶段,例如,每条指令都可以分为: 取指令 - 指令译码 - 执行指令 - 内存访问 - 数据写回
这 5 个阶段。
术语参考:instruction fetch (IF)
instruction decode (ID)
execute (EX)
memory access (MEM)
register write back (WB)
在不改变程序结果的前提下,这些指令的各个阶段可以通过重排序和组合来实现指令级并行,分阶段、分工正是提升效率的关键!
支持流水线的处理器
现代 CPU 支持多级指令流水线,例如支持同时执行 取指令 - 指令译码 - 执行指令 - 内存访问 - 数据写回
的处理器,就可以称之为五级指令流水线。这时 CPU 可以在一个时钟周期内,同时运行五条指令的不同阶段(相当于一 条执行时间最长的复杂指令),IPC = 1,本质上,流水线技术并不能缩短单条指令的执行时间,但它变相地提高了 指令地吞吐率。
1.3.2 案例分析
int num = 0;
// volatile 修饰的变量,可以禁用指令重排 volatile boolean ready = false; 可以防止变量之前的代码被重排序
boolean ready = false;
// 线程1 执行此方法
public void actor1(I_Result r) {
if(ready) {
r.r1 = num + num;
}
else {
r.r1 = 1;
}
}
// 线程2 执行此方法
public void actor2(I_Result r) {
num = 2;
ready = true;
}
I_Result 是一个对象,有一个属性 r1 用来保存结果,可能的结果有几种?
情况1:线程1 先执行,这时 ready = false,所以进入 else 分支结果为 1。
情况2:线程2 先执行 num = 2,但没来得及执行 ready = true,线程1 执行,还是进入 else 分支,结果为1。
情况3:线程2 执行到 ready = true,线程1 执行,这回进入 if 分支,结果为 4。
情况4:线程2 执行 ready = true,切换到线程1,进入 if 分支,相加为 0,再切回线程2 执行 num = 2。
情况4出现的在于出现了指令重排,指令重排是 JIT 编译器在运行时的一些优化,这个现象需要通过大量测试才能复现,可以使用jcstress工具进行测试。上面仅是从代码层面体现出了有序性问题,下面在讲到 double-checked locking 问题时还会从java字节码的层面了解有序性的问题。
重排序也需要遵守一定规则:
- 重排序操作不会对存在数据依赖关系的操作进行重排序。比如:
a=1;b=a;
这个指令序列,由于第二个操作依赖于第一个操作,所以在编译时和处理器运行时这两个操作不会被重排序。 - 重排序是为了优化性能,但是不管怎么重排序,单线程下程序的执行结果不能被改变。比如:
a=1;b=2;c=a+b
这三个操作,第一步(a=1)和第二步(b=2)由于不存在数据依赖关系,所以可能会发生重排序,但是c=a+b这个操作是不会被重排序的,因为需要保证最终的结果一定是c=a+b=3。
重排序在单线程模式下是一定会保证最终结果的正确性,但是在多线程环境下,问题就出来了。解决方法:volatile 修饰的变量,可以禁用指令重排。
Tips:使用synchronized并不能解决所有有序性问题,但是变量完全在synchronized代码块的保护范围内,那么变量就不会被多个线程同时操作,也不用考虑有序性问题!
## 2 volatile原理
从上文可知,一旦一个共享变量(类的成员变量、类的静态成员变量)被volatile修饰之后,那么就具备了两层语义:
(1)保证了不同线程对这个变量进行操作时的可见性,即一个线程修改了某个变量的值,这新值对其他线程来说是立即可见的。
(2)禁止进行指令重排序。
Tips:对任意单个volatile变量的读/写具有原子性,但类似于volatile++这种复合操作不具有原子性。
JVM到底如何禁止重排序的呢?由此引出Java中的happen-before规则。
2.1 happens-before
JMM可以通过happens-before关系JMM可以通过happens-before关系向程序员提供跨线程的内存可见性保证。
《JSR-133:Java Memory Model and Thread Specif ication》对happens-before关系的定义如下。
(1)如果一个操作happens-before另一个操作,那么第一个操作的所有执行结果将对第二个操作可见,而且第一个操作的执行顺序一般排在第二个操作之前。
(2)两个操作之间存在happens-before关系,并不意味着Java平台的具体实现必须要按照happens-before关系指定的顺序来执行。如果重排序之后的执行结果,与按happens-before关系来执行的结果一致,JMM允许这种重排序。
happens-before具体规则:
(1)程序顺序规则:一个线程内,按照代码顺序,书写在前面的操作,happens-before 于书写在后面的操作。
(2)监视器锁规则:对一个锁的解锁,happens-before于随后对这个锁的加锁。
// 线程解锁lock之前对变量的写,对于接下来对lock加锁的其它线程对该变量的读可见。
static int x;
static Object lock = new Object();
new Thread(()->{
synchronized(lock) {
x = 10;
}
},"t1").start();
new Thread(()->{
synchronized(lock) {
System.out.println(x);
}
},"t2").start();
(3)volatile变量规则:对一个volatile域的写,happens-before于任意后续对这个volatile域的读。
volatile static int x;
public static void main(String[] args) {
new Thread(()->{
x = 10;
},"t1").start();
new Thread(()->{
System.out.println(x);
},"t2").start();
}
(4)传递性:如果A happens-before B,且B happens-before C,那么A happens-before C。
// 具有传递性,如果 x hb-> y 并且 y hb-> z 那么有 x hb-> z ,配合 volatile 的防指令重排
volatile static int x;
static int y;
public static void main(String[] args) {
new Thread(() -> {
y = 10;
x = 20;
}, "t1").start();
new Thread(() -> {
// x=20 对 t2 可见, 同时 y=10 也对 t2 可见
System.out.println(x);
}, "t2").start();
}
(5)线程启动规则:如果线程A执行操作ThreadB.start()(启动线程B),那么A线程的ThreadB.start()操作happens-before于线程B中的任意操作。
// 线程 start 前对变量的写,对该线程开始后对该变量的读可见
static int x;
x = 10;
new Thread(()->{
System.out.println(x);
},"t2").start();
(6)线程中断规则:对线程 interrupt 方法的调用,happens-before 被中断线程的代码检测到中断事件的发生。
// 线程 t1 打断 t2(interrupt)前对变量的写,对于其他线程得知t2被打断后对变量的读可见(通过
// t2.interrupted 或 t2.isInterrupted)
static int x;
public static void main(String[] args) {
Thread t2 = new Thread(()->{
while(true) {
if(Thread.currentThread().isInterrupted()) {
System.out.println(x);
break;
}
}
},"t2");
t2.start();
new Thread(()->{
try {
Thread.sleep(1);
} catch (InterruptedException e) {
e.printStackTrace();
}
x = 10;
t2.interrupt();
},"t1").start();
while(!t2.isInterrupted()) {
Thread.yield();
}
System.out.println(x);
}
(7)线程终结规则:如果线程A执行操作ThreadB. join()并成功返回,那么线程B中的任意操作happens-before于线程A从ThreadB. join()操作成功返回。
// 线程结束前对变量的写,对其它线程得知它结束后的读可见(比如其它线程调用 t1.isAlive() 或 t1.join()等待它结束)
static int x;
Thread t1 = new Thread(()->{
x = 10;
},"t1");
t1.start();
t1.join();
System.out.println(x);
(8)对象终结规则:一个对象的初始化完成,happens-before 它的 finalize() 方法的开始。
我们着重看第三点 Volatile规则:对 volatile变量的写操作,happen-before 后续的读操作。
为了实现 volatile 内存语义,JMM会重排序,其规则如下:
是否能重排序 | 第二个操作 | 第二个操作 | 第二个操作 |
---|---|---|---|
第一个操作 | 普通读/写 | Volatile读 | Volatile写 |
普通读/写 | No | ||
Volatile读 | No | No | No |
Volatile写 | No | No |
当第二个操作是 volatile 写操作时,不管第一个操作是什么,都不能重排序。
2.2 内存屏障
volatile 的底层实现原理是内存屏障(Memory Barrier/Memory Fence),下面这段话摘自《深入理解Java虚拟机》:
“观察加入volatile关键字和没有加入volatile关键字时所生成的汇编代码发现,加入volatile关键字时,会多出一个lock前缀指令”。
lock前缀指令实际上相当于一个内存屏障(也成内存栅栏),内存屏障会提供3个功能:
(1)它确保指令重排序时不会把其后面的指令排到内存屏障之前的位置,也不会把前面的指令排到内存屏障的后面;即在执行到内存屏障这句指令时,在它前面的操作已经全部完成。
(2)它会强制将对缓存的修改操作立即写入主存。
(3)如果是写操作,它会导致其他CPU中对应的缓存行无效。
下图是完成happens-before规则所需要的内存屏障:
是否能重排序 | 第二个操作 | 第二个操作 | 第二个操作 | 第二个操作 |
---|---|---|---|---|
第一个操作 | 普通读 | 普通写 | Volatile读 | Volatile写 |
普通读 | LoadStore | |||
普通写 | StoreStore | |||
Volatile读 | LoadLoad | LoadStore | LoadLoad | LoadStore |
Volatile写 | StoreLoad | StoreStore |
(1)LoadLoad 屏障
执行顺序:Load1—>Loadload—>Load2
确保Load2及后续Load指令加载数据之前能访问到Load1加载的数据。
(2)StoreStore 屏障
执行顺序:Store1—>StoreStore—>Store2
确保Store2以及后续Store指令执行前,Store1操作的数据对其它处理器可见。
(3)LoadStore 屏障
执行顺序: Load1—>LoadStore—>Store2
确保Store2和后续Store指令执行前,可以访问到Load1加载的数据。
(4)StoreLoad 屏障
执行顺序: Store1—> StoreLoad—>Load2
案例分析
还是以之前代码为例:
int num = 0; // 共享变量num
// 根据程序顺序规则,num happens-before ready
volatile boolean ready = false; // volatile变量ready
// 线程1 执行此方法
public void actor1(I_Result r) {
// LoadLoad屏障
if(ready) { // ready是被volatile修饰的,读取值带LoadLoad屏障
r.r1 = num + num;
}
else {
r.r1 = 1;
}
}
// 线程2 执行此方法
public void actor2(I_Result r) {
num = 2;
ready = true; // ready是被volatile修饰的 ,赋值带LoadStore屏障
// LoadStore屏障
}
2.3 double-checked locking
下面以著名的 double-checked locking 单例模式为例,这是volatile最常使用的地方。
实现单例模式时,如果未考虑多线程的情况,就容易写出下面的代码:
public final class Singleton {
private Singleton() {
}
private static Singleton INSTANCE = null;
public static Singleton getInstance() {
// 首次访问会同步,而之后的使用不用进入synchronized
synchronized (Singleton.class) {
if (INSTANCE == null) {
INSTANCE = new Singleton();
}
}
return INSTANCE;
}
}
上面代码的问题在于,即使已经产生了单实例之后,之后调用了getInstance()方法之后还是会加锁,这会严重影响性能!
双重检查锁(double checked locking)是对上述问题的一种优化。
public final class Singleton {
private Singleton() {
}
private static Singleton INSTANCE = null;
public static Singleton getInstance() {
if(INSTANCE == null) {
// 首次访问会同步,而之后的使用没有 synchronized
synchronized(Singleton.class) {
if (INSTANCE == null) {
INSTANCE = new Singleton();// error
}
}
}
return INSTANCE;
}
}
如果这样写,运行顺序就成了:
(1)检查变量是否被初始化(不去获得锁),如果已被初始化则立即返回。
(2)获取锁。
(3)再次检查变量是否已经被初始化,如果还没被初始化就初始化一个对象。
这样,除了初始化的时候会出现加锁的情况,后续的所有调用都会避免加锁而直接返回,解决了性能消耗的问题。
上述写法看似解决了问题,但在多线程环境下,是有很大的隐患的。if(INSTANCE == null
代码没有在同步代码块synchronized中,不能享有synchronized保证的原子性、可见性。
查看getInstance 方法对应的字节码为:
public static com.kai.demo.memory.Singleton getInstance();
descriptor: ()Lcom/kai/demo/memory/Singleton;
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=2, args_size=0
0: getstatic #2 // 获取到INSTANCE静态变量
3: ifnonnull 37
6: ldc #3 // 获得Singleton.class类对象
8: dup // 将类对象的引用地址复制了一份->临时类对象引用
9: astore_0 // 临时类对象引用 -> 存入局部变量表slot 1中
10: monitorenter // 将类对象的Mark Word置为指向Monitor指针
11: getstatic #2 // 再次获取到INSTANCE静态变量
14: ifnonnull 27
17: new #3 // 新建一个Singleton实例,实例对象引用入栈
20: dup // 复制Singleton实例的引用->临时引用
21: invokespecial #4 // 临时实例引用调用构造方法<init>
24: putstatic #2 // 实例的赋值操作
27: aload_0 // 获取到临时类对象引用
28: monitorexit // 将lock对象的Mark Word重置,唤醒EntryList
29: goto 37
32: astore_1
33: aload_0
34: monitorexit
35: aload_1
36: athrow
37: getstatic #2 // return INSTANCE;
40: areturn
--- omit ---
主要来看17-24步:
- 17:创建Singleton实例,将实例对象引用入栈
- 20:复制一份对象引用(临时引用)
- 21:利用临时引用,调用构造方法
- 24:利用对象引用,赋值给静态INSTANCE
编译器为了性能优化,可能会将21和24进行重排序。如果两个线程 t1、t2 按时间序列执行:
由于 0: getstatic
这行代码( if(INSTANCE == null)
)在 monitor 控制之外,t2可以越过 monitor 读取INSTANCE 变量的值。这时 t1 还未完全将构造方法执行完毕, t2 拿到的是将是一个未初始化完毕的单例。
double-checked locking 解决方法
对 INSTANCE 使用 volatile 修饰即可。
public final class Singleton {
private Singleton() {
}
private static volatile Singleton INSTANCE = null;
public static Singleton getInstance() {
// 实例没创建,才会进入内部的 synchronized代码块
if (INSTANCE == null) {
synchronized (Singleton.class) { // t2
// 也许有其它线程已经创建实例,所以再判断一次
if (INSTANCE == null) { // t1
INSTANCE = new Singleton();
}
}
}
return INSTANCE;
}
}
字节码上看不出来 volatile 指令的效果:
// -------------------------------------> 加入对 INSTANCE 变量的LoadLoad屏障
0 getstatic #2 <com/kai/demo/memory/Singleton.INSTANCE>
3 ifnonnull 37 (+34)
6 ldc #3 <com/kai/demo/memory/Singleton>
8 dup
9 astore_0
10 monitorenter-----------------------> 保证原子性、可见性
11 getstatic #2 <com/kai/demo/memory/Singleton.INSTANCE>
14 ifnonnull 27 (+13)
17 new #3 <com/kai/demo/memory/Singleton>
20 dup
21 invokespecial #4 <com/kai/demo/memory/Singleton.<init>>
24 putstatic #2 <com/kai/demo/memory/Singleton.INSTANCE>
// -------------------------------------> 加入对 INSTANCE 变量的LoadStore屏障
27 aload_0
28 monitorexit-----------------------> 保证原子性、可见性
29 goto 37 (+8)
32 astore_1
33 aload_0
34 monitorexit
35 aload_1
36 athrow
37 getstatic #2 <com/kai/demo/memory/Singleton.INSTANCE>
40 areturn
如上面的注释内容所示,读写 volatile 变量操作(即getstatic操作和putstatic操作)时会加入内存屏障(Memory Barrier(Memory Fence)),保证下面两点:
- 可见性
(1)写屏障(sfence)保证在该屏障之前的 t1 对共享变量的改动,都同步到主存当中
(1)而读屏障(lfence)保证在该屏障之后 t2 对共享变量的读取,加载的是主存中最新数据
- 有序性
(1)写屏障会确保指令重排序时,不会将写屏障之前的代码排在写屏障之后
(2)读屏障会确保指令重排序时,不会将读屏障之后的代码排在读屏障之前
- 更底层是读写变量时使用 lock 指令来多核 CPU 之间的可见性与有序性
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。