1

前言

欢迎来到操作系统系列,采用图解 + 大白话的形式来讲解,让小白也能看懂,帮助大家快速科普入门。

上篇文章有介绍过进程与线程的基础知识,进程下拥有多个线程,虽然多线程间通信十分方便(同进程),但是却带来了线程安全问题,本篇主要就是介绍操作系统中是用什么方法解决多线程安全,废话不多说,进入正文吧。

博主希望读者阅读文章后可以养成思考与总结的习惯,只有这样才能把知识消化成自己的东西,而不是单纯的去记忆

内容大纲

小故事

带薪蹲坑,相信都是大伙都爱做的事情,阿星也不例外,但是我司所在的楼层的坑位较少,粥少僧多,十分烦恼。

阿星(线程A)每次去厕所(共享资源),门都是锁着的,说明有同事在里面占着坑(线程B持有锁),只能无奈的在外面乖乖的等着,不久后冲水声响起,同事爽完出来(线程B释放锁),阿星一个健步进入厕所把门锁住(线程A持有锁),享受属于自己的空间,晚来的其他同事只能乖乖排队,一切都是那么井然有序。

假设门锁坏了,井然有序就不存在了,上厕所不再是享受,而是高度紧张,防止门突然被打开,更糟糕的是,开门时,是个妹子,这下不仅仅是线程安全问题,还有数组越界了。

故事说完,扯了那么多,就是想说明,在多线程环境里,对共享资源进行操作,如果多线程之间不做合理的协作(互斥与同步),那么一定会发生翻车现场。

竞争条件

因为多线程共享进程资源,在操作系统调度进程内的多线程时,必然会出现多线程竞争共享资源问题,如果不采取有效的措施,则会造成共享资源的混乱!

来写个小例子,创建两个线程,它们分别对共享变量 i 自增 1 执行 1000 次,如下代码

正常来说,i 变量最后的值是 2000 ,可是并非如此,我们执行下代码看看结果

  • 结果:2000
  • 结果:1855

运行了两次,结果分别是1855、2000,我们发现每次运行的结果不同,这在计算机里是不能容忍的,虽然是小概率出现的错误,但是小概率它一定是会发生的。

汇编指令

为了搞明白到底发生了什么事情,我们必须要了解汇编指令执行,以 i1 为例子,汇编指令的执行过程如下

好家伙,一个加法动作,在 C P U 运行,实际要执行 3 条指令。

现在模拟下线程A与线程B的运行,假设此时内存变量 i 的值是 0,线程A加载内存的 i 值到寄存器,对寄存器 i 值加 1,此时 i 值是 1,正准备执行下一步寄存器 i 值回写内存,时间片使用完了,发生线程上下文切换,保存线程的私有信息到线程控制块T C P。

操作系统调度线程B执行,此时的内存变量 i 依然还是 0,线程B执行与线程A一样的步骤,它很幸运,在时间片使用完前,执行完了加 1,最终回写内存,内存变量 i 值是 1

线程B时间片使用完后,发生线程上下文切换,回到线程A上次的状态继续执行,寄存器中的 i 值回写内存,内存变量再次被设置成 1

按理说,最后的 i 值应该是 2,但是由于不可控的调度,导致最后 i 值是 1,下面是线程A与线程B的流程图

  • 第一步:内存取出 i 值,加载进寄存器
  • 第二步:对寄存器内的 i 值加 1
  • 第三步:寄存器内的 i 值取出 加载进内存

小结

这种情况称为竞争条件(race condition),多线程相互竞争操作共享资源时,由于运气不好,在执行过程中发生线程上下文切换,最后得到错误的结果,事实上,每次运行都可能得到不同的结果,因此输出的结果存在不确定性(indeterminate)。

互斥与同步

为了解决因竞争条件出现的线程安全,操作系统是通过互斥与同步来解决此类问题。

互斥概念

多线程执行共享变量的这段代码可能会导致竞争状态,因此我们将此段代码称为临界区(critical section),它是执行共享资源的代码片段,一定不能给多线程同时执行。

所以我们希望这段代码是互斥(mutualexclusion)的,也就说执行临界区(critical section)代码段的只能有一个线程,其他线程阻塞等待,达到排队效果。

互斥并不只是针对多线程的竞争条件,同时还可用于多进程,避免共享资源混乱。

同步概念

互斥解决了「多进程/线程」对临界区使用的问题,但是它没有解决「多进程/线程」协同工作的问题

我们都知道在多线程里,每个线程一定是顺序执行的,它们各自独立,以不可预知的速度向前推进,但有时候我们希望多个线程能密切合作,以实现一个共同的任务。

所谓同步,就是「多进程/线程间」在一些关键点上可能需要互相等待与互通消息,这种相互制约的等待与互通信息称为「进程/线程」同步。

举个例,有两个角色分别是研发、质量管控,质量管控测试功能,需要等研「发完成开发」,研发要修bug也要等质量管控「测试完成提交B U G」,正常流程是研发完成开发,通知质量管控进行测试,质量管控测试完成,通知研发人员修复bug。

互斥与同步的区别

  • 互斥:某一资源同时只允许一个访问者对其进行访问,具有唯一性和排它性。但互斥无法限制访问者对资源的访问顺序,即访问是无序的(操作 A 和操作 B 不能在同一时刻执行)
  • 同步:互斥的基础上,通过其它机制实现访问者对资源的有序访问。在大多数情况下,同步已经实现了互斥(操作 A 应在操作 B 之前执行,操作 C 必须在操作 A 和操作 B 都完成之后才能执行)

显然,同步是一种更为复杂的互斥,而互斥是一种特殊的同步。也就是说互斥是两个线程之间不可以同时运行,他们会相互排斥,必须等待一个线程运行完毕,另一个才能运行,而同步也是不能同时运行,但他是必须要按照某种次序来运行相应的线程(也是一种互斥)! 

互斥与同步的实现

互斥与同步可以保证「多进程/线程间正确协作」 ,但是互斥与同步仅仅只是概念,操作系统必须要提供对应的实现,针对互斥与同步的实现有下面两种

  • 锁:加锁、解锁操作(互斥)
  • 信号量:P、V 操作(同步)

这两个种方式都可以实现「多进程/线程」互斥,信号量比锁的功能更强一些,它还可以方便地实现「多进程/线程」同步。

顾名思义,给临界区上一把锁,任何进入临界区)的线程,必须先执行加锁操作,加锁成功,才能进入临界区,在离开临界区时再释放锁,达到互斥的效果。

锁的实现方式又分为「忙等待锁」和「无忙等待锁」

忙等锁

检查并设置(test-and-set-lock,TSL)是一种不可中断的原子运算,它属于原子操作指令,可以通过它来实现忙等锁(自旋锁)。

test-and-set-lock 指令伪代码

检查并设置做了如下几个步骤

  • 检查旧值是否相等
  • 相等设置新值,返回原旧值(成功)
  • 不相等,无任何操作,直接返回原旧值(失败)

上面的步骤,把它看成一步并具备原子性,原子性的意思是指全部执行或都不执行,不会出现执行到一半的中间状态.

伪代码testAndSetLock实现忙等锁(自旋锁)

下面两种场景运行

  • 单线程:假设一个线程访问临界区,执行 getLock 方法,检查旧值 0 通过,更新原旧值 0 为新值 1,返回原旧值 0,获取锁成功,离开临界区时,执行 unLock 方法,检查旧值 1 通过,更新原旧值 1 为新值 0,释放锁成功。
  • 多线程:假设两个线程,线程A访问临界区,执行 getLock 方法,检查旧值 0 通过,更新原旧值 0 为新值 1,返回原旧值 0,获取锁成功,此时线程B执行 getLock 方法,旧值检查失败,获取锁失败,一直循环直到更新成功为止,当线程A离开临界区时,执行 unLock 方法,检查旧值 1 通过,更新原旧值 1 为新值 0,释放锁成功,线程B获取锁成功。

当获取不到锁时,线程就会一直 wile 循环,不做任何事情,所以就被称为忙等待锁,也被称为自旋锁。

这是最简单的锁,一直自旋,利用 C P U 周期,直到锁可用。在单处理器上,需要抢占式的调度器(即不断通过时钟中断一个线程,运行其他线程)。否则,自旋锁在 C P U 上无法使用,因为一个自旋的线程永远不会放弃 C P U。

无忙等锁

顾名思义,无忙等锁不需要主动自旋,被动等待唤醒即可,在没有获取到锁的时候,就把该线程加入到等待队列,让出 C P U 给其他线程,其他线程释放锁时,再从等待队列唤醒该线程。

两种锁的实现都是基于检查并设置(test-and-set-lock,TSL),上面只是简单的伪代码,实际上操作系统的实现会更复杂,但是基本思想与大致流程还是与本例一样。

信号量

操作系统中协调「多线程/进程」共同配合工作,就是通过信号量实现的,通常信号量代表「资源数量」,对应一个整型(s e n)变量,还有两个原子操作的系统调用函数来控制「资源数量」。

  • P 操作:将 s e n1,相减后,如果 s e n < 0 ,则进程/线程进入阻塞等待,否则继续,P 操作可能会阻塞
  • V 操作:将 s e n1 ,相加后,如果 s e n <= 0,唤醒等待中的进程/线程,V 操作不会阻塞

P V操作必须是成对出现,但是没有顺序要求,也就说你可以P V或V P。

举个例子,最近新冠病毒又出来捣乱了,为了自身安全,大家都去打疫苗,因为医生只有两位(相当于2个资源的信号量),所以同时只能为两个人接种疫苗,过程如下图

  • 信号量等于 0 时,代表无资源可用
  • 信号量小于 0 时,代表有线程在阻塞
  • 信号量大于 0 时,代表资源可用

使用伪代码实现P V 信号量

P V操作的函数是由操作系统管理和实现的,所以 P V 函数是具有原子性的。

实践

信号量还是比较有意思的,这里来做几个实践,加深大家对信号量的理解,实践的内容分别是

  • 信号量实现互斥
  • 信号量实现事件同步
  • 信号量实现生产者与消费者

互斥

使用信号量实现互斥非常简单,信号量数量为1,线程进入临界区进行 P 操作,离开临界区进行 V 操作。

事件同步

以前面说的研发、质量管控线程为例子,实现事件同步的效果,伪代码如下

首先抽象出两个信号量,「是否能提测」与「是否能修BUG」,它们默认都是否,也就是 0,关键点就是对两个信号量进行 P V 操作

  • 质量管控线程询问开发线程有没有完成开发,执行 P 操作 p(this.rDSemaphore)

    • 如果没有完成开发,this.rDSemaphore1 结果为 -1,质量管控线程阻塞等待唤醒(等后续研发线程进行 V 操作)
    • 如果完成开发,说明研发线程先执行 V 操作 v(this.rDSemaphore) 完成开发,this.rDSemaphore1 结果 1,此时质量管控线程 P 操作 this.rDSemaphore1 结果 0,进行后面的提测工作
  • 研发线程询问质量管控线程能不能修复B U G,执行 P 操作 p(this.qualitySemaphore)

    • 如果不可以修复B U G,this.qualitySemaphore1 结果为 -1,研发线程阻塞等待唤醒(等后续质量管控线程执行 V 操作)
    • 如果可以修复B U G,说明质量管控线程先执行 V 操作 v(this.qualitySemaphore) 提交BUG, this.qualitySemaphore1 结果为 1,此时研发线程 P 操作 this.qualitySemaphore1 结果 0,进行后面的修复 B U G 操作
  • 流程

    • 质量管控线程执行 P 操作 p(this.rDSemaphore) 能不能提测,this.rDSemaphore1 结果是 -1 ,不能进行提测,质量管控线程阻塞等待唤醒
    • 研发线程运行,执行 V 操作 v(this.rDSemaphore) 完成研发功能,this.rDSemaphore1 结果是 0,通知质量管控线程提测
    • 研发线程继续执行 P 操作 p(this.qualitySemaphore) 能不能修复B U G,this.qualitySemaphor1 结果是 -1,不能修复B U G,研发线程阻塞等待唤醒
    • 质量管控线程唤醒后进行提测,提测完毕执行 V 操作 v(this.qualitySemaphore) 完成提测与提交相关B U G,this.qualitySemaphore1 结果是 0,通知研发线程进行B U G修复

生产者与消费者

生产者与消费者是一个比较经典的线程同步问题,我们先分析下有那些角色

  • 生产者:生产事件放入缓冲区
  • 消费者:从缓冲区消费事件
  • 缓冲区:装载事件的容器

问题分析可以得出:

  • 任何时刻只能有一个线程操作缓冲区,说明操作缓冲区是临界代码,需要互斥
  • 缓冲区空时,消费者必须等待生产者生成数据
  • 缓冲区满时,生产者必须等待消费者取出数据

通过问题分析我们可以抽象出3个信号量

  • 互斥信号量:互斥访问缓冲区,初始化 1
  • 消费者资源信号量:缓冲区是否有事件,初始化 0,无事件
  • 生产者信号量:缓冲区是否有空位装载事件,初始化 N (缓冲区大小)

伪代码如下

关键的 P V 操作如下

  • 生产线程,在往缓冲区装载事件之前,执行 P 操作 p(this.produceSemaphore) ,缓冲区空槽数量减 1,结果 < 0 说明无空槽,阻塞等待「消费线程」唤醒,否则执行后续逻辑
  • 不论是生产线程还是消费线程在操作缓冲区都要执行 P V 临界区操作 p(this.mutexSemaphore)v(this.mutexSemaphore),这里就不做过多概述了
  • 消费线程,在从缓存区消费事件之前,执行 P 操作 p(this.consumeSemaphore),缓冲区事件数量减 1,结果 < 0 说明缓冲区无事件消费,阻塞等待「生产线程」唤醒,否执行后续逻辑
  • 生产线程与消费线程,执行完「装载/消费」后,都要唤醒对应的「生产/消费线程」,执行 V 操作「缓冲区空槽加 1/缓冲区事件加 1

关于我

公众号 : 「程序猿阿星」 专注技术原理、源码,通过图解方式输出技术,这里将会分享操作系统、计算机网络、Java、分布式、数据库等精品原创文章,期待你的关注。


程序猿阿星
66 声望32 粉丝