23.1 什么是快速系统调用

系统调用是操作系统为3特权级任务提供服务的一种手段。在32位操作系统中,我们通过中断实现了系统调用。由于系统调用是一个使用非常频繁的机制,且中断也不是专门为系统调用设计的,因此,64位CPU提供了系统调用的专用机制:快速系统调用。

快速系统调用由专用的syscall指令发起,并由专用的sysret指令返回。syscall必须从3特权级转移到0特权级,sysret必须从0特权级返回到3特权级。快速系统调用全程使用寄存器传参,并且系统调用函数的cs:rip是预设好的,因此,syscall/sysret均不需要参数。

综上,快速系统调用的整套机制都是非常固定的,这就带来了高效率。

23.2 快速系统调用的安装

在使用快速系统调用之前,需要先安装好快速系统调用所需的组件,这涉及到4个MSR。

23.2.1 IA32_EFER

快速系统调用这个功能在初始状态下是关闭的,其开关位于IA32_EFER的第0位。这个MSR我们已经见过了,它的编号为0xc0000080

23.2.2 IA32_STAR

这个MSR的低32位是保留位;第32\~47位用于设定syscall使用的0特权级段选择子;第48\~63位用于设定sysret使用的3特权级段选择子。

注意,这里没有说设定的是"代码段选择子",而仅仅是"段选择子",这是因为选择子的设定有一套比较奇怪的定义:

  • 对于第32\~47位,其数值本身会被视为0特权级代码段选择子;这个数值加8得到的数值会被视为0特权级数据段选择子
  • 对于第48\~63位,其数值本身会被视为3特权级兼容模式代码段选择子;这个数值加8得到的数值会被视为3特权级数据段选择子;这个数值加16得到的数值会被视为3特权级IA32-e模式代码段选择子。那么,当执行sysret时,其到底选择哪个代码段呢?这个问题将在下文中讨论

段选择子是描述符索引值左移3位得到的,因此加8即为GDT中的下一个描述符。也就是说,第32\~47位设定的是两个连续的段描述符中的第一个;第48\~63位设定的是三个连续的段描述符中的第一个。不过,由于我们的操作系统从不使用兼容模式代码段,因此在GDT中并没有定义这个描述符。

这个MSR的编号为0xc0000081

23.2.3 IA32_LSTAR

这个MSR用于设定系统调用函数的地址,其编号为0xc0000082

23.2.4 IA32_FMASK

这个MSR用于设定RFLAGS屏蔽掩码。具体来说,当执行syscall时,rflags会变成这样:rflags &= ~IA32_FMASK。在我们的操作系统中,这个MSR用于屏蔽IF位,屏蔽掩码为0x200

这个MSR的编号为0xc0000084

23.3 syscall的执行细节

当执行syscall时,CPU会执行以下操作:

  • rcx = rip
  • r11 = rflags
  • cs = IA32_STAR[32:47]
  • rip = IA32_LSTAR
  • rflags &= ~IA32_FMASK

也就是说,rcxr11会被syscall使用,它们不能用于传参。此外,syscall不会对rsp做任何处理,这是一个很重要的问题,我们将在下文中讨论。

23.4 sysret的执行细节

当执行sysret时,CPU会执行以下操作:

  • rip = rcx
  • rflags = r11
  • 如果sysret没有64位前缀,则:cs = IA32_STAR[48:63];否则:cs = IA32_STAR[48:63] + 16

也就是说:

  1. 操作系统需要保护rcxr11
  2. sysret需要具有64位前缀

上述第1点将在下文中讨论;第2点在nasm中可使用o64 sysret实现。

23.5 系统调用的实现

请看本章代码23/Syscall.h

第3行,声明了syscallInit函数。这个函数是用汇编语言实现的。

接下来,请看本章代码23/Syscall.s

第15\~18行,将IA32_EFER的第0位置1,打开快速系统调用功能。

第20\~23行,设定IA32_STAR。在GDT中,3号描述符是0特权级代码段,4号描述符是0特权级数据段,这两个段描述符对应于IA32_STAR的第32\~47位;5号描述符是3特权级数据段,6号描述符是3特权级代码段,没有兼容模式代码段,因此,这里应强行将4号描述符安装到IA32_STAR的第48\~63位,使得5号和6号描述符处于正确的位置。

第25\~29行,将系统调用函数syscallHandle的地址安装到IA32_LSTAR

第31\~34行,将屏蔽掩码0x200安装到IA32_FMASK

至此,快速系统调用准备完毕。

syscallHandle函数为系统调用函数。在32位操作系统中,系统调用由中断实现,中断发生时,CPU会自动切换到0特权级栈,由于0特权级栈是操作系统提供的,所以能够保证它的安全。那么,什么叫"安全的栈"?如果不切换栈,到底有什么问题?请看下例:

void test()
{
    char s[] = "666";
    __asm__ __volatile__("syscall");
}

将这段代码翻译成汇编语言,可以是:

test:
    mov dword [rsp - 4], '666'
    syscall
    ret

可以发现:这个函数的rsp是没有也不需要实际减去4的,但如果将这样的rsp提供给系统调用函数使用,就是错误的,因为系统调用函数不知道栈到底应该怎么用。这就是不安全栈带来的问题,因此,在系统调用时,切换到一个安全的栈是有必要的。

然而,syscall不会自动切换栈,我们需要手动完成这个操作。0特权级栈在TSS中,TSS的地址是0xffff800000092000,但想要使用这个地址,就必须先用一个寄存器周转64位立即数。用哪个寄存器呢?无关乎ABI,似乎用哪个都不完美。此时,我们之前设定的IA32_GS_BASE派上了用场,使用gs就可以直接操作TSS了。不仅如此,我们的操作系统的TSS是延长到128字节的,104字节以后的一小段内存可用于在换栈前备份当前的rsp。至此,换栈问题就完美解决了。

第44行,将rsp备份到[TSS + 104]

第45行,切换到0特权级栈。

第47\~48行,保护rcxr11。现在的栈是安全的,可以放心使用。

第50\~51行,调用rax指定的函数。

第53\~54行,恢复rcxr11

第56行,恢复3特权级栈。

第58行,从快速系统调用返回。

第60\~63行,定义了系统调用表。1号系统调用保留给后续章节使用。

接下来,请看本章代码23/Start.s

_start函数是3特权级任务的真正入口,其用于使任务在结束后自动退出。

23.6 编译与测试

本章代码23/Makefile增加了Syscall.sStart.s的编译与链接命令。

本章代码23/Kernel.c23/Test.c测试了0与2号系统调用。


樱雨楼
26 声望1 粉丝

Stay Gold