在阅读 Lua 的源代码时,我注意到 Lua 使用宏将 double
值舍入为 32 位 int
值。该宏定义在 Llimits.h
头文件 中,内容如下:
union i_cast {double d; int i[2]};
#define double2int(i, d, t) \
{volatile union i_cast u; u.d = (d) + 6755399441055744.0; \
(i) = (t)u.i[ENDIANLOC];}
这里 ENDIANLOC
是根据 字节序 定义的:0代表小端,1代表大端架构; Lua 小心地处理字节序。 t
参数被替换为整数类型,如 int
或 unsigned int
。
我做了一些研究,发现该宏有一种更简单的格式,它使用相同的技术:
#define double2int(i, d) \
{double t = ((d) + 6755399441055744.0); i = *((int *)(&t));}
或者,在 C++ 风格中:
inline int double2int(double d)
{
d += 6755399441055744.0;
return reinterpret_cast<int&>(d);
}
这个技巧可以在任何使用 IEEE 754 的机器上运行(这意味着今天几乎每台机器)。它适用于正数和负数,并且四舍五入遵循 银行家规则。 (这并不奇怪,因为它遵循 IEEE 754。)
我写了一个小程序来测试它:
int main()
{
double d = -12345678.9;
int i;
double2int(i, d)
printf("%d\n", i);
return 0;
}
它按预期输出 -12345679
。
我想详细了解这个棘手的宏是如何工作的。幻数 6755399441055744.0
实际上是 2 51 + 2 52 ,或 1.5 × 2 52 ,二进制的 1.5 可以表示为 1.1。当任何 32 位整数与这个幻数相加时——
好吧,我从这里迷路了。 这个技巧是如何工作的?
更新
正如@Mysticial 指出的那样,这种方法并不局限于32位
int
,它也可以扩展到64位int
只要数字在范围为 2 52 。 (虽然宏需要一些修改。)有些资料说这种方法不能在 Direct3D 中使用。
使用 Microsoft assembler for x86 时,有一个用汇编代码编写的更快的宏(以下也是从 Lua 源代码中提取的):
#define double2int(i,n) __asm {__asm fld n __asm fistp i}
- 单精度数有一个类似的幻数: 1.5 × 2 23 。
原文由 Yu Hao 发布,翻译遵循 CC BY-SA 4.0 许可协议
double
浮点类型的值表示如下:它可以看作是两个 32 位整数;现在,
int
包含在您的代码的所有版本中(假设它是 32 位int
)是图中右侧的那个,所以您在end 只是取尾数的最低 32 位。现在,到神奇的数字;正如您所说, 6755399441055744 是 2 51 + 2 52 ;添加这样一个数字会强制
double
进入 2 52和 2 53之间的“甜蜜范围”,正如 维基百科所解释的那样,它有一个有趣的属性:这是因为尾数是 52 位宽。
关于添加 2 51 + 2 52的另一个有趣的事实是,它只影响尾数的两个最高位——无论如何都会被丢弃,因为我们只取它的最低 32 位。
最后但并非最不重要的:标志。
IEEE 754 浮点使用幅度和符号表示,而“普通”机器上的整数使用 2 的补码算法;这是如何处理的?
我们只讨论了正整数;现在假设我们正在处理由 32 位
int
表示的范围内的负数,因此(绝对值)小于(-2 31 + 1);称之为-a。通过添加幻数显然可以使这样的数字变为正数,结果值为 2 52 + 2 51 + (-a)。现在,如果我们用 2 的补码表示来解释尾数,我们会得到什么?它必须是 (2 52 + 2 51 ) 和 (−a) 的 2 补码和的结果。同样,第一项仅影响高两位,位 0-50 中剩下的是 (-a) 的 2 的补码表示(同样,减去高两位)。
由于将 2 的补码减少到更小的宽度只是通过切除左侧的额外位来完成,因此在 32 位 2 的补码算术中,取低 32 位可以正确地给出 (-a)。