解释了一种将双精度数舍入为 32 位整数的快速方法

Question

新手上路，请多包涵

在阅读 Lua 的源代码时，我注意到 Lua 使用宏将 double 值舍入为 32 位 int 值。该宏定义在 Llimits.h 头文件中，内容如下：

 union i_cast {double d; int i[2]};
#define double2int(i, d, t) \
    {volatile union i_cast u; u.d = (d) + 6755399441055744.0; \
    (i) = (t)u.i[ENDIANLOC];}

这里 ENDIANLOC 是根据字节序定义的：0代表小端，1代表大端架构； Lua 小心地处理字节序。 t 参数被替换为整数类型，如 int 或 unsigned int 。

我做了一些研究，发现该宏有一种更简单的格式，它使用相同的技术：

 #define double2int(i, d) \
    {double t = ((d) + 6755399441055744.0); i = *((int *)(&t));}

或者，在 C++ 风格中：

 inline int double2int(double d)
{
    d += 6755399441055744.0;
    return reinterpret_cast<int&>(d);
}

这个技巧可以在任何使用 IEEE 754 的机器上运行（这意味着今天几乎每台机器）。它适用于正数和负数，并且四舍五入遵循银行家规则。（这并不奇怪，因为它遵循 IEEE 754。）

我写了一个小程序来测试它：

 int main()
{
    double d = -12345678.9;
    int i;
    double2int(i, d)
    printf("%d\n", i);
    return 0;
}

它按预期输出 -12345679 。

我想详细了解这个棘手的宏是如何工作的。幻数 6755399441055744.0 实际上是 2 51 + 2 52 ，或 1.5 × 2 52 ，二进制的 1.5 可以表示为 1.1。当任何 32 位整数与这个幻数相加时——

好吧，我从这里迷路了。 这个技巧是如何工作的？

更新

正如@Mysticial 指出的那样，这种方法并不局限于32位 int ，它也可以扩展到64位 int 只要数字在范围为 2 52 。（虽然宏需要一些修改。）
有些资料说这种方法不能在 Direct3D 中使用。
使用 Microsoft assembler for x86 时，有一个用汇编代码编写的更快的宏（以下也是从 Lua 源代码中提取的）：

     #define double2int(i,n)  __asm {__asm fld n   __asm fistp i}

单精度数有一个类似的幻数： 1.5 × 2 23 。

原文由 Yu Hao 发布，翻译遵循 CC BY-SA 4.0 许可协议

c++c performance floating-point

阅读 769

1 个回答

得票最新

社区维基

1

发布于
2022-11-08

✓ 已被采纳

double 浮点类型的值表示如下：

双重代表

它可以看作是两个 32 位整数；现在， int 包含在您的代码的所有版本中（假设它是 32 位 int ）是图中右侧的那个，所以您在end 只是取尾数的最低 32 位。

现在，到神奇的数字；正如您所说， 6755399441055744 是 2 51 + 2 52 ；添加这样一个数字会强制 double 进入 2 52和 2 53之间的“甜蜜范围”，正如维基百科所解释的那样，它有一个有趣的属性：

在 2 52 = 4,503,599,627,370,496 和 2 53 = 9,007,199,254,740,992 之间，可表示的数字恰好是整数。

这是因为尾数是 52 位宽。

关于添加 2 51 + 2 52的另一个有趣的事实是，它只影响尾数的两个最高位——无论如何都会被丢弃，因为我们只取它的最低 32 位。

最后但并非最不重要的：标志。

IEEE 754 浮点使用幅度和符号表示，而“普通”机器上的整数使用 2 的补码算法；这是如何处理的？

我们只讨论了正整数；现在假设我们正在处理由 32 位 int 表示的范围内的负数，因此（绝对值）小于（-2 31 + 1）；称之为-a。通过添加幻数显然可以使这样的数字变为正数，结果值为 2 52 + 2 51 + (-a)。

现在，如果我们用 2 的补码表示来解释尾数，我们会得到什么？它必须是 (2 52 + 2 51 ) 和 (−a) 的 2 补码和的结果。同样，第一项仅影响高两位，位 0-50 中剩下的是 (-a) 的 2 的补码表示（同样，减去高两位）。

由于将 2 的补码减少到更小的宽度只是通过切除左侧的额外位来完成，因此在 32 位 2 的补码算术中，取低 32 位可以正确地给出 (-a)。

原文由 Matteo Italia 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

解释了一种将双精度数舍入为 32 位整数的快速方法

更新

你尚未登录，登录后可以

c++模板类链表链接错误？

c++98环境循环单链表类的私有结构体与引用其的成员函数顺序问题？

头文件保护为什么报warring?

请问下这种数据结构怎么选择?

为什么我的这个std::sort会排序数组之外的一个元素?

我希望能让自己设计的qt界面更美观,更有条理,应该看哪些书/学哪些技术?

员工电脑装了公司内部的证书，那么通过公共wifi可以拦截并解密用户的微信信息吗？

Stack Overflow 翻译