性能优化技巧 - 遍历 - 集算器

【摘要】
数据分析场景中，充斥着聚合运算，常见的有求和、计数、均值、最大最小值等等，想要得到正确的结果值，遍历技术必不可少，如何更加高效地对数据进行遍历？点击：性能优化技巧 - 遍历，来乾学院一探究竟！

1. 存储方案

集文件是行存方式，组表有行存和列存两种方式。两种格式都有一定压缩效果。

首先，我们来建立一个的普通的文本文件，并在该文件中生成一些数据，代码如下：

代码1.1

代码 1.1，生成一个 txt 文件，总记录数为 1000 万，其中部分数据如图 1.1 所示。

图1.1

代码1.2

代码1.3

代码1.4

代码 1.2、1.3、1.4 分别使用代码 1.1 建立的 txt 文件，转为集文件 employee.btx、列存组表文件employee.ctx和行存组表文件employee@r.ctx，各文件大小如图 1.2 所示。

图1.2

按照文件占用的硬盘空间大小排序可以得到：txt> 行存组表 > 集文件 > 列存组表。可见，同样的数据，在不同的文件存储格式下，所占用的硬盘空间大小也不同，而文件的大小又会直接影响遍历的效率。

排序能有效提高列存组表压缩效率，重复次数多的字段排到前面。

代码1.5

代码1.5对原组表文件的level,height,weight,city列依次进行排序。

排序后的组表文件 employee_sort.ctx与原始文件employee.ctx相比，明显变小，如图1.3所示。

图1.3

2. 并行遍历

序表过滤时用 select@m 可以并行计算。

代码2.1

代码2.1 中：

A2、A5 分别是外存的串行和并行情况，耗时分别为 2742 毫秒和 828 毫秒。

A9、A12 分别是内存的串行和并行情况，耗时分别为 1162 毫秒和 470 毫秒。

集文件和组表上都可以定义多路游标实现并行遍历。列存 + 机械硬盘 + 取用列过多时多路游标不一定会更快。

代码2.2

代码2.2中：

前 3 行是集文件的并行遍历，耗时 1861 毫秒。

后 5 行是相同数据的列存组表多路游标并行遍历。耗时 2282 毫秒。

使用 fork 语句并行时，不要返回游标。游标只是定义并没有实际取数，这种并行没有意义。要在 fork 代码块中做 fetch 或 groups 等实质取数的动作才有意义。

代码2.3

代码2.3，前6行在fork代码块中完成fetch取数，然后合并结果，查询耗时865毫秒。第7行至12 行，fork 返回游标后，合并再进行 fetch 动作，耗时 1709 毫秒。

3. 过滤条件

多个条件 && 时注意书写次序，如果前面的子项为假时，后面就不会再计算了，这样把容易为假的条件项写到前面，会减少后面条件项的计算次数。

代码3.1

代码3.1：

A3 中的条件为salary < 10010 && like(name,"*d*")，前面的子项返回结果集较小，查询耗时748 毫秒。

A6 中的条件为like(name,"*d*") && salary < 10010，前面的子项返回结果集较大，查询耗时1814毫秒。

在集合中找成员时（IN 判断），避免在过滤条件中临时计算这个集合。集合成员较多时要先排序，然后用 pos@b 或 contain@b 去判断，将使用二分法。

代码3.2

在代码3.2中：

A1：取 100 个范围在 1 至 1000000 中的随机数；

A2：为确保后续测试的数据一致，将这 100 个随机数存到文件 keys.txt 中。

代码3.3

在代码3.3中：

A2：将预先准备的每个键值都乘以 10。

A5：使用 pos 函数在组表文件 employee.ctx 中找满足 A2 的成员并取出，耗时 15060 毫秒。

代码3.4

在代码3.4中：

与代码3.3 的区别在于，把代码 3.3 中 A2 的集合搬到了代码 3.4 中 A4 的 cursor 过滤条件中临时计算这个集合，执行耗时 32105 毫秒。相比代码 3.3，虽然结果一致，但耗时多了一倍，应当避免这种写法。

代码3.5

代码3.5，基于代码3.3，我们还可以再进行一些优化。

将代码3.3 的 A2 排序，得到了有序键值。

在A5 中的 pos 函数采用选项 @b，使用二分法。执行耗时 7854 毫秒，相比代码 3.3 快了将近一倍。

switch@i@d 可用于快速实现键值过滤，hash 索引常常会比二分法更有效。

代码3.6

代码3.6 中：

A5：使用switch@i过滤出满足序列A2中的数据，结果与代码3.3、代码 3.4、代码 3.5 一致，耗时为 7104 毫秒。switch函数时会自动建索引@d选项也可以实现过滤效果，这里不再单独例举。

4. 预先过滤

组表游标在创建时即可写入一些过滤条件。集算器会识别这些条件，利用组表本身的排序信息快速跳到相应的数据位置。另外，这些条件不满足时取出字段就不会被读出，可以减少对象产生次数。而已经产生了游标后再做过滤就没有这些效果了。我们来看这样一个例子。

代码4.1

代码 4.1 中：

A3 在组表游标创建时写入过滤条件 level=="one" && height<180 并且只取 city 和 sex 两列数据。

A7 在组表游标创建后，再通过 select 中的过滤条件筛选数据。

随后两者进行了相同的分组聚合运算，结果前者耗时1206 毫秒，后者耗时 4740 毫秒。

5. 游标取数

游标取数性能和每次取出的记录数相关，要做些测试，一般最好是几万行，不要一次只取一行。

代码5.1

代码 5.1 中：

代码通过遍历组表游标，获取结果，并累计每次结果的记录数。

前6行遍历过程中每次取10条记录，最终累计耗时7823毫秒。

后6行遍历过程中每次取50000条记录，最终累计耗时3923毫秒。

还可以使用 skip 函数计数，这样不必把游标数据读出产生成 java 对象。

代码5.2

代码 5.2 中：

A3 在创建组表游标时取第一列，然后取出该列数据后取得其长度。

A6 对组表游标使用 skip 函数，获取该组表记录数。

这两个单元格计算后的值都为 10000000，但前者耗时 9676 毫秒，后者耗时 6473 毫秒。

6. 遍历复用

使用管道技术可以对基于同一次遍历计算出多个结果，减少硬盘的访问。

代码6.1

代码 6.1 中：

A2、B2、C2 分别是组表游标 A1 上建立的管道，A3、B3、C3 为这三个管道定义不同筛选条件并定义取数，A6 中遍历组表游标，每次取 100000 条。A6、B6、C6 返回按前文定义的筛选条件返回的结果集。耗时 5182 毫秒。

第9 行的三个单元格没有使用管道，分别三次建立组表游标再按前文三个相同的筛选条件取出结果。耗时 12901 毫秒。（关于管道的使用，新版本中还有更优写法，代码简洁明了，欢迎各位读者自行体验集算器语法的优雅之处。）" rel="nofollow">性能优化技巧 - 遍历，来乾学院一探究竟！

性能优化技巧 - 遍历

1. 存储方案

2. 并行遍历

3. 过滤条件

4. 预先过滤

5. 游标取数

6. 遍历复用

raqsoft

引用和评论

性能优化技巧：前半有序时的排序

[250428] Nginx 1.28.0 发布：性能优化、安全增强及新特性

Java 请求合并技术：十倍提升系统性能

基于昇腾工具的Resnet50模型性能调优方法

Java 中的 Integer 缓存池：背后的性能优化机制解析

技术分享 | Oracle SQL优化案例一则

基于DOTS的大批量骨骼动画方案及实现