性能优化技巧:TopN

2020-03-03
阅读 3 分钟
911
TopN是常见的运算,用SQL写出来是这样(以Oracle为例):        select from (select from T order by x desc) where rownum<=N 这个SQL的运算逻辑从其语句上看,要先做排序(Order by),然后再取出前N条。

性能优化技巧:遍历复用提速多次分组

2020-03-03
阅读 2 分钟
744
我们知道,大数据运算性能的瓶颈常常是在外存(也就是硬盘)IO上,因为外存访问性能要比内存低一两个数量级。因此,做性能优化时,减少硬盘的访问量有时要比减少CPU计算量更为重要。同一个任务,如果能使用硬盘访问量更少的算法,即使CPU计算量不变甚至略多一点,也会获得更好的性能。

大数据下大批量随机键值的查询

2020-03-03
阅读 3 分钟
1k
【摘要】键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 logN 次,10 亿行数据也只要比较 30 次(10 亿约等于 2^30),在现代计算机上也只需要数十毫秒而已。不过,如果需要查询的键值很多,比如多达几千甚...

并行取数提升数据读取性能

2020-03-03
阅读 3 分钟
1.4k
通过 JDBC 从数据库取数往往性能较低,通过并行方式可以加快取数效率。但并行程序比较难写,要考虑的因素很多。这里我们介绍一种非常简单地并行取数方式,简单几行脚本即可实现并行取数,提升数据读取性能。视频网址:[链接]

复杂计算之多层递归案例

2020-03-03
阅读 2 分钟
1.2k
【摘要】石油化工行业,经常要构造特殊中间表,以物料、时间、指标名等为参数,查询出对应层级的指标值!由于前端报表模块已经定型,用户不希望再改变,所以只能按照数据库的思路造出这种中间数据集以适用于报表;但事先不能确定维度及其层次的深度,导致 SQL 很难写 (往往用上百行代码才实现一种类型的算法)。总结一下...

协助报表开发之 MongoDB join mysql

2020-03-03
阅读 3 分钟
1.1k
集算器 SPL 语言支持处理多样性数据源,通过 SPL 对 MongoDB 集合与 MySql 表进行 join 关联,不仅简化了对 MongoDB 数据的操作,而且有利于与其它报表工具的方便集成。若想了解更多,请前往乾学院:协助报表开发之 MongoDB join mysql!

协助报表开发之 MongoDB join

2020-03-03
阅读 3 分钟
1.3k
【摘要】      集算器 SPL 语言支持多样性数据源,通过 SPL 对 MongoDB 多个集合进行 join 关联,不仅简化了对 MongoDB 数据的操作,而且有利于与其它报表工具的方便集成。若想了解更多,请前往乾学院:协助报表开发之 MongoDB join!处理多样性数据源是报表开发中的常见问题,而常见的 JasperReport 等报表工具本身却难...

将 MongoDB 导出成 csv

2020-02-07
阅读 2 分钟
2k
将 Mongodb 数据结构转换成结构化的数据需求,我们可利用集算器 SPL 语言来进行辅助实现。若想了解更多,请前往乾学院:将 MongoDB 导出成 csv!来源:[链接]        Mongodb 可以存储非结构化数据,尤其擅长存储 json 格式的数据。对于习惯于数据库表结构的用户或需要使用结构化数据的用户来说,往往希望能将非结构化的...

协助 mongodb 计算之数位比较

2020-02-07
阅读 2 分钟
754
编写数位比较这类集合式运算,用 Mongodb 脚本或 Java 等高级语言来实现都比较麻烦,但可以利用集算器 SPL 语言来进行辅助实现。若想了解更多,请前往乾学院:协助 mongodb 计算之数位比较!

协助 MongoDB 计算之交叉汇总

2020-02-07
阅读 3 分钟
742
【摘要】      交叉汇总作为数据统计的一种分类统计计算,用 MongoDB 实现比较困难,但可以利用集算器 SPL 语言来进行辅助实现。若想了解更多,请前往乾学院:协助 MongoDB 计算之交叉汇总!

SPL 实现自动建模和预测

2020-02-07
阅读 2 分钟
863
SPL 实现自动建模和预测.pdf

产权交易所解析 HTML 与计算案例

2020-02-07
阅读 2 分钟
671
【摘要】随着某产权交易所的业务发展,内部产生了大量的交易数据(如:交易的标的、价格、目前交易的阶段等),这对于参与交易的相关单位非常具有参考价值!同样地,其它地区的交易所也含有很多类似的重要数据,该交易所希望整合这些外部的公开数据,与自身数据相结合,对外提供完整的交易数据服务!然而常见的方案是增...

集算器教案汇总

2020-02-07
阅读 1 分钟
822
更新于 20191216 思维方式 SPL 教案 - 集合 集合运算、集合化与离散性、集合的泛型性、集合上的循环、聚合理解 SPL 教案 - 有序 有序集合、有序循环、迭代函数、定位计算、排序与对齐 SPL 教案 - 分组 分组子集、有序分组、有序聚合、枚举分组、逆分组 SPL 教案 - 连接 连接的理解、外键表、同维主子表、非等值连接、SQL...

分库后的统计查询

2020-02-07
阅读 5 分钟
2.3k
【摘要】随着数据量增大,数据库性能明显降低,这时会考虑分库方案(把原来一个库中的数据按一定规则分摊到多个库中)。从而分摊单库压力,来缓解当下的性能问题。可谓分库一时爽,一直分库一直爽。但是当需要运算的内容来自这些分库时,又会带来新的难题:计算不能直接使用 SQL;异构库 SQL 函数不尽相同;JAVA 硬编码...

从数据整理到业务计算的最佳工具

2020-01-09
阅读 3 分钟
885
数据整理是为业务人员进一步分析数据或进入 BI 系统前最重要的环节。随着数据时代的到来,数据来源越来越多样 (文件、大数据平台、数据库…),为数据整理带来了很多挑战。在企业里数据通常是由 IT 人员负责,统一组织数据抽取、数据变换和加载数仓的流程,即 ETL,之后再提供给业务人员或可视化系统,数据从 Raw Stage 到...

OGG 增量采集数据入库

2020-01-09
阅读 3 分钟
1.3k
ogg 增量采集数据入库.pdf

敏捷数据计算引擎

2020-01-09
阅读 2 分钟
962
集算器作为敏捷数据计算引擎,可以在报表数据源、JAVA 计算层、离线自由计算 3 个方面提供高效的计算输出,帮助用户解决由于开发效率低,描述业务难等这些问题:1、为报表准备数据的 SQL 长达数 K,写起来难,维护更难2、数据量大,报表呈现太慢,搞不好还溢出,用户抱怨3、Java 计算太繁琐,随便写个过滤分组都要数百行...

报表数据源

2020-01-09
阅读 3 分钟
774
* 延展阅读:报表后端的计算神器 【下载附件】报表数据源

离线自由计算

2020-01-09
阅读 2 分钟
812
【下载附件】离线自由计算

C# 如何调用 SPL 脚本

2020-01-09
阅读 11 分钟
1.1k
使用集算器 ODBC,首先客户端需要安装 ODBC 驱动,在集算器安装路径下的 bin 目录中,用管理员权限执行 esprocOdbcinst.exe,即可安装集算器 ODBC 的驱动程序。

【友乾营第十二期】存储过程的得与失

2020-01-09
阅读 2 分钟
703
使用存储过程可以完成复杂逻辑控制,但存储过程难以调试和扩展,无法移植,所以越来越多被禁止使用。在应用端硬编码可以有效替代存储过程,但复杂度太高。通过集算器脚本可以完全替代存储过程,实现简单。

性能优化教案 - 多维分析

2019-12-24
阅读 3 分钟
693

SPL 教案——游标

2019-12-24
阅读 3 分钟
995
SPL 教案——游标.pdf

集算器文件计算示例汇总

2019-12-24
阅读 1 分钟
1.6k
更新于 20191216 计算示例 文本计算:比较 csv 文件中数据差异 文本计算:文本导出的方方面面 快速导出、追加导出、计算列导出、大量数据游标导出、工资表实例 文本计算:多行日志合并处理 文本计算:在数据文件使用 SQL 文本计算:结构化日志 SQL 查询 文本计算:结构化文本综合示例一 数据增删改、多层关联、文件比较...

集算器优化 SQL 示例汇总

2019-12-24
阅读 1 分钟
876
更新于 20191216 优化 SQL 难点解决:直观分组 示例详解:对位分组、枚举分组 难点解决:序列生成 整数序列、日期序列、工作日序列、序列转表 难点解决:集合及行号 和集、差集、交集、用位置求集合、用条件求位置、最值位置、有序对位计算 难点解决:记录的引用 一次取数后反复引用结果集能大幅提升报表性能 难点解决:...

集算器协助报表实战大全

2019-12-24
阅读 2 分钟
1.3k
更新于 20191216 提效开发 如何处理报表中的舍位平衡 单向舍位平衡、双向舍位平衡 简易且通用的行列转置 行转列、列转行、双向转置、动态列转置、转置 & 列间计算 最简代码实现分库汇总 分库汇总代码示例:多数据源连接、并行执行、有序合并、二次汇总 跨库表运算经验汇总 跨库的合并运算、聚合运算、分组运算、关联...

集算器高性能计算汇总

2019-12-24
阅读 1 分钟
1.3k
更新于 20191216 技术方案 高性能计算数据库 - 在线计算 高性能计算数据库 - 离线跑批 高性能计算数据库 - 多维分析 高性能计算数据库 - 内存数据库 New! 高性能计算数据库 - 文件型数仓 New! 优化实例 车险往年保单关联计算的性能优化 多层科目任意组合汇总报表的性能优化 用计算路由的方法优化 BI 后台性能 超大数据下...

性能优化之连接运算

2019-12-24
阅读 5 分钟
1.1k
【下载附件】性能优化之连接运算

SPL 简化 SQL 案例详解:竖排多层数据

2019-12-05
阅读 2 分钟
1k
此类需求常见于为报表整理数据,对于SQL来说,属于比较复杂的计算。因为SQL缺少有序集合的机制,需要对分组和明细分别设置用于排序的计算列,再将分组和明细合并,最后做排序。为了实现这种算法,SQL往往要用非ansi标准的特殊函数去实现,代码比较难写,也不易理解。如果需要对层级更多的分组进行拼凑,将更加难以实现。

集算器技术方案

2019-12-05
阅读 4 分钟
1.2k
更新于 20190927 降费提速 A. 高性能在线计算 B. 高性能离线跑批 C. 高性能多维分析 省时提效 D. 报表数据源 E. Java 计算 F. 数据整理 G. 中台应用 H.数据微服务 I.边缘计算 舍我其谁 J. 跨库计算 K. 多样数据源 L. 算法外置 M. 临时计算 []([链接]高性能在线计算 【方案说明】海量数据下的高并发查询、多维分析、自助...