集算器 - SegmentFault 思否

微服务快速开发案例

2019-08-07

阅读 1 分钟

1.7k

【摘要】鉴于热更新、松耦合、语言无关等特性，微服务已广泛应用于互联网行业。但也带来了新问题：框架更复杂、开发周期更长、维护更困难。点击《微服务快速开发案例》，去乾学院看看集算器如何解决矛盾，大幅提高微服务的开发效率! 本文是真实案例，预计阅读时间 3 分钟。

解决 Jasper 等报表工具制作报表中的几个难题

raqsoft

2019-07-23

阅读 3 分钟

2.2k

在制作业务报表时，经常会遇到一些单独依靠报表工具难以解决的问题。本文将针对几个 Jasper 报表工具用户在国外论坛中提出的现实问题，介绍如何用集算器 SPL 语言加以解决的方案。这里的解决方案其实并不仅适用于 Jasper，对其它报表工具也同样适用。

SPL 简化 SQL 案例详解：分组关联

raqsoft

2019-07-23

阅读 4 分钟

915

在数据库应用开发中，我们经常需要面对复杂的SQL式计算，比如多层分组中的关联计算。在SQL中，分组必须同时进行汇总计算，并且不能进行对象式关联访问，因此处理这类问题会比较复杂，只能用窗口函数嵌套多层子查询这类高级技巧来实现。而本文要介绍的SPL能够支持真正的分组，进行直观的对象式关联访问，从而解决这类问题...

mongodb 分组 topN

raqsoft

2019-07-23

阅读 2 分钟

1.2k

【摘要】MongoDB 对于 TopN 功能的需求使用其 shell 脚本来实现有些复杂，而集算器 SPL 语言，则因其离散性、灵活性恰好能弥补 MongoDB 实现方面的不足。若想了解更多，请前往乾学院：mongodb 分组 topN!

SPL 简化 SQL 案例详解：多级关联

raqsoft

2019-07-23

阅读 4 分钟

1.2k

在数据库应用开发中，我们经常需要面对复杂的SQL式计算，多级关联就是其中一种。SQL的join语句比较抽象，只适合表达简单的关联关系，一旦关联的层级较多，相应的代码就会变得非常复杂。而SPL则可以利用对象引用来表达关联关系，从而使代码更加直观，下面就用一个例子来加以说明。

SPL 分组优化技巧

raqsoft

2019-07-23

阅读 4 分钟

1.2k

1. 常规分组当分组聚合的结果集不大时，可以使用groups。例如有学生成绩表存储在集文件中，表结构如下：现在计算每个学生的总分数： A1：成绩表的数据装入内存。 A2：按照studentID字段分组，计算总分。如果成绩表数据太大，无法装入内存，则可以用游标方式： A1：得到成绩表的游标。 A2：按照studentID字段分组...

解决 Birt 等报表工具制作报表的几个难题

raqsoft

2019-07-23

阅读 4 分钟

1.4k

在上一篇《Birt 如何实现不规则月份统计》中，我们讲解了如何帮助 Birt 制作这种报表的详细过程，在本文中我们再继续讨论几个类似的制作难题，并把说明集中在如何编写集算器 SPL 脚本上，不再赘述如何在 Birt 中引入 SPL 的步骤了。

比较 csv 文件中数据差异

raqsoft

2019-07-23

阅读 2 分钟

1.8k

csv文件存储数据时在结构上基本和一个数据库表相当，不过因为读写方便，所以使用频率很高，例如输出一些临时结果，或者持续记录类似日志形式的数据。不过，当需要对这些数据进一步处理时，如果还要先导入数据库，那么csv本身的便利性也就没有了。

SPL 的集合思维

raqsoft

2019-07-05

阅读 12 分钟

和传统的程序设计语言不同，SPL中集合的应用非常普遍，实际上最常见的序列和序表等本质上都是集合，可以对它们进行真正的集合运算，从而大幅度提高开发效率和代码性能。因此，在使用SPL时，需要特别重视对集合概念的理解。

Birt 如何实现不规则月份统计

raqsoft

2019-07-05

阅读 2 分钟

699

业务报表中，常常需要基于时间段进行分组统计，特别是按月份分组统计。一般情况如果按自然月就简单了，但有时候也会需要按不规则月份来分组。例如，某企业从 1 月 16 日开始实行某种特殊的价格策略或营销活动，因此以后都想以每月 16 号为界来统计产品销售情况。这里所谓不规则月份就是指：如果起始时间是 2013-01-16，...

提效报表开发的通用工具

raqsoft

2019-07-05

阅读 1 分钟

934

报表是很多 web 应用系统不可缺少的模块，仍然是绝大多数 BI 项目的基础功能。随着数据时代的到来，数据来源越来越多样 (text,excel,monogdb,redis,es…)，为报表数据准备带来了挑战，传统做法还是先将库外数据到数据库里，再利用数据库的计算能力（写 SQL 或存储过程）为报表准备数据。因依赖前置导入，报表实时性得不到...

SAP 系统大数据量资产负债表的性能优化案例

raqsoft

2019-07-05

阅读 1 分钟

1.1k

【摘要】有了固定报表工具之后，这类格式复杂、指标参数任意组合的需求并不难实现，只是原始数据量一大，查询就会非常慢，用户体验变的极差，当多并发请求时，甚至还会对正常业务产生影响！而集算器面对这类问题，却是一把好刀！赶快去乾学院看个究竟吧！SAP 系统大数据量资产负债表的性能优化案例

集算器多维分析服务器方案

raqsoft

2019-07-05

阅读 2 分钟

887

【摘要】随着数据量的增加，用普通数据库作为多维分析服务器的响应速度越来越差，用户等待时间越来越长。如果采用预汇总方案提速，又需要巨大的存储空间而且存在很多功能盲区。点击集算器多维分析服务器方案，去乾学院看看集算器多维分析服务方案如何解决这些问题！预计阅读时间 5 分钟。

高性能数据仓库

raqsoft

2019-07-05

阅读 3 分钟

作为高性能计算数据仓库，SPL Server 可以在离线跑批、在线查询、多维分析和内存计算 4 个方面提供高效的计算输出，帮助用户解决由于性能带来的这些问题： 1. 半夜跑批跑不完，出错了来不及再来； 2. 看个报表等 10 分钟，业务人员拍桌子； 3. 关联统计运算慢，界面拖拽迟钝；预汇总方案占用空间太大且功能盲区多； 4. ...

测试环境说明 CPU：4颗，主频2.6G，每个CPU内核数8个。硬盘：800G，15000转SAS硬盘，理论读写速度150m/s。内存：64G。操作系统：Linux cent os 6 SQL1 {代码...} LineItem表原始数据大小为79.6G（文本格式），数据行数600037902。 Oracle空间文件大小为200G，lineItem表数据导入时间20个小时。 SQL运行时间为637秒。 ...

性能优化技巧 - 遍历

raqsoft

2019-06-14

阅读 5 分钟

1.4k

【摘要】数据分析场景中，充斥着聚合运算，常见的有求和、计数、均值、最大最小值等等，想要得到正确的结果值，遍历技术必不可少，如何更加高效地对数据进行遍历？点击：性能优化技巧 - 遍历，来乾学院一探究竟！

集算器实现外部数据并行计算

raqsoft

2019-06-14

阅读 3 分钟

1.2k

SPL可将文本文件按体积大致分为N段，只读取其中一段。比如cardInfo.txt存储着一千万条人口信息，将其分为十份，取第二份，代码可以写作：

用集算器更新数据库的技巧

raqsoft

2019-06-14

阅读 2 分钟

920

比如，source和target是两个不同的数据源，callrecordA是source中的物理表，有1万条记录，callrecordB是target中的物理表，无记录，现在需要将callrecordA中的数据同步到callrecordB中。

利用集算器实现分库汇总

raqsoft

2019-06-14

阅读 2 分钟

996

当单台数据库的数据量太大而影响性能时，可以把数据拆分到多台服务器上，每台服务器只承担部分计算压力，再由SPL合并计算结果。特殊地，数据可拆分为历史数据库和当前实时数据库，由SPL实现T+0计算。下面用几个典型例子来说明分库汇总的用法。

SPL 简化 SQL 案例详解：多层固定分组

raqsoft

2019-06-14

阅读 3 分钟

1.5k

在数据库应用开发中，我们经常需要面对各种复杂的SQL计算，多层固定分组就是其中一种。实现该算法的思路是用left join语句将源数据按照固定的依据对齐，但由于该算法往往涉及分组汇总、行间计算、填补缺失数据，而且层次较多，因此相应的SQL语句会非常复杂。

esproc vs python 6

raqsoft

2019-06-14

阅读 7 分钟

765

本节在数据量比较大的情况下，对比esproc和python。数据量：7000多条万记录，5个字段分别是orderid，clientid，sellerid，amount，date。总大小超过3G。 1. 筛选8月份的交易记录 esproc A2：f.cursor() 根据文件f创建游标并返回，数据扫描完将自动关闭游标。@t, f中第一行记录作为字段名,不使用本选项时默认使用_1，_2,...

新一代内存计算引擎

raqsoft

2019-06-14

阅读 2 分钟

2.3k

【摘要】内存计算的本质就是为了高性能 (包括一定的高并发)，以此应对实时查询等问题！当前技术手段要么太贵、要么体系沉重；而集算器不仅算的更快，且体积更小、更轻！同时具备高度的集成性与灵活性！赶快去乾学院看个究竟吧！新一代内存计算引擎

SPL 代码优化技巧

raqsoft

2019-05-13

阅读 5 分钟

SPL是一种面向结构化数据计算的程序设计语言，集算器是SPL语言的java实现，采用网格式编程形式提供了编码和调试的IDE环境，语法比Java和SQL更为简单易懂，开发效率更高。本文将从集算器的实现原理出发列举一些可以提升计算性能的小技巧。

esproc vs python 5

raqsoft

2019-05-13

阅读 14 分钟

1.1k

1. 列出分期贷款明细题目介绍：loan 表存储着贷款信息，包括贷款 ID，贷款总额、按月分期数、年利率。数据如下：我们的目的是列出各期明细，包括：当期还款额、当期利息、当期本金、剩余本金。 esproc A3：T.derive()新增两列月利率mRate=年利率/12,每期还款数mPayment=总利息/((1+月利率)的期数次幂)-1 A4：A.news(X;...

性能优化技巧 - 查找

raqsoft

2019-05-13

阅读 10 分钟

935

【摘要】日常生活中，我们会遇到各种各样的数据，小到公司通讯录，大到互联网用户行为分析。在进行数据分析处理的过程中，查询是必不可少的环节，如何更加高效地进行数据查询。点击：性能优化技巧 - 查询，来乾学院一探究竟！SPL为用户提供了强大的索引机制以及针对不同场景中各对象的查询函数，善加运用，可以显著提高...