集算器 - SegmentFault 思否

esproc vs python 4

2019-04-28

阅读 13 分钟

1.4k

1.计算每年同月份增长比 esproc A3：用ORDERDATE的年份和月份分组，并将该列命名为y，m，同时计算该组的销售量 group()函数分组但不汇总，groups分组同时汇总。 A4：按照月份m进行排序 A5:新增一列，如果月份等于前一行的月份，则计算增长比并赋值，否则赋值null，将该列命名为yoy。 python： import time import numpy ...

SPL 关联优化技巧

2019-04-28

阅读 4 分钟

1k

1. 小维表用SPL进行关联，当维表不大时可以读入内存。 1.1 单字段主键如果维表是单字段主键，可以使用switch做连接。例如有订单、客户、雇员三个表存储在集文件中，表结构如下：现在把订单表和客户表、雇员表进行关联： A1：订单表数据很多，所以用游标。 A2：客户表数据少，全部装入内存，并且建...

趣味集算：数独

2019-04-10

阅读 2 分钟

999

在9*9的格子中，已经填入了一些数，你所要做的就是把其余的格子中全部填入1~9的数，使得每一横行，每一竖行，以及粗线所包围的9个九宫格中，1~9这些数字全部只出现一次。

体系结构方案 - 大清单报表

2019-04-10

阅读 1 分钟

861

【摘要】一般的报表工具或 BI 系统都是怎么实现大清单报表的呢？•数据全部读出，直接报表呈现•游标方式逐步读入呈现•使用数据库的分页机制按页读出传统模式实现问题：1）全量读模式，全部读出耗时太长，用户体验恶劣；全内存计算的报表可能溢出。2）游标读模式，只能向后翻页。3）分页读模式，初始响应慢，翻页慢；可能...

性能优化技巧 - 集群维表

2019-04-09

阅读 2 分钟

804

事实表和维表进行关联计算时，需要对维表进行频繁的随机访问，因此维表要尽量放在内存中，才能提高关联计算的性能。如果维表较大，单机内存放不下，就应该考虑用集群方式，将维表分段读入多台机器的内存。下面举例说明集群维表的用法。

性能优化技巧 - 内存关联计算

2019-04-09

阅读 2 分钟

940

关联动作会严重影响性能，SPL支持内存预关联，可以加快关联动作，从而提升性能。为了理解关联动作对性能的影响，下面设计一套Oracle关联表，以及无关联的宽表，并执行同样的计算。关联表的结构和关系如下：数据量：通话记录表（百万条）、用户表（十万条）、开户网点...

性能优化技巧 - 程序游标

2019-04-09

阅读 2 分钟

802

很多算法都会产生落地的中间结果，从而影响性能，尤其是数据量较大的时候。这种情况下通常可用程序游标来避免数据落地，下面举例说明。前半排序计算目标：订单表原来已按时间排序，需要将数据按日期、产品去除重复，再统计记录条数。由于去重后结果集较大，内存放不下，因此一般会用groupx去重，SPL脚本如下：但函数...

性能优化技巧 - 位置利用

2019-04-09

阅读 4 分钟

809

PerformanceRanking.txt有三个字段，分别是empID(销售员编号)、dep(部门名称)、amount（销售额）。该文件记录着各部门各销售员本季度的业绩排名，已按销售额逆序存放，现在需根据指定的销售员ID，计算出：他应当再增加多少销售额，才能提高业绩排名。如果该员工已经是第1名，则无需增加销售额。

esproc vs python 2 简单计算

2019-03-20

阅读 9 分钟

966

A4：我们用T表示序表。T.derive（）表示增加字段。这里用age(日期)计算出年龄，作为Age字段。用NAME,SURNAME得到Fullname。

esproc vs python 1 增删改查

2019-03-20

阅读 6 分钟

1.2k

1. 增加记录：在第二的位置增加一条记录 esproc A4：添加一条记录（“:”前表示字段值，“:”后表示字段），其中2表示第二条记录的位置 A5：计算运算时间（interval()：计算时间间隔。@ms表示以毫秒为单位） python： import time import pandas as pd import datetime import numpy as np import random s=time.time() data...

SQL 难点解决：特殊示例

2019-03-20

阅读 5 分钟

969

【摘要】这一节我们对 SQL 和集算器 SPL 在序列值查找、分栏、动态行、动态列、指定序排序等方面进行了对比，如果需要了解更多，请前往乾学院：SQL 难点解决：特殊示例!1、列出中文人口和英文人口均达到 1% 的国家代码

银行业多用户大数据量自助分析提速方案

2019-03-20

阅读 1 分钟

1.2k

【摘要】银行自助分析系统用户多，数据量大，系统速度还要求飞快。与此同时，后台数据仓库却已经负担了太多的应用，无法为大量连接提供高性能查询。点击银行业多用户大数据量自助分析提速方案，去乾学院看看集算器如何解决这个矛盾，为自助分析提速! 本文是真实案例，预计阅读时间 3 分钟。

Excel 行列转换的最简方法

2019-03-20

阅读 5 分钟

2.5k

在工作中时常会遇到对 Excel 表格的处理。当编辑一张 Excel 表格时，发现表格的列数太多，而行数较少，为方便打印，这时你或许会希望将该表格行列转换；或许是为了做进一步做统计分析，当前格式不太方便，这时也会用到行列转换。

SPL 排序优化技巧

2019-03-20

阅读 5 分钟

1.2k

【摘要】排序计算是一个非常消耗资源的操作，特别是对于大数据排序，如果内存无法装下数据，常规的做法就需要借助外存，不过因此也会增加对数据的读写操作，而读写操作通常又会比排序操作更消耗资源。让我们一起去乾学院看个究竟吧：SPL 排序优化技巧本文介绍的SPL排序优化技巧，除了提供常规的排序算...

体系结构方案 -ETL 中间件

2019-03-20

阅读 1 分钟

1.3k

【摘要】 ETL 常常做成 ELT 甚至 LET！这样做带来的恶果是：1）数据库臃肿、负担重，数据管理混乱；2）性能低下，时间成本高（数据库写入很慢），影响 ETL 窗口时间。解决方案: 引入库外计算引擎 - 集算器，直接计算多样数据源，不依赖于数据库，真正做成 ETL。集算器是一种擅长处理复杂的 ETL 过程的中间件，不用再硬...

Java 专业数据计算包

2019-03-11

阅读 2 分钟

933

Java 是当前最为主流的企业应用开发语言，而开发企业应用又不可能不与数据、数据库打交道。虽然数据库提供了比较丰富的数据计算功能，但是还是会有很多情况下，需要在 Java 代码中对数据进行计算处理。Java 本身并没有提供数据计算方面的 JAR 包，因此在 Java 中实现数据计算从来都不是省时省力的工作。而润乾集算器的出...

保险行业历史保单关联业务跑批性能优化

2019-03-11

阅读 1 分钟

1.1k

【摘要】某省车险每天新增保单 1-2 万，三年历史保单 2 亿条数据。跑批时要计算新增保单对应的历史保单，计算复杂、数据量大、耗时很长。点击保险行业历史保单关联业务跑批性能优化，去乾学院看看集算器如何比存储过程提速 6.5 倍! 本文是真实案例，预计阅读时间 3 分钟。

Java 搞定 SQL 集合运算的最简方法

2019-03-11

阅读 8 分钟

2k

作为 java 程序员，用代码直接实现类似 SQL 中的交并补差的集合运算，总是要编写大量的代码，如果能有一个专门的外部数据工具，通过写简单类似 SQL 的脚本来实现，在 java 中直接调用并可以返回结果集，就再好不过了。Java 版集算器正是解决这一难题的神器，通过 SPL 脚本可以直观自然得写出运算，再使用 java 调用 SPL ...

复杂 Excel 表格导入导出的最简方法

2019-03-11

阅读 8 分钟

2k

把 Excel 文件导入关系数据库是数据分析业务中经常要做的事情，但许多 Excel 文件的格式并不规整，需要事先将其中的数据结构化后再用 SQL 语句写入数据库。JAVA程序猿经常选择使用POI或者HSSFWorkbook等第三方类库来实现，通常都要硬编码，如果碰到格式复杂的表格，解析工作量还会成倍增加，Java没有表格对象，总要利用...

应用结构：可编程数据网关

2019-03-11

阅读 1 分钟

932

访问多个异构数据源是大型企业应用软件非常常见的需求，人们也开发出了很多办法试图解决这个困难问题，但是这些办法往往都只是对某一种特定的场景，一直都没有异构特别理想的通用解决方案。今天，我们借鉴网络路由技术的思路，提出了一种全新的基于集算器的可编程数据网关解决方案，相对完美低解决了这个问题。

体系结构方案 - 文件型数据仓库 / 集市

2019-03-11

阅读 1 分钟

1.5k

【摘要】传统关系型数据仓库的问题包括：成本高、计算封闭、性能差、管理难。那么，关系数据仓库问题多，为什么还要用呢？为什么不直接使用文件系统存储？我们为什么需要一种文件型数据仓库 / 集市！！！去乾学院看个究竟吧！体系结构方案 - 文件型数据仓库 / 集市

利用有序高效实施交并差集合运算

2019-03-08

阅读 5 分钟

1.6k

【摘要】看起来很简单的集合运算放在大数据的场景下，如果还想获得高性能就需要充分了解数据特征和计算特征才能设计出高效算法。充分利用序运算就是一种好办法！不妨去乾学院看看：利用有序高效实施交并差集合运算

报表性能优化

2019-02-20

阅读 2 分钟

1.6k

【摘要】报表性能对用户的影响十分恶劣，所有用户查报表时都希望立等可取，超过 5 秒钟用户就会很不满意，更别提要求毫秒级响应的情况了。引起报表性能的原因有很多（数据量大、计算复杂、报表格式混乱），绝大部分是因为计算引起的，如果能将展现的数据能快速准备好，呈现的速度是飞快的！因此，解决报表性能问题的关键...

MongoDB 分组统计

2019-02-18

阅读 6 分钟

2.8k

【摘要】 MongoDB 在进行分组统计时如果面对一些比较复杂的计算情况，往往会遇到 shell 脚本过于复杂的问题。而集算器 SPL 语言，则因其有丰富的函数库及易用性恰好能弥补 Mongo 这方面的不足。若想了解更多，请前往乾学院：MongoDB 分组统计!MongoDB 作为 NoSql 文档型数据库，在全球范围得到广泛的支持与应用。...

大主子表关联的性能优化方法

2019-02-18

阅读 7 分钟

2.3k

【摘要】主子表是数据库最常见的关联关系之一，最典型的包括合同和合同条款、订单和订单明细、保险保单和保单明细、银行账户和账户流水、电商用户和订单、电信账户和计费清单或流量详单。当主子表的数据量较大时，关联计算的性能将急剧降低，在增加服务器负载的同时严重影响用户体验。作为面向过程的结构化数据计算语言...

优化体系结构 - 数据外置减少中间表

2019-02-18

阅读 1 分钟

1.4k

【摘要】由于数据量或计算复杂度原因，经常需要在数据库中创建中间表，但中间表会带来很多问题！若采用专业的数据计算引擎，又会带来怎样的好处呢？去乾学院看个究竟吧！优化体系结构 - 数据外置减少中间表

优化体系结构 - 解决多样性数据源

2019-02-18

阅读 1 分钟

1.3k

【摘要】多样性数据源普遍存在，且本身没有计算能力，常规手段总是需要建设专门的数据仓库及 ETL 转入工作，增加额外工作量，且实时性也不好。若采用专业的数据计算引擎，这些不足将迎刃而解！去乾学院看个究竟吧！优化体系结构 - 解决多样性数据源

优化体系结构 - 混合运算实现 T+0查询

2019-02-18

阅读 1 分钟

1.6k

【摘要】基于数据库系统的 T+0 全量实时查询，在数据量很大时一般只能进行数据库扩容（包括分库手段），成本高昂；如果采用文件系统和生产数据库混合运算，就可以实现低成本高性能的 T+0 查询！去乾学院看个究竟吧！优化体系结构 - 混合运算实现 T+0 查询

优化体系结构 - 算法外置优化计算结构

2019-02-18

阅读 1 分钟

1.7k

【摘要】无论存储过程还是 JAVA 程序实现的数据计算层，都会存在很多不足和不方便！若采用专业的数据计算引擎，又会带来怎样的好处呢？去乾学院看个究竟吧！优化体系结构 - 算法外置优化计算结构

报表没完没了怎么办？ | 润乾集算器提效报表开发

2019-02-13

阅读 2 分钟

1.5k

完整资料下载：报表没完没了怎么办？| 报表提效方案

9

9