Pandas 不擅长的结构化数据运算

2020-11-19
阅读 4 分钟
1.2k
Pandas 是 python 的一个数据分析包,是基于 NumPy 的一种数据分析工具,其中纳入了大量库和一些标准的数据模型,提供了快速便捷地处理数据的函数和方法,是高效地操作结构化数据集所需的工具,也是使 Python 成为强大而高效的数据分析环境的重要因素之一。

SQL 的后计算脚本

2020-11-19
阅读 6 分钟
1.2k
SQL 的后计算脚本用于实现 SQL 不适合的某些复杂运算,本文从此类工具中精心挑选了三种,从开发效率、语法表达能力、结构化函数库等方面进行深度对比,考察了各脚本在集合计算、有序计算等重点运算上的表现,esProc 在这几款工具中的表现最为出色。点击SQL 的后计算脚本了解详情。

合并资产负债表

2020-11-19
阅读 2 分钟
1.6k
在企业财务工作中,每个财务周期都要制作资产负债表,周期分为月度、季度、年度。季度报表可由月度报表合并得来,年度报表可由季度报表合并而来。有些大企业有许多部门,各部门也有资产负债表,总公司的资产负债表可由各部门的合并得来。如果由人工来进行这种合并工作,不仅烦琐,还易出错。如果使用程序自动完成这种工...

在文件上使用 SQL 查询的示例

2020-11-16
阅读 4 分钟
817
在数据分析业务中经常要处理数据文件。我们知道,对于数据库中的数据,使用SQL来查询是非常方便快捷的,所以很容易想到把文件数据先导入到数据库再用SQL来查询。但是文件数据导入数据库本身也是很繁琐的工作,那么有没有直接对数据文件使用SQL查询的办法呢?本文将介绍这样的办法,列举出用 SQL 查询文件数据的各种情况...

结构化数据上的选出运算

2020-11-15
阅读 5 分钟
925
【摘要】    选出是指在集合中,根据指定条件获取成员。选出与定位计算很相似,不过定位关心的是成员在集合中的位置,而选出关心的是成员记录的详细信息。比如选出入职超过 10 年的员工收入,查询销售额超过一万的客户名称等等。如何简单快捷的实现选出?这里将为你全程剖析,并提供 esProc SPL 示例代码。 结构化数据上...

批量随机键值的查询优化

2020-11-15
阅读 6 分钟
896
键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 O(log2N), 10 亿行数据大概只要比较 30 几次(10 亿约等于 2^30),在现代计算机上是个毫秒级别的事务。

如何利用历史数据预测罕见现象的发生

2020-11-13
阅读 2 分钟
748
在《利用历史数据做商业预测的全过程》(以下简称前文) 一文中我们介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有些各自的特殊性。例如,在很多业务场景中,存在一种数据不平衡的现象,比如银行贷款违约,违约的人只是很小一部分人;保险欺诈,欺诈者也是个别现象;还有产品质量中不良品的比例、工业...

如何利用历史数据提高营销成功率

2020-11-13
阅读 2 分钟
1.4k
我们在《利用历史数据做商业预测的全过程》(以下简称前文) 一文中介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有些各自的特殊性,本文将介绍如何使用预测技术来提升营销成功率。

利用历史数据做商业预测的全过程

2020-11-13
阅读 5 分钟
1.4k
使用历史数据进行商业预测,首先我们要知道什么东西是能够被预测的,举几个例子:银行放贷款时,希望预测出当前贷款人是否可能违约?保险公司希望预测出客户的理赔风险,从而更灵活的制定保费,高风险高收费,低风险低收费银行有很多种金融产品,希望预测出哪些用户会购买哪些产品,更精准的进行销售活动工业生产中,企...

按指定基准对齐的分组运算

2020-11-05
阅读 5 分钟
804
【摘要】    在分组时经常会要求结果集必须按基准集合的次序出现,这种对齐分组在日常统计中是很常见的。我们还能把对齐分组推广成更一般的枚举分组。如何简便快捷的处理对齐分组,这里为你全程解析,并提供 esProc 示例代码。按指定基准对齐的分组运算对照一个基准集合,将待分组集合成员的某个字段或表达式与基准集合...

非常规聚合问题举例

2020-11-05
阅读 2 分钟
1k
【摘要】    聚合运算是指对数据进行计算,返回聚合结果。聚合运算经常伴随着分组运算,除了常见的求和、最大值、最小值、计数等聚合运算,还有一些逻辑运算等等。如何简便快捷的处理聚合问题,这里为你全程解析,并提供 esProc 示例代码。非常规聚合问题举例

结构化数据中的存在判断问题

2020-11-05
阅读 3 分钟
879
【摘要】    从数据表中选出数据时,有时候需要判断成员在某些条件下是否存在,这些条件可能是从其他的数据表中查询的。例如分数是成绩表的字段,怎样从学生表中选出各科分数都高于 80 分的学生?如何简便快捷的处理结构化数据中的存在判断问题,这里为你全程解析,并提供 esProc 示例代码。结构化数据中的存在判断问题

结构化数据中的从属判断问题

2020-11-05
阅读 3 分钟
755
【摘要】     从数据表中选出数据时,有时需要判断成员是否从属于某一个集合。例如从房价表中选出重要城市的房价信息,从销售表中选出 VIP 客户的销售记录等等。如何简便快捷的处理结构化数据中的从属判断问题,这里为你全程解析,并提供 esProc 示例代码。结构化数据中的从属判断问题

适合时间序列数据的计算脚本

2020-11-05
阅读 5 分钟
753
时间序列数据的计算脚本须具备较强的有序计算能力,本文从此类工具中精心挑选了三种,从开发效率、语法表达能力、结构化函数库等方面进行深度对比,考察了各脚本在序号计算、相对位置计算、有序集合计算等重点运算上的表现,esProc 在这几款工具中的表现最为出色。点击适合时间序列数据的计算脚本了解详情。

有序集合上的定位计算

2020-11-05
阅读 5 分钟
692
在数据计算时,除了每条记录本身,经常也会关心有序集合中与位置相关的计算。例如:编号为 752084 的订单在销售表中的第几行?2019 年上证指数收盘价最高的是第几个交易日?如何简单快捷的实现定位?这里将为你全程剖析,并提供 esProc SPL 示例代码。有序集合上的定位计算

esProc 的 SQL 应用方案

2020-10-23
阅读 4 分钟
981
esProc 的 SQL 功能支持文件计算、性能优化等独特功能,本文将总结桌面 IDE、命令行等不同环境下 SQL 的用法,以及常用文件格式、特殊分隔符等多种应用方案,详情点击esProc 的 SQL 应用方案

结构化数据中的从属判断问题

2020-10-23
阅读 3 分钟
917
【摘要】    从数据表中选出数据时,有时需要判断成员是否从属于某一个集合。例如从房价表中选出重要城市的房价信息,从销售表中选出 VIP 客户的销售记录等等。如何简便快捷的处理结构化数据中的从属判断问题,这里为你全程解析,并提供 esProc 示例代码。结构化数据中的从属判断问题

报表工具选型对比系列 - 大报表

2020-10-23
阅读 3 分钟
1.2k
针对大报表,如果像常规报表一样,将数据一次性全取再交给前端呈现是不可行的。一是等待时间太长,用户体验差;二是很可能导致内存溢出造成应用崩溃。

报表工具对比选型系列—多样性数据源支持度

2020-10-23
阅读 3 分钟
841
本次仍然评测这几款主流的报表工具:润乾报表、帆软报表、Smartbi、永洪 BI、亿信。之前在多源关联分片报表中验证了各个报表工具的多数据源关联功能,这些产品都能支持多数据源,但对不同类型数据源的支持程度并不一样。目前常用的关系型数据库基本上都提供 jdbc 接口,所有报表工具都支持,这里就不做详细说明,下面主...

报表工具选型对比系列 - 多源关联性能

2020-10-23
阅读 2 分钟
999
报表呈现有这么几个阶段:取数、报表计算、生成 html 及页面渲染,报表计算是考察报表性能中较为重要的一环。多数据源(集)关联报表是一种计算量随规模增长较大的报表,适合用于进行此项测试。本文将对比报表的关联运算性能,产品依然是三款:润乾报表、FineReport、smartbi,均使用最新版本,涉及报表数据来源为同库同...

结构化数据上用序号访问成员的问题

2020-10-14
阅读 3 分钟
702
【摘要】    序号访问是指通过序号(索引下标)来访问有序集合的成员。序号访问除了按单个序号访问集合成员,还有按多个序号同时取多个成员的需求。除此以外,还有用倒数的序号访问成员,按固定跨度访问成员等等。如何简单快捷的实现这些序号访问需求?这里将为你全程剖析,并提供 esProc SPL 示例代码。结构化数据上用...

有序集合间的对位运算

2020-10-14
阅读 2 分钟
1.1k
【摘要】     两个有序集合之间可能进行一一对应的计算,比如两个集合如何比较大小,怎样判断集合是否相等?如何简便快捷的处理集合间的对位运算,这里为你全程解析,并提供 esProc 示例代码。有序集合间的对位运算

esProc 利用剪贴板强化 Excel 计算

2020-10-14
阅读 4 分钟
963
遇到 Excel 难以实现的复杂或特殊运算时,可先用剪贴板将数据复制到 esProc,利用 esProc 强大的计算能力完成,这种方式比 add-ins 有更多优点,详细场景和代码解析请点击esProc 利用剪贴板强化 Excel 计算

报表工具对比选型系列 - 容量及相关性能

2020-09-14
阅读 3 分钟
925
报表上的计算比较复杂,常常是内存计算,报表工具能支持的容量也就是个重要的技术指标。我们当然希望报表占用的内存尽量少,这样同样内存空间可以容纳更大的报表(更多的单元格),也能支持更大的并发数量。

报表工具对比选型系列用例——过程计算

2020-09-14
阅读 8 分钟
794
我们知道,报表呈现的数据常常并不是直接从数据库(源)取出来的数据,而还要进行一些运算,报表工具通常也会提供一定的运算能力(如过滤、分组等)以应对这种需求。但是,情况复杂时,报表数据集上的运算可能要多个步骤才能完成,这时候就要考查报表工具对过程式计算的支持程度了。

预测模型是不是准确率越高越好?

2020-09-03
阅读 2 分钟
3.3k
对于一个数据挖掘项目而言,我们可以选择的模型众多,比如我们可以选择:线性回归、Logistic 回归、决策树、集成算法等,同样对于一个模型而言,也有很多参数和图形来评估模型好坏。数据挖掘的目的不能是简单地构建一个预测模型,而是创建和选择一个对样本以外数据也能做到高精度的模型。因此,在计算预测值之前,检查模...

深度学习是怎么回事?有什么用?

2020-08-28
阅读 2 分钟
1.6k
如今,提到人工智能,几乎无人不谈深度学习,似乎不用深度学习就不好意思谈人工智能。今天我们就用几分钟的时间来讲一下深度学习到底是什么,有什么用。

报表工具对比选型系列 - 页面渲染性能

2020-08-28
阅读 4 分钟
996
页面渲染是指报表在计算完成后,生成 html 页面时加上各种格式外观属性的过程。如果在报表中添加了大量的呈现效果(隔行异色、背景图、条件警戒色等)时,页面渲染的速度就会受到影响变慢,但往往这些呈现效果又是必须的,所以这个时候就得看报表的性能了。

报表工具对比选型系列用例——排名及跨行组统计

2020-08-28
阅读 10 分钟
1.1k
排名与跨行组运算也是典型的中国复杂报表形式,这类报表的源数据集通常比较简单,但在表格的单元格之间会有较随意的计算要求。在制作报表时,单元格还没有扩展出来,因而不能像 Excel 那样直接引用单元格名字,报表工具需要提供某种机制允许在表达式中引用还没有产生的单元格。

多维分析的本质计算是什么?能做什么又不能做什么?

2020-08-17
阅读 2 分钟
1.5k
多维分析主要面向业务用户提供数据查询分析服务,由于业务人员不懂 SQL,也无法完成多表关联(有意义的查询经常是基于多表的),所以在多维分析建模阶段需要将多表转换成单表,也就是 CUBE。这样用户就可以很方便地通过基于一个结果集(CUBE)进行拖拽查询,从不同的角度(维度)观察数据(测度)。