如题,这篇我们介绍制作报表的简易教程。
制作报表与统计制图
报表会展现数据的主要信息。分为维度指标(分类变量)和度量指标(连续变量)。仅含有维度指标的称为频次表(单个分类变量)和交叉表(两个及以上分类变量)。含有维度和度量两类指标的报表称为汇总表,其中度量指标总是以某个统计量的形式出现,最常用的是均值、总和、频次。
制作报表就是根据数据类型,选取合适统计量并进行展现的过程。如下图所示,表现的是一个比较全面的二维表模版。
水平轴和垂直轴分别是两个分类变量。单元格中存放的是某个变量的统计量,如果单元格中没有放任何变量,单元格展现的是频次或百分比等指标,如果放入了某个连续变量,则单元格展现的是这个连续变量的某个统计量。
简化后的二维表模版内容有:单因子频数,表分析,汇总统计量和汇总任务表。
单因子频数:仅分析单个分类变量的分布情况,提供每个水平的频次、百分比和累积值。
表分析:分析两个分类变量的联合分布情况,提供每个单元格的频次、百分比和边沿分布情况。
表分析,也称交叉表,使用函数pd.crosstab()
,可以使用标准化的堆叠柱状图对表分析的结果进行展现但标准化堆叠柱形图无法展现横轴变量本身的分布情况,因此许多报告中使用堆叠柱形图。
汇总统计量:按照某个分类变量分组,对连续变量进行描述性分析。
下面我们对箱线图、条形图、柱形图进行简单的介绍。
箱线图:又称为盒须图、盒式图或箱形图。能够提供某变量分布以及异常值的信息,其通过分位数来概括某变量的分布信息,从而比较不同变量的分布。
箱线图的基本元素:
- IQR:变量上下四分位数之间的数据,这个范围代表了数据中50%的数据。
- 中位数
- 1.5 IQR:上下 1.5 倍 IQR 表示上下 1.5 倍 IQR 范围的数据。超出这个区间范围的数据即异常值。
- 多个箱线图的比较:在进行不同变量的箱线图比较时,可以通过中位数位置来比较两变量数据的中位数差异情况。
条形图
条形图便于分类之间的数据对比,条形图和报表有一一对应的关系,其中“要绘图的列”是汇总表中的分类变量。条的长度对应频次或度量指标的某个统计量。
柱形图
柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。分类箱线图表现了连续变量的单个统计信息,如果只展现一个统计量,可以使用柱形图。
条形图与柱形图非常相似,如果各因子对应的统计量是排序了的,常用条形图。如果因子本身是有序的(如按年统计的销售均价),则常采用柱形图。
制图的步骤
通过对数据进行可视化,可以很直观地了解数据的分布情况,根据分布做出业务解释。在进行描述性图表展示时,制图分为以下四步:
- 整理原始数据。对初始数据进行预处理和清洗,以达到制图要求。
对于初始数据要进行预处理以达到制图的目的,预处理环节包括对数据的分组汇总以及对不良、错误、缺失值的处理。
- 明确表达的信息。根据初始可用数据,明确分析所要表达的信息。
数据经过整理后蕴含了很多的信息,根据业务目标重点处理需要关注的信息。
- 确定比较的类型。明确所要表达信息中对目标比较的类型。
展示图形是为了比较各个维度的差异情况,例如时间序列可以比较不同时间指标的差异,区域比较可以比较不同地域指标的差异情况,如上图所示。
- 选择合适的图表类型。
图表类型多种多样,不同图表在表达特定的信息时也各有不同,可以参照下图:
- 单变量信息表达与常用图形
- 两变量信息表达与常
统计图是对统计汇总表的形象展示。它分为描述性统计图和检验性统计图。
描述性统计图是对某些变量分布、趋势的描述,多出现在工作报告中和统计报告中,如饼图、条图。检验性统计图是对特定的统计检验和统计量的形象展示,仅出现在特定统计报告中,一般不会出现在工作报告中,如直方图、箱线图、P-R 图和 ROC 曲线。
但二者的界限也没有那么绝对,比如箱线图一开始检验性统计图,但后来人们觉得它可以很直观地表现连续变量和分类变量的关系时,也被广泛用于工作报告中。
参考链接:Python数据科学
不足之处,欢迎指正。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。