1. 数据对象与属性类型

数据集由数据对象组成。一个数据对象代表一个实体,如:学校数据库中对象可以是学生、老师。
数据对象用属性来描述。

1.1 什么是属性

属性是一个数据字段,表示数据对象的一个特征。
属性可以是标称的二元的序数的数值的

1.2 标称属性

标称属性的值是一些符号事物的名称,这些值不必具有有意义的序(无序)。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。例如:头发颜色:黑色、黄色、棕色和白色。
标称属性不能求出均值和中位数,但可以找出众数

1.3 二元属性

二元属性是一种标称属性,只有两个类别或状态:0或1。
例如:假设属性smoker描述患者对象,1表示患者抽烟,0表示不抽烟。
二元属性又称布尔属性,当两种状态对应于true和false时。
二元属性是对称的,当它的两种状态具有同等价值并携带相同权重,例如:性别属性。
二元属性是非对称的,当它的状态或结果不是同等重要的,例如:HIV化验的阳性结果和阴性结果。

1.4 序数属性

序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。例如:小、中、大或成绩:A+、A、A-、B+。
序数属性通常用于等级评定调查
序数属性的中心趋势可以用它的众数中位数表示,但不能定义均值。

注意:标称、二元和序数属性都是定性的,即描述对象特征,但不给出实际大小。

1.5 数据属性

数据属性是定量的,可以是区间标度的或比率标度的。

  1. 区间标度属性:区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0、负。因此,除了值的秩评定外,这种属性允许我们比较和定量评估值之间的差。例如:温度属性。
  2. 比率标度属性:比率标度属性具有固定零点(即,可以说一个值是另一个值的倍数比率)。这些值都是有序的,例如:开式温度(K)具有绝对零点(0°K = -273.15℃),在该点构成物质的粒子具有零动能。

区间标度属性除了中心趋势度量中位数和众数外,还可以计算均值

1.6 离散属性和连续属性

离散属性是有有限无限可数个值,可以用或不用整数表示。
如果属性不是离散的,则它是连续的。

2. 数据的基本统计描述

2.1 中心趋势度量:均值、中位数、众数

  • 均值:$x_{mean} = \frac{\sum_{i=1}^N x_i}{N}$
  • 加权均值:$x_{mean} = \frac{\sum_{i=1}^N w_{i}x_{i}}{\sum_{i=1}^N w_i}$
  • 截尾均值:为抵消少数极端值的影响,丢弃高低极端值后的均值

对于倾斜(非对称)数据,数据中心的更好度量是中位数
可以使用插值计算整个数据集的中位数的近似值:
$ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $
$L_1$:中位数区间的下界, N:整个数据集中值的个数,$(\sum freq)_l$:低于中位数区间的所有频数和,$freq_{median}$:中位数区间的频数,$width$:中位数区间的宽度

一个数据集和能有多个众数,当最高频率对应多个不同的值,具有一个、两个、三个众数的数据集合分别称为单峰的双峰的三峰的,具有两个及以上称为多峰的
一个数据集也可能没有众数,比如:每个元素只出现一次。
中列数是数据集的最大值和最小值的平均值。

2.2 度量数据分布:极差、四分位数、方差、标准差和四分位数极差

  1. 极差、四分位数和四分位数极差
    极差:最大值最小值之差
    分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
    四分位数:三个数据点把数据划分成四个相等部分
    四分位数极差(IQR): $IQR = Q_3 - Q_1$ (其中,$Q_3$是第三个分位数,$Q_1$是第一个分位数)
  2. 五数概括、盒图与离群点
    识别离群点的通用规则:挑选落在第三个四分位数之上或第一个四分位数之下至少$1.5*IQR$处的值。
    五数概括由中位数($Q_2$)、四分位数$Q_1$和$Q_3$、最小最大观测值组成,按次序是$Minimum,Q_1,Median,Q_3,Maximum$
    盒图(箱线图)体现了五数概括:
    $a$.盒的端点一般在四分位数上,使得盒的长度是四分位数极差$IQR$
    $b$.中位数用盒内的线标记
    $c$.盒外的两条线延申到最小和最大观测值
  3. 方差和标准差
    方差:$\sigma^{2} = \frac{1}{N} \sum(x_i-x_{mean})^{2} = \frac{1}{N} \sum_{i=1}^{N} x_i^2 - x_{mean}^{2}$
    标准差:$\sigma$
    作为发散性的度量,标准差$\sigma$的性质是:
    $a$.$\sigma$度量关于均值的发散,仅当选择均值作为中心度量时使用。
    $b$.仅当不存在发散时,$\sigma=0$,否则$\sigma > 0$

2.3 数据的基本统计描述的图形显示

包括分位数图分位数-分位数图(q-q图)直方图散点图,前三种图显示一元分布,散点图显示二元分布

3. 数据可视化

通过图形表示清晰有效地表达数据。

  1. 基于像素的可视化技术
  2. 几何投影可视化技术
  3. 基于图符的可视化技术
  4. 层次可视化技术

4. 度量数据的相似性和相异性

相似性和相异性都称邻近性
如果两个对象$i$和$j$不相似,则它们的相似性度量为0

4.1 数据矩阵与相异性矩阵

数据矩阵(对象-属性结构):这种数据结构用关系表的形式或$n*p$($n$个对象 x $p$个属性)矩阵存放几个数据对象:

$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$

相异性矩阵(对象-对象结构):存放几个对象两两之间的邻近度,通常用一个$n*n$矩阵表示:

$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$

其中$d(i,j)$是对象$i$和对象$j$之间的相异性。一般$d(i,j)$是非负的,$d(i,j)=d(j,i)$

相似性度量可以表示成相异性度量的函数:
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是对象$i$和$j$之间的相似性

数据矩阵经常被称为二模矩阵,由两种实体组成,即行和列。
相异性矩阵只包含一类实体,因此被称为单模矩阵

4.2 标称属性的邻近性度量

两个对象$i$和$j$之间的相异性可以根据不匹配率来计算:
$d(i,j) = \frac{p-m}{p}$
其中,$m$是匹配数目(即$i$和$j$取值相同状态的属性数),$p$是刻画对象的属性总数
相似性计算:$sim(i,j)=\frac{m}{p}$

4.3 二元属性的邻近性度量

二元属性列联表

对象$j$
1 0 sum
对象$j$ 1 $q$ $r$ $q+r$
0 $s$ $t$ $s+t$
sum $q+s$ $r+t$ $p$

如果$i$和$j$都用对称的二元属性刻画,则$i$和$j$的相异性为:
$d(i,j)=\frac{r+s}{q+r+s+t} $
非对称的二元相异性:
$d(i,j)=\frac{r+s}{q+r+s} $
非对称的二元相似性:
$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ,这被称为$Jaccard$系数
当对称与非对称的二元属性同时出现时,使用混合属性方法。

4.4 数值属性的相异性:闵可夫斯基距离

欧几里得距离(即,直线):
$d(i,j)=\sqrt{(x_{i1}-x_{j1})^2 + (x_{i2}-x_{j2})^2 + ... + (x_{ip}-x_{jp})^2} $
曼哈顿(或城市块)距离:城市两点之间的街区距离
$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$

clipboard.png

欧几里得距离和曼哈顿距离满足以下性质:
  • 非负性:$d(i,j)≥0$
  • 同一性:$d(i,i)=0$
  • 对称性:$d(i,j)=d(j,i)$
  • 三角不等式:$d(i,j)≤d(i,k)+d(k,j)$

满足这些条件的测度称作度量

闵可夫斯基距离是欧式距离和曼哈顿距离的推广(又称$L_p$范数):
$d(i,j)=((\mid x_{i1}-x_{j1}\mid)^{h} + (\mid x_{i2}-x_{j2} \mid)^{h} +...+ (\mid x_{ip}-x_{jp} \mid)^{h})^{\frac{1}{h}}$ ,其中$h≥1$.
当$h=1$时,表示曼哈顿距离($L_1$范数)
当$h=2$时,表示欧式距离($L_2$范数)
上确界距离(又称$L_{max}$, $L_∞$范数和切比雪夫距离)是$h\rightarrow ∞$时闵氏距离的推广:
$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$
$L_∞$范数又称一致范数
加权欧式距离:
$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $

4.5 序数属性的邻近性度量

假设$f$是用于描述$n$个对象的一组序数属性之一。

关于$f$的相异性计算如下:
  1. 第$i$个对象的$f$值为$x_{if}$,属性$f$有$M_f$个有序的状态,表示排位$1,...,M_f$。用对应的排位$r_{if}\in \lbrace1,...,M_f\rbrace$ 取代$x_{if}$。
  2. 由于每个序数属性都可以有不同的状态数,所以通常需要将每个属性的值域映射到$[0.0, 1.0]$ 上,以便每个属性都有相同的权重。我们通过用$z_{if}$代替第$i$个对象的$r_{if}$ 来实现数据规格化,其中:
    $z_{if} = \frac{r_{if}-1}{M_f - 1}$
  3. 相异性可以用任意一种数值属性距离度量计算。

4.6 混合类型属性的相异性

将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间$[0.0, 1.0]$ 上。
假设数据集包含$p$个混合类型的属性,对象$i$和$j$之间的相异性$d(i,j)$:
$d(i,j)=\frac{\sum_{f=1}^p \sigma_{ij}^{(f)} d_{ij}^{(f)}}{\sum_{f=1}^p \sigma_{ij}^{(f)}}$
其中,指示符$ \sigma_{ij}^{(f)} = 0$,如果$x_{if}$或$x_{jf}$缺失,或者$x_{if}=x_{jf}=0$, 并且$f$是非对称二元属性;否则,指示符$ \sigma_{ij}^{(f)} = 1$ 。
属性$f$对$i$和$j$之间相异性的贡献$ d_{ij}^{(f)}$根据类型计算:

  • $f$是数值的:$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ,其中$h$遍取$f$中所有非缺失值对象。
  • $f$是标称或二元的:如果$x_{if}=x_{jf}$,则$d_{ij}^{(f)}=0$;否则$d_{ij}^{(f)}=1$。
  • $f$是序数的:计算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$,并将$z_{if}$作为数值属性对待。

4.7 余弦相似性

余弦相似性可以用来比较文档,或针对给定的查询词向量对文档排序
令$x, y$ 是两个待比较的向量,使用余弦度量作为相似性函数:
$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$
余弦测量属于非度量测度
当属性是二值属性时,余弦相似性函数可以用共享特征或属性解释,于是$sim(x,y)$是公共属性相对拥有的一种度量:
$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ,(称为$Tanimoto$系数/距离)


橙茗
26 声望5 粉丝

python c