数据及其属性

一个数据对象代表一个实体,同时数据对象又被称为样本、实例、数据点和对象。数据对象用属性进行描述。属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维度、特征和变量可以互换的使用。术语维度一般用在数据仓库中,机器学习文献中一般采用术语特征,统计学更愿意使用术语变量。

一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。
标称特征

标称意味与名称相关,标称特征的值是一些符号或事务的名称,每个值代表某种类别、或状态。因为标称特征又被看做是分类的,这些值不必具有有意义的序关系,在标称属性上做数学运算是没有意义的,因此这些值也可以看做是枚举。

二元特征

二元特征也是一种标称特征,但它只有两个类型或状态,又被称为布尔特征。

序数特征

序数特征其可能的值之间具有有意义的序,但是相继值之间的差是未知的。序数特征可以通过将数值特征的值域划分成有限个有序类别,把数值属性离散化而得到。

注意,标称、二元和序数属性都是定性的。即它们描述对象的特征,而不给出实际大小或数量。这种特定属性的值通常是代表类别的词,如果使用整数,则他们代表类别的计算机编码,而不是可测量的量。

数值属性

数值属性是定量的,即它是可度量的量,用整数或实数值表示,数值属性可以是区间标度或比率标度的。
区间标度属性

区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0、负.因此除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。由于区间标度属性是数值的,除了中心趋势度量中位数和众数之外,我们还可以计算他们的均值。

比率标度属性

比率标度属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数或比率,此外这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

haofengpingjieli
97 声望5 粉丝

好风凭借力送我上青云