1

在这个世界上有无限多的数据,而每种数据都有属于自己的属性。那么做数据挖掘数据分析的时候,要对杂乱无章数据由一定的敏感度,学会分析数据属于哪一种类型也是一种技能。多留意身边的一些数据,试试给他分个类型也是挺好玩的一件事。

如果从宏观角度分析,数据类型分为定性定量两种。

定性:变量是品质特征,如性别分男和女,是一种特质
定量:变量是数值,可以量化,如身高体重等。
定量又可以分为离散型和连续型,离散型一般为计数结果,如男朋友毁约的次数,连续型一般为测试结果,如女朋友身高体重的测量。

那么又是怎么去对这些数据类型进行度量,也就是对数据类型划分一定的层次

一般可以将数据类型的度量分为四种:定类,定序,定距,和定比,这四种类型是从低到高的递进关系,高级的类型可以用低级类型的分析方法来分析,而反过来却不行,理解下面这些类型对于后面学习统计分析方法尤为重要。

1、定类变量

定类就是将给数据定义一个类别。这种数据类型将所研究的对象分类,也即只能决定研究对象是同类抑或不同类。例如把性别分成男女两类;把动物分成哺乳类和爬行类等等。

注意!定类变量遵循两个原则:
(1)类与类之间互斥,不存在即是男又是女的东西(人妖特例不算)
(2)每个对象都必须要有类别,就像每个动物都有自己的界门纲目科属种

2、 定序变量

定序变量是将同一个类别下的对象分一个次序,即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。

注意!各个定序变量的值之间没有确切的间隔距离。比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。


3、 定距变量

定距变量是区别同一类别下个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。但是,定距变量没有一个真正的零点
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。甲区与丙区相差33%,丙区与丁区相差15%。这也是一个定距变量。

注意!定距变量各类别之间的距离,只能加减而不能乘除或倍数的形式来说明它们之间的关系。

   
4.、定比变量

定比变量是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除(×、÷)的数学特质。例如年龄和收入这两个变量,固然是定距变量,同时又是定比变量,因为其零点是绝对的,可以作乘除的运算。
如A月收入是60元,而B是30元,我们可以算出前者是后者的两倍。智力商数这个变量是定距变量,但不是定比变量,因为其0分只具有相对的意义,不是绝对的或固定的,不能说某人的智商是0分就是没有智力;同时,由于其零点是不固定的,即使A是140分而B是70分,我们也不能说前者的智力是后者的两倍,只能说两者相差70分。因为0值是不固定的,如果将其向上移高20分,则A的智商变为120分而B变成50分,两者的相差仍是70分,但A却是B的2.4倍,而不是原先的两倍了。摄氏温度这一变量也如此。

这里没注意了!定比变量是最高测量层次的变量。

西区彭于晏
3 声望0 粉丝

学习者