主要观点:介绍了分类数据及其形式,包括有序(序数)和无序(名义)分类数据,分析师常将数值数据转换为分类数据以简化问题,如用“成人”“儿童”“老年人”等代替年龄数字。以鸢尾花数据集为例,展示了在 R 语言中多种将数据转换为分类数据的方法,如使用 split、cut、cut2 函数及 plyr 包的 count 函数等,还比较了 table 函数和 count 函数在处理分类数据时的差异,随着交叉分类维度增加,count 函数在输出和可读性上更具优势。
关键信息:
- 分类数据有预定义值集合,如用“儿童”“成人”“老年人”表示年龄分类。
- 分类数据可有序(序数)或无序(名义)。
- R 中可使用 split、cut 等函数将数据转换为分类数据,如 split 函数根据萼片长度将鸢尾花数据集分为 3 组,cut2 函数也可进行类似分组且尝试使每组值数量相等。
- table 函数可快速总结分类数据,count 函数更灵活能生成所需数据框,在处理 N 维分类数据时 count 函数输出更清洁易读。
重要细节:
- 在将分类数据转换为列表或数据框时要注意变量名等问题,如 table 函数转换为数据框后变量名变为 Var1 和 Freq。
- 当 N > 3 进行交叉分类时,xtabs 函数输出会变大且不易读,count 函数仍能简洁输出。
- 鸢尾花数据集包含 150 个观测值及 5 个特征,如萼片长度、宽度等和物种。
- 作者是 Chaitanya Sagar,Perceptive Analytics 的创始人兼 CEO,常写关于分析和数据科学的内容。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。