如何获取分类变量的频率表作为数据框

主要观点:介绍了分类数据及其形式,包括有序(序数)和无序(名义)分类数据,分析师常将数值数据转换为分类数据以简化问题,如用“成人”“儿童”“老年人”等代替年龄数字。以鸢尾花数据集为例,展示了在 R 语言中多种将数据转换为分类数据的方法,如使用 split、cut、cut2 函数及 plyr 包的 count 函数等,还比较了 table 函数和 count 函数在处理分类数据时的差异,随着交叉分类维度增加,count 函数在输出和可读性上更具优势。

关键信息

  • 分类数据有预定义值集合,如用“儿童”“成人”“老年人”表示年龄分类。
  • 分类数据可有序(序数)或无序(名义)。
  • R 中可使用 split、cut 等函数将数据转换为分类数据,如 split 函数根据萼片长度将鸢尾花数据集分为 3 组,cut2 函数也可进行类似分组且尝试使每组值数量相等。
  • table 函数可快速总结分类数据,count 函数更灵活能生成所需数据框,在处理 N 维分类数据时 count 函数输出更清洁易读。

重要细节

  • 在将分类数据转换为列表或数据框时要注意变量名等问题,如 table 函数转换为数据框后变量名变为 Var1 和 Freq。
  • 当 N > 3 进行交叉分类时,xtabs 函数输出会变大且不易读,count 函数仍能简洁输出。
  • 鸢尾花数据集包含 150 个观测值及 5 个特征,如萼片长度、宽度等和物种。
  • 作者是 Chaitanya Sagar,Perceptive Analytics 的创始人兼 CEO,常写关于分析和数据科学的内容。
阅读 8
0 条评论