原文下载链接:http://tecdat.cn/?p=27587

最近我们被客户要求撰写关于通勤出行的研究报告,包括一些图形和统计输出。

某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响,对成都两个大型小区(高端和普通)居民分别进行了出行调查,各调查了300人

其中

Distance:居住地离上班地的距离(公里)

Pincome:个人年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Gender:性别(0:女;1:男)

Car:家庭拥有汽车的数量

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

People:家里人口数量

Children:家里未成年人数量

Housing:房屋拥有类型(0:租房;1:买房)

Area:房屋居住面积(平方米)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

但是小区的编号忘记记录下来。

任务:

  1. 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。

数值型变量为:

Distance:居住地离上班地的距离(公里)

Pincome:个人年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Car:家庭拥有汽车的数量

People:家里人口数量

Children:家里未成年人数量

Area:房屋居住面积(平方米)

图片

图片


点击标题查阅往期内容

图片

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

图片

左右滑动查看更多

图片

01

图片

02

图片

03

图片

04

图片

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

Housing:房屋拥有类型(0:租房;1:买房)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

图片

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

Housing:房屋拥有类型(0:租房;1:买房)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

  1. 判断每个受访者所在的小区。

    根据居住地距离 ,我们使用kmean聚类将样本分成2个类别,并保存结果到小区变量中。

    结果如图所示。

    聚类中心结果如下

    图片

    图片

    每个样本的聚类信息: 

    图片

  2. 分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度有什么区别吗?

图片

从均值比较的结果来来看,第1个类别的工作里小区工作距离较短,第三个类别年龄较小,第一个小区家庭人口较大,教育水平第四个小区较低。

然后对不同聚类类别的数据进行独立样本t检验。

图片

图片

由上表中的结果:distance的sig>0.05,可知:distance无显著区别。

  1. 对每个小区分别建模(逻辑回归和决策树),看哪个模型对出行方式选择的拟合更好(比较模型在检验样本里的表现,而不是训练样本),并分析各个变量如何影响通勤交通方式的选择。

首先对1区的样本进行决策树模型

图片

图片

图片

图片

可以看到距离 收入、家庭人口数和性别对出行方式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于2人的家庭出行以公交车为主。

然后使用逻辑回归进行预测

图片

图片

图片

由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。

对2区出行数据进行决策树模型分析

图片

从结果来看,决策树分类模型可以看到区2的出行方式主要受到距离的影响。若距离较大,则出行方式以汽车和电瓶车为主,若距离较小,则以公交车为主。

对区2的出行数据进行逻辑回归

由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。

图片

点击文末 “阅读原文”

获取全文完整资料。

本文选自《SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析》。

点击标题查阅往期内容

数据分享|R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况R语言是否对二分连续变量执行逻辑回归
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值R语言Bootstrap的岭回归和自适应LASSO回归可视化
R语言中回归和分类模型选择的性能指标
R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言建立和可视化混合效应模型mixed effect model
R语言LME4混合效应模型研究教师的受欢迎程度
R语言 线性混合效应模型实战案例
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
用SPSS估计HLM多层(层次)线性模型模型R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
R语言有RStan的多维验证性因子分析(CFA)
主成分分析(PCA)原理及R语言实现及分析实例
R语言无监督学习:PCA主成分分析可视化
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
R语言多元Logistic逻辑回归 应用案例
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R语言基于树的方法:决策树,随机森林,Bagging,增强树
spss modeler用决策树神经网络预测ST的股票
R语言中自编基尼系数的CART回归决策树的实现
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
matlab使用分位数随机森林(QRF)回归树检测异常值
基于随机森林、svm、CNN机器学习的风控欺诈识别模型
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分


拓端tecdat
195 声望47 粉丝