1.总体预览

clipboard.png

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

训练集有891条数据,其中Age,Cabin,Embarked三个特征是有缺失值的,且Cabin的缺失值非常多。

2.数据可视化

clipboard.png
仅按照性别划分,显然女性的生还数量明显高于男性

clipboard.png
pclass是船舱等级,等级越高生还概率越大

clipboard.png
SibSp代表兄弟姐妹/配偶的数量,只有一个兄弟姐妹/配偶的乘客生还人数最多

clipboard.png
Parch代表直系亲属即父母和子女的数量

clipboard.png
Embarked代表登船港口,C港口的生存概率最高


漏断人初静
0 声望0 粉丝