1.总体预览
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB
训练集有891条数据,其中Age
,Cabin
,Embarked
三个特征是有缺失值的,且Cabin
的缺失值非常多。
2.数据可视化
仅按照性别划分,显然女性的生还数量明显高于男性
pclass
是船舱等级,等级越高生还概率越大
SibSp
代表兄弟姐妹/配偶的数量,只有一个兄弟姐妹/配偶的乘客生还人数最多
Parch
代表直系亲属即父母和子女的数量
Embarked
代表登船港口,C港口的生存概率最高
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。