一.初识数据
终于开始我们的预测之旅啦!
我将力求使用诙谐的语言分模块讲述该数据集的求解过程,如果这能激发大家的求知欲,我将不胜荣幸。
1.1 导入库
不管怎样,让我们先来导入一些可能会用到的python库吧!
numpy库和pandas库可是数据分析的利器。前者提供的数组和后者提供的DataFrame数据结构都可以帮助我们更好的处理数据。
import numpy as np
import pandas as pd1.2 导入数据
有了称手的工具之后i,让我们先来请出最重要的数据吧!
train_data = pd.read_csv('.../train.csv') # 替换文件路径
test_data =pd.read_csv('.../test.csv')1.3 观察数据
一头雾水的时候,可以先来看看手中的数据长什么样子,说不定会有一些线索呢!
train_data.head() # 数据概览
test_data.head()
啊噢,我们发现Cabin列数据出现很多NaN的值。
我们知道NaN值表示未定义或者不可表示的值,这意味着数据当中可能存在缺失值。快让我们一起来查看一下缺失的都是谁吧!
print(train_data.isnull().sum()) # 查看数据缺失值
print(test_data.isnull().sum()) 训练集中存在891个数据,12个特征,其中3个特征存在缺失值。
Age(年龄):177
Cabin(船舱编码):687
Embarked(登船港口):2
测试集中存在418个数据,11个特征,其中3个特征存在缺失值。
Age(年龄):86
Fare(船票价格):1
Cabin(船舱编码):327
其中,船舱字段缺失值较多。
接着让我们仔细来看看这些数据所能提供给我们的信息吧!

依照表格数据,可知:
Survived : 大概有38.384%的人最终存活。
Pclass : 2号舱和3号舱乘客多于1号舱。
Age : 乘客平均年龄在29.7岁,最小的乘客4个月,最大的乘客80岁。
Fare : 平均票价在32元,最高票价512元。
看过了上面数值型的数据,可别忘记咱们还有另一种类型的数据哦,现在我们来看看它们会告诉我们什么。
train_data.describe(include=['O'])
依照表格数据,可知:
Name:无重复姓名。
Sex:男性577人,多于女性乘客。
Ticket:有681个不同值。
Cabin:仅有204人有记录,缺失值较多。
Embarked:644人从S港口登船。
好了,现在我们已经初步认识了数据,剩余部分将在该系列的下一篇!
我是Linsur!欢迎找我玩!