预计阅读时间：1分钟21秒

一.初识数据

终于开始我们的预测之旅啦！

我将力求使用诙谐的语言分模块讲述该数据集的求解过程，如果这能激发大家的求知欲，我将不胜荣幸。

不管怎样，让我们先来导入一些可能会用到的python库吧！

numpy库和pandas库可是数据分析的利器。前者提供的数组和后者提供的DataFrame数据结构都可以帮助我们更好的处理数据。

import numpy as np
import pandas as pd

有了称手的工具之后i，让我们先来请出最重要的数据吧！

train_data = pd.read_csv('.../train.csv') # 替换文件路径
test_data =pd.read_csv('.../test.csv')

一头雾水的时候，可以先来看看手中的数据长什么样子，说不定会有一些线索呢！

train_data.head() # 数据概览

data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/72adc9bf-b023-4a25-bf60-564e9ade2cb1image.png

test_data.head()

data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/410e40b5-83e9-4130-a9ec-93e08078b515image.png

啊噢，我们发现Cabin列数据出现很多NaN的值。

我们知道NaN值表示未定义或者不可表示的值，这意味着数据当中可能存在缺失值。快让我们一起来查看一下缺失的都是谁吧！

print(train_data.isnull().sum()) # 查看数据缺失值
print(test_data.isnull().sum())

训练集中存在891个数据，12个特征，其中3个特征存在缺失值。

Age（年龄）：177

Cabin（船舱编码）：687

Embarked（登船港口）：2

测试集中存在418个数据，11个特征，其中3个特征存在缺失值。

Age（年龄）：86

Fare（船票价格）：1

Cabin（船舱编码）：327

其中，船舱字段缺失值较多。

接着让我们仔细来看看这些数据所能提供给我们的信息吧！

data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/7805a59b-37a1-4ab3-a1c1-6b7f7e8d0595image.png

依照表格数据，可知：

Survived : 大概有38.384%的人最终存活。

Pclass : 2号舱和3号舱乘客多于1号舱。

Age : 乘客平均年龄在29.7岁，最小的乘客4个月，最大的乘客80岁。

Fare : 平均票价在32元，最高票价512元。

看过了上面数值型的数据，可别忘记咱们还有另一种类型的数据哦，现在我们来看看它们会告诉我们什么。

train_data.describe(include=['O'])

data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/dadea0ca-4be8-4745-9618-cb651a80b5e1image.png

依照表格数据，可知：

Name：无重复姓名。

Sex：男性577人，多于女性乘客。

Ticket：有681个不同值。

Cabin：仅有204人有记录，缺失值较多。

Embarked：644人从S港口登船。

好了，现在我们已经初步认识了数据，剩余部分将在该系列的下一篇！

我是Linsur！欢迎找我玩！