橘智橘智
Linsur
预计阅读时间:1分钟21秒

一.初识数据

0
0

终于开始我们的预测之旅啦!


我将力求使用诙谐的语言分模块讲述该数据集的求解过程,如果这能激发大家的求知欲,我将不胜荣幸。


1.1 导入库


不管怎样,让我们先来导入一些可能会用到的python库吧!


numpy库和pandas库可是数据分析的利器。前者提供的数组和后者提供的DataFrame数据结构都可以帮助我们更好的处理数据。


import numpy as np
import pandas as pd


1.2 导入数据


有了称手的工具之后i,让我们先来请出最重要的数据吧!


train_data = pd.read_csv('.../train.csv') # 替换文件路径
test_data =pd.read_csv('.../test.csv')


1.3 观察数据


一头雾水的时候,可以先来看看手中的数据长什么样子,说不定会有一些线索呢!


train_data.head() # 数据概览


data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/72adc9bf-b023-4a25-bf60-564e9ade2cb1image.png


test_data.head()


data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/410e40b5-83e9-4130-a9ec-93e08078b515image.png


啊噢,我们发现Cabin列数据出现很多NaN的值。


我们知道NaN值表示未定义或者不可表示的值,这意味着数据当中可能存在缺失值。快让我们一起来查看一下缺失的都是谁吧!


print(train_data.isnull().sum()) # 查看数据缺失值
print(test_data.isnull().sum()) 


训练集中存在891个数据,12个特征,其中3个特征存在缺失值。


Age(年龄):177


Cabin(船舱编码):687


Embarked(登船港口):2


测试集中存在418个数据,11个特征,其中3个特征存在缺失值。


Age(年龄):86


Fare(船票价格):1


Cabin(船舱编码):327


其中,船舱字段缺失值较多。


接着让我们仔细来看看这些数据所能提供给我们的信息吧!


data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/7805a59b-37a1-4ab3-a1c1-6b7f7e8d0595image.png


依照表格数据,可知:


Survived : 大概有38.384%的人最终存活。


Pclass : 2号舱和3号舱乘客多于1号舱。


Age : 乘客平均年龄在29.7岁,最小的乘客4个月,最大的乘客80岁。


Fare : 平均票价在32元,最高票价512元。


看过了上面数值型的数据,可别忘记咱们还有另一种类型的数据哦,现在我们来看看它们会告诉我们什么。


train_data.describe(include=['O'])


data/402cbe41-5fd8-42f7-9c0a-a8b35766d750/dadea0ca-4be8-4745-9618-cb651a80b5e1image.png


依照表格数据,可知:


Name:无重复姓名。


Sex:男性577人,多于女性乘客。


Ticket:有681个不同值。


Cabin:仅有204人有记录,缺失值较多。


Embarked:644人从S港口登船。





好了,现在我们已经初步认识了数据,剩余部分将在该系列的下一篇!


我是Linsur!欢迎找我玩!

评论