- 机器学习:软件工程方法与实现
- 张春强 张和平 唐振
- 237字
- 2021-01-07 17:12:44
5.2.1 整体数据概览
数据分析的第一步:了解数据全貌。Pandas中支持快速查看数据概览。
1)导入相关的包和加载示例数据:
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt #seaborn里有数据集,可以直接加载使用 titanic_df = sns.load_dataset('titanic') #查看前5条数据 titanic_df.head()
输出如图5-2所示。
图5-2 head接口看数据情况
2)查看数据量和概览:
print(titanic_df.shape) #输出 (891,15) #查看DataFrame的基本信息,包含索引、字段名称、非空值统计、字段类型 titanic_df.info()
输出如图5-3所示。
3)查看数值型变量的描述统计信息,包括数量、均值、标准差、最大最小值、分位数:
titanic_df.describe()
输出如图5-4所示。
图5-3 DataFrame基本信息
图5-4 数据描述统计信息