一、赛题理解
1.1赛题概述
赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。
具体的数据表如下:
SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】
数字全都脱敏处理,都为label encoding形式,即数字形式.
二、 EDA-数据探索性分析
2.1 内容介绍
1.载入各种数据科学以及可视化库:
数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;其他;
2.载入数据:
载入训练集和测试集;简略观察数据(head()+shape);
3.数据总览:
通过describe()来熟悉数据的相关统计量;通过info()来熟悉数据类型
4.判断数据缺失和异常:
查看每列的存在nan情况;异常值检测
5.了解预测值的分布:
总体分布概况(无界约翰逊分布等);查看skewness and kurtosis;查看预测值的具体频数
6.特征分为类别特征和数字特征,并对类别特征查看unique分布
7.数字特征分析:
相关性分析;查看几个特征的偏度和峰值;每个数字特征得分布可视化;数字特征相互之间的关系可视化;多变量互相回归关系可视化
8.类型特征分析:
unique分布;类别特征箱形图可视化;类别特征的小提琴图可视化;类别特征的柱形图可视化类别;特征的每个类别频数可视化(count_plot)
9.用pandas_profiling生成数据报告
2.2数据总览
1.载入各种数据科学以及可视化库
整体数据把握:包括读入数据之后,首先利用.shape查看数据维度,然后利用.head()与.tail()查看数据的前五行和最后五行了解其列数以及每列的具体value.
未完待续