数据分析实战之淘宝用户行为分析(1) -- 数据清洗

淘宝用户行为分析(1) - 数据清洗

一步步做完收获颇多,记录分享。数据来自阿里天池



 1. 导入数据。发现由于Timestamp数据过长,Timestamp以科学计数法显示。

① 将Timestamp调整为正常的时间戳格式

 2. 观察数据,进行初步清洗。

① 处理空值

② 处理重复值 

 ③ 将时间戳转换为日期格式

④ 处理异常值

以年为维度观察数据,发现 

1970和2037属于异常值,删去。2018年和2015年的数据量太少(也可能是异常),不具有分析价值,删去。

>>> 明确分析的数据时间区间为2017年

以天为维度观察数据,发现除了2017-11-25至2017-12-03这个时间段(每日30w-50w数据量),其他日期的数据量非常非常少,仅有个位数或十位数。存在数据不完整的情况,不具有分析价值。

>>> 因此,进一步明确分析的数据统计区间为2017-11-25至2017-12-03这九天。

3. 为之后的分析准备数据。 

① 基于下一步的分析需要,将datetime进行切分

 >> 添加新列:时间段 (基于时间划分)

 >> 添加新列:Weekday (基于日期判断当日为星期几)

 4. 查看数据表,调整数据类型。

 

嘿嘿。


版权声明:本文为weixin_44900533原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。