淘宝用户行为分析(1) - 数据清洗
一步步做完收获颇多,记录分享。数据来自阿里天池。
- 淘宝行为分析Tableau可视化展示
- 数据分析实战之淘宝用户行为分析(5) - 数据分析报告
- 数据分析实战之淘宝用户行为分析(4) - 用户购买行为分析
- 数据分析实战之淘宝用户行为分析(3) - 用户行为路径分析
- 数据分析实战之淘宝用户行为分析(2) - 用户行为数据分析
1. 导入数据。发现由于Timestamp数据过长,Timestamp以科学计数法显示。
① 将Timestamp调整为正常的时间戳格式
2. 观察数据,进行初步清洗。
① 处理空值
② 处理重复值
③ 将时间戳转换为日期格式
④ 处理异常值
以年为维度观察数据,发现
1970和2037属于异常值,删去。2018年和2015年的数据量太少(也可能是异常),不具有分析价值,删去。
>>> 明确分析的数据时间区间为2017年
以天为维度观察数据,发现除了2017-11-25至2017-12-03这个时间段(每日30w-50w数据量),其他日期的数据量非常非常少,仅有个位数或十位数。存在数据不完整的情况,不具有分析价值。
>>> 因此,进一步明确分析的数据统计区间为2017-11-25至2017-12-03这九天。
3. 为之后的分析准备数据。
① 基于下一步的分析需要,将datetime进行切分
>> 添加新列:时间段 (基于时间划分)
>> 添加新列:Weekday (基于日期判断当日为星期几)
4. 查看数据表,调整数据类型。
嘿嘿。
版权声明:本文为weixin_44900533原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。