在处理数据过程中经常会遇到数据去重处理,数据量小的可以通过查询去重来处理,对于数据量比较大的,通过数据库来处理,相对比较麻烦,主要在于硬件支持。下面笔者分享一个数据处理思路:
1.工具
(1)通过penetestbox提供的linux环境
(2)notepad++
(3)大文本编辑器EmEditor
2.处理思路及要求
(1)数据格式统一,需要处理的数据格式是一致的。字段类型一致,字段一致。
(2)通过linux命令进行去重排序
cat *.txt >all.txt
sort all.txt | uniq >allnew.txt
(3)通过notepad++或者EmEditor打开去重排序后的文件查看内容,并删除多余内容。添加字段名称至内容首段。
(4)通过Mysql等数据库将txt文件内容导入到数据库中方便进行查询分析。
版权声明:本文为weixin_44023460原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。