Pandas常用操作

使用Pandas的drop_duplicates去除重复项

返回DataFrame格式的数据

subset : 指定列,默认所有列

keep : {‘first’, ‘last’, False},删除重复项并保留某项

  • first: 保留第一次,删除后面的重复行
  • last: 保留最后一次,删除重复行
  • False: 删除所有重复项

inplace : boolean, 在原来数据上修改还是保留一个副本,默认False生成副本

读csv文件中某列去重后的内容:

df = pd.DataFrame({
    'name': ['Tom', 'Lily', 'Sam', 'Alex',],
    'favorite_color': ['red', 'yellow', 'blue', 'red',],
})
colors = np.array(df.drop_duplicates(subset={'favorite_color'}, keep='first', inplace=False)['favorite_color'])
print(colors) #['red' 'yellow' 'blue']
print(df)
#   name favorite_color
#0   Tom            red
#1  Lily         yellow
#2   Sam           blue
#3  Alex            red


版权声明:本文为weixin_42774598原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。