使用Pandas的drop_duplicates去除重复项

返回DataFrame格式的数据

subset : 指定列，默认所有列

keep : {‘first’, ‘last’, False}，删除重复项并保留某项

first：保留第一次，删除后面的重复行
last：保留最后一次，删除重复行
False：删除所有重复项

inplace : boolean, 在原来数据上修改还是保留一个副本，默认False生成副本

读csv文件中某列去重后的内容：

df = pd.DataFrame({
    'name': ['Tom', 'Lily', 'Sam', 'Alex',],
    'favorite_color': ['red', 'yellow', 'blue', 'red',],
})
colors = np.array(df.drop_duplicates(subset={'favorite_color'}, keep='first', inplace=False)['favorite_color'])
print(colors) #['red' 'yellow' 'blue']
print(df)
#   name favorite_color
#0   Tom            red
#1  Lily         yellow
#2   Sam           blue
#3  Alex            red

原文链接：https://blog.csdn.net/weixin_42774598/article/details/126348509