pd.pivot_table 、sort_values()，value_counts()

1、pivot_table（）

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

pivot_table有四个最重要的参数index、values、columns、aggfunc

index : 聚合的维度

values：可以筛选至某个列元素，或者是计算的依据指标

columns：聚合的指标,通常为列名

aggfunc：聚合选择的函数

fill_value：na的填充数值

output = a.pivot_table(index = ['sex','department'],columns = ['item_name'],values = ['employee_id'],aggfunc = 'count',fill_value = 0)

margins=True进行汇总

重置索引：# 重置索引

res = res.reset_index(drop=Ture)

2、sort_values()

DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)

pandas中的sort_values()函数原理类似于SQL中的order by，可以将数据集依照某个字段中的数据进行排序，该函数即可根据指定列数据也可根据指定行的数据排序。

指定列名(axis=0或’index’)或索引值(axis=1或’columns’)

3、value_counts（）

用法：对某个字段计数。

pandas 的 value_counts() 函数可以对Series里面的每个值进行计数并且排序，默认是降序

DataFrame情况下，可以通过apply，对每一列变量进行统计

pd.value_counts(
    values,
    sort=True,        #是否排序，默认是要排序
    ascending=False,     #默认降序排列
    normalize=False,     #标准化、转化成百分比形式
    bins=None,    #可以自定义分组区间，默认是没有，但也可以自定义区间
    dropna=True,   #是否删除nan，默认删除
)
#常规用法

import pandas as pd

pd.value_counts()
df.value_counts()
df['字段'].value_counts()

原文链接：https://blog.csdn.net/weixin_49928588/article/details/125644475