1、pivot_table()
pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
pivot_table有四个最重要的参数index、values、columns、aggfunc
index : 聚合的维度
values:可以筛选至某个列元素,或者是计算的依据指标
columns:聚合的指标,通常为列名
aggfunc:聚合选择的函数
fill_value:na的填充数值
output = a.pivot_table(index = ['sex','department'],columns = ['item_name'],values = ['employee_id'],aggfunc = 'count',fill_value = 0)margins=True进行汇总
重置索引:# 重置索引
res = res.reset_index(drop=Ture)2、sort_values()
DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)
pandas中的sort_values()函数原理类似于SQL中的order by,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。
指定列名(axis=0或’index’)或索引值(axis=1或’columns’)
3、value_counts()
用法:对某个字段计数。
pandas 的 value_counts() 函数可以对Series里面的每个值进行计数并且排序,默认是降序
DataFrame情况下,可以通过apply,对每一列变量进行统计
pd.value_counts(
values,
sort=True, #是否排序,默认是要排序
ascending=False, #默认降序排列
normalize=False, #标准化、转化成百分比形式
bins=None, #可以自定义分组区间,默认是没有,但也可以自定义区间
dropna=True, #是否删除nan,默认删除
)
#常规用法
import pandas as pd
pd.value_counts()
df.value_counts()
df['字段'].value_counts()版权声明:本文为weixin_49928588原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。