将数据集准备好之后,通常的任务是计算分组统计或生成透视表。下面讲解
DataFrame关于聚合相关方法。
经过优化的groupby的方法
| 函数名 | 说明 |
|---|---|
| count | 分组中非NA值的数量 |
| sum | 非NA值的和 |
| mean | 非NA值的平均值 |
| median | 非NA值的算术中位数 |
| std、var | 无偏(分母为n-1)标准差和方差 |
| min、max | 非NA值的最小值和最大值 |
| prod | 非NA值的积 |
| first、last | 第一个和最后一个非NA值 |
pivot_table的参数
| 参数 | 说明 |
|---|---|
| values | 待聚合的列的名称。默认聚合所有数值列 |
| rows | 用于分组的列名或其他分组键,出现在结果透视表的行 |
| cols | 用于分组的列名或其他分组建,出现在结果透视表的列 |
| aggfunc | 聚合函数或函数列表,默认为“mean” |
| fill_value | 用于替换结果表中的缺失值 |
| margins | 添加行/列小计和总计,默认为False |
参考文献:
利用Python进行数据分析. Wes McKinney. 唐学韬译
版权声明:本文为shandianke原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。