点击上方关注，直达人工智能前沿！

如果你计划在python中学习数据分析，机器学习或数据科学工具，那么pandas库会是你的不二之选，Pandas是一个在python中操作和分析数据的开源库。

数据导入

练习数据导入最简单方法就是加载表(和excel文件)，然后以多种方式对它们进行切片和切块：

Pandas允许我们加载电子表格并在python中以编程方式对其进行操作。pandas中的中心概念是称为DataFrame的对象类型 —- —- 就是是一个表，每行和列都有一个标签。下面加载这个包含音乐流媒体服务数据的基本CSV文件：

df = pandas.read_csv('music.csv')

现在变量df是一个pandas DataFrame：

选择

可以使用其标签选择任何列：

可以通过数字索引选择一行或多行：

我们可以使用列标签和行号来选择表的任何切片loc(但这里它将包括两个边界行号)：

过滤

可以使用特定行的值轻松过滤行。例如，过滤爵士音乐家Jazz：

筛选拥有超过1,800,000名听众的艺术家：

处理缺失值

在数据科学中许多数据集都包含缺失值，如下：

pandas提供了多种方法来解决这个问题。最简单的方法是删除缺少值的行：

另一种方法是使用fillna()(例如0)填充缺失值。

分组

使用特定条件对行进行分组并聚合其数据时，可以按类型对数据集进行分组，看看每种类型的音乐有多少听众和爱好者：

Pandas将上图中两个”Jazz”行组合成一个，通过sum()聚合，将Jazz的听众和爱好者加在一起，并显示总和。

通过groupby()，可以实现数据集的折叠并从中发现数据的规律，聚合也是统计学的基础工具之一。

除了sum()，Pandas还提供多种聚合功能，包括mean()计算平均值，min()，max()等多个其他功能。

添加新列

通常在数据分析过程中，需要从现有列添加新列。这在Pandas里轻而易举。

欢迎关注全平台AI自媒体 “AI新视野”，第一时间获取人工智能学术、产业前沿！