
python - pandas学习 Series
import
Series 是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。
# Series 包含四部分
- Series的生成
# 通过list生成
- 通过list生成Series, 如指定index, 则len(list) == len(index) 长度相等
# 通过字典生成
- 注: 不指定index,则会把dict的key作为index, 若指定index, index中对应的key会存在(a, b); index中未对应的Key则补NaN ('d'); dict的其他元素忽略('c')
# 通过数值生成
- Series的数据类型
Series存储的数据类型: float64, int64, object 。 Series会自动统一数据类型
- Series的数据查看
# 首先 准备生成一个关于基金数据的Series
- 注意 Series 含扩展类型时,Series.values 无法判断到底是该返回 NumPy array,还是返回 ExtensionArray。而 Series.array 则只返回 ExtensionArray,且不会复制数据。Series.to_numpy() 则返回 NumPy 数组,其代价是需要复制、并强制转换数据的值(若值都是浮点数,to_numpy() 的操作会很快,而且不复制数据。)。 最好使用Series.array方法
describe() 可以快速查看数据的统计摘要
print
4. 选择查看值
# 获取某一具体值
- 注:pandas的数据结构都有显示索引和隐式索引, 对Series而言,显示索引就是index, 它的用法就像dict, pandas的loc和at都是使用显示索引。隐式索引就像list的下标索引,pandas的iloc和iat都是使用隐式索引
- loc,iloc既可以取多值,也可以取单一数值,而at,iat只能取单一数值
# 切片
- 选择、设置标准 Python / Numpy 的表达式已经非常直观,但还是推荐优化过的 Pandas 数据访问方法:.at、.iat、.loc 和 .iloc。
5. 布尔索引
布尔索引像filter函数一样,返回True的内容
# 找出单位净值大于1.5的内容
6. 赋值操作
# fund 的日期有缺失,现在补齐这些日期
7. 缺失值处理
# 1、删除缺失值
8.方法与函数
- 字符串方法-- Series 的 str 属性包含一组字符串处理功能,如下列代码所示。注意,str 的模式匹配默认使用正则表达式
s
- 结合
s
- 追加
s