pandas中一些常用的工具

  • 注意这些都必须是在pandas中的DataFrame使用
  • 第一个:value_counts()

Series.value_counts(normalize=Falsesort=Trueascending=Falsebins=Nonedropna=True)

Returns object containing counts of unique values.

简单地说:看看数据中有哪些不同的值,并计算每个值有多少个重复值

 

  • 第二个:iloc()

切分数据

比如:  label=y_train.iloc[0]       上式的作用切分y_train中第一行的数据给label.

             label=y_train.iloc[:,-1]          把y_train中数据最后一列给label

  • 第三个 sort_values()

DataFrame.sort_values(byaxis=0ascending=Trueinplace=Falsekind='quicksort'na_position='last')

>>> df = pd.DataFrame({
...     'col1' : ['A', 'A', 'B', np.nan, 'D', 'C'],
...     'col2' : [2, 1, 9, 8, 7, 4],
...     'col3': [0, 1, 9, 4, 2, 3],
... })
>>> df
    col1 col2 col3
0   A    2    0
1   A    1    1
2   B    9    9
3   NaN  8    4
4   D    7    2
5   C    4    3
>>> df.sort_values(by='col1', ascending=False)   # 根据col1来下降排序
    col1 col2 col3
4   D    7    2
5   C    4    3
2   B    9    9
0   A    2    0
1   A    1    1
3   NaN  8    4

 

第四个:index

 

第五个:loc()

selection by label(根据标签删除数据)

 参考网页

第六个:drop()

删掉某列某行数据

参考网页

 

 

 

 

 

 

 

 


版权声明:本文为manqianfu9364原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。