特征工程系列(二)特征理解

《特征工程入门与实践》 笔记

第二章 特征理解

1.数据结构的有无

拿到新的数据集,第一要确认数据是结构化的还是非结构化的。
结构化数据:可以分成观察值和特征的数据,一般为表格的形式
非结构化数据:一团数据不遵循标准组织结构。(例如服务器的日志、一般文本形式的数据)

2.定量数据和定性数据

定量数据本质上是数值,衡量数量。
定性数据本质上是类别,描述性质。

查看缺失值:

data.info()#会显示非缺失值个数
data.isnull().sum()

某一列数据都是“” 开 头 , 去 掉 ′ ”开头,去掉'‘’

data = data.map(lambda value:value.replace('$','')

转换数据类型

data = data.astype(float)

检查转化是否有效

data.info()#看各列的数据类型

3.数据的四个等级

3.1定类等级(nominal level)

结构最弱的等级,只按名称分类(血型、姓名)
可以用 value_counts()计数
可以画条形图和饼图

3.2定序等级(ordinal level)

继承了定类等级的全部属性,且定序等级能自然排列。
我们既可以像定类等级那样计数,也可以引入比较和排序,可以计算中位数和分位数。
对于中位数和分位数我们可以画茎叶图和箱线图。
先对其数学特征进行处理:

data.describe()

将其转化为字符串,同定类数据一样处理。

data=data.astype(str)
data.describe()#会返回总数、类别数、众数以及其个数

3.3定距等级 (interval level)

数值数据不仅可以排序,值之间的差值也变得有意义。定距等级中数不止可以排序比较还可以加减。
可以引入算数平均数和标准差

3.4定比等级 (ratio level)

拥有最高程度的控制和数学运算能力。可以进行乘除运算。


版权声明:本文为weixin_43376061原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。