数据分析与建模的基础知识

一、数据分析的概念

数据获取→数据清洗→统计分析→可视化→形成结论→验证结论→应用结论

根据这个图可以看下自己在哪方面还有缺腿,想往哪个方向发展。

1数据获取

2数据清洗

- 完整性:通过其他信息、前后数据补全、剔除多余数据

- 唯一性:按主键去重,合并同一主键下的数据

- 权威性:保证原始数据的准确性

- 一致性:建立数据体系,如指标体系、维度、单位、频度、数据格式

- 合法性:设定强制合法规则、字段内容及格式合法规则、离群值人工特殊处理

 

二、数据可视化的概念和方法

可视化场景:交通数据、地理信息、数量对比、时间序列、多维度展示、统计检验

常用工具:Tableau、DataV、Excel、R/Python

 

三、数据分析的常用模型

1描述性统计

单变量:均值、方差/标准差、分位点/中位数

多变量:协方差、相关系数

2有监督模型

通过已知目标的样本去研究变量关系,并预测未知目标的样本

回归:目标变量是连续型变量,代表:线性回归

分类:目标变量是离散型变量,代表:SVM、分类树、朴素贝叶斯、logistic regression、kNN

排序:page rank

3无监督模型

通过研究样本数据,发现数据内在规律

对特征:主成分分析、因子分析

对样本:关联分析、部分聚类分析、复杂网络、生成模型(如自动编码机、GAN等)

 

四、数据分析的常用工具

不要考虑学哪个,最好的办法是:都学!

1 R语言

面向统计分析的编程语言,丰富的作图功能,开源

- CRAN

- Rstudio

- install.packages(), library()

2 Python

胶水语言,免费的MATLAB

- pip install yourPackage 安装包

- import yourPackage as pkg 导入包

- from yourPackage import yourFunction 从包内导入函数


版权声明:本文为axy_shelly原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。