一、数据分析的概念
数据获取→数据清洗→统计分析→可视化→形成结论→验证结论→应用结论
根据这个图可以看下自己在哪方面还有缺腿,想往哪个方向发展。
1数据获取
2数据清洗
- 完整性:通过其他信息、前后数据补全、剔除多余数据
- 唯一性:按主键去重,合并同一主键下的数据
- 权威性:保证原始数据的准确性
- 一致性:建立数据体系,如指标体系、维度、单位、频度、数据格式
- 合法性:设定强制合法规则、字段内容及格式合法规则、离群值人工特殊处理
二、数据可视化的概念和方法
可视化场景:交通数据、地理信息、数量对比、时间序列、多维度展示、统计检验
常用工具:Tableau、DataV、Excel、R/Python
三、数据分析的常用模型
1描述性统计
单变量:均值、方差/标准差、分位点/中位数
多变量:协方差、相关系数
2有监督模型
通过已知目标的样本去研究变量关系,并预测未知目标的样本
回归:目标变量是连续型变量,代表:线性回归
分类:目标变量是离散型变量,代表:SVM、分类树、朴素贝叶斯、logistic regression、kNN
排序:page rank
3无监督模型
通过研究样本数据,发现数据内在规律
对特征:主成分分析、因子分析
对样本:关联分析、部分聚类分析、复杂网络、生成模型(如自动编码机、GAN等)
四、数据分析的常用工具
不要考虑学哪个,最好的办法是:都学!
1 R语言
面向统计分析的编程语言,丰富的作图功能,开源
- CRAN
- Rstudio
- install.packages(), library()
2 Python
胶水语言,免费的MATLAB
- pip install yourPackage 安装包
- import yourPackage as pkg 导入包
- from yourPackage import yourFunction 从包内导入函数