本文主要是阅读李航《统计学习方法》一书第一章后的一些梳理,总结,同时也学习使用一下Markdown.
统计学习三要素
模型(model):假设空间中的函数簇。概念有参数向量。
策略(strategy):评价模型好坏的标准。概念有损失函数,风险函数(期望损失),经验风险(ERM),结构风险(SRM),正则化(范数)。
算法(algorithm):求解最优模型的算法。概念有优化算法(梯度下降,最小二乘法,全局最优)。
步骤:
训练数据集合——>假设空间选取——>损失函数确定——>求解模型的算法获取参数值——>最优模型获取——>预测或分析
模型
生成模型:由数据学习联合概率分布然后求得条件概率分布P(X|Y)=P(X,Y)P(X)。例如朴素贝叶斯和隐马尔可夫。优点:收敛速度快,有隐变量时仍然可以。
判别模型:直接由决策函数f(x)或条件概率P(X|Y)求得Y。例如KNN,SVM,决策树,logistic,最大熵,adoboost, CRF等。 优点:特征提取可以简化学习,准确率高。
有监督学习
回归(regression):输入变量X和输出变量Y都是连续的。
例如: 函数拟合,股票趋势预测,产品质量管理,
常用模型: 逻辑斯蒂回归分类(classification):输入变量X可以为连续的也可以为离散的,但输出变量Y是离散的。
例如: 文本分类,客户信用分类,图像识别,
常用模型:SVM, 决策树,等等等标注(tagging):输入变量和输出变量均为序列的问题,即都为离散的,分类的一种情况。
例如: 词性标注,信息抽取
常用模型: 隐马尔可夫,条件随机场
需要复习点
- 大数定律
- 求偏导
- 最小二乘法
- 范数
- 极大似然估计
- 联合概率分布
- 伯努利模型
版权声明:本文为u014497250原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。