scikit-learn是Python的机器学习库:
· 它是进行数据挖掘和数据分析的简单而高效的工具
· 任何人都可使用,可在多种场景/上下文复用
· 基于NumPy,SciPy和matplotlib构建
· 开放源代码,可用于商业用途_BSD协议
安装 scikit-learn, 你需要:
· Python(>= 2.7 or >= 3.3),
· NumPy(>= 1.8.2),
· SciPy(>= 0.13.3).
如果你已经安装了NumPy和SciPy,你可以直接通过pip安装或卸载scikit-learn
pip install -U scikit-learn
pip uninstall scikit-learn
按照功能,我们可以分为4大模块
- 分类
用来识别一个对象属于哪个类,一般需要对数据打标签,主要应用于垃圾邮件检测,图像识别等,主要的算法是SVM(支持向量机),KNN(K近邻),随机森林
- 回归
用来预测与某个对象相关联的连续值属性,应用于药物反应,股票价格预测等,主要的算法是线性回归,SVR(支持向量回归),ridgeregression(岭回归),LASSO回归
- 聚类
用来将相似的对象自动聚集到不同的集合中,一般数据没有打标签,应用于顾客细分,分组试验结果等,主要算法有K-Means,谱聚类,mean-shift中值移动
- 降维
用于降低随机变量的数目,应用于可视化和提高效率,主要算法为PCA(主成分分析),特征选取,非负矩阵分解等