监督学习(Supervised Learning)
定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
监督学习的分类:回归(Regression)、分类(Classification)
监督学习的例子:假设说你想通过查看病历来推测乳腺癌良性与否。
让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出 1 和 0 表 示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1 ,不是恶性,或者说良 性记为 0。
我有 5 个良性肿瘤样本,在 1 的位置有 5 个恶性肿瘤样本。现在我们有一个朋友很不幸 检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,你能否估算出 肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。
对于输入样本,都存在标签0或1,机器学习的任务就是通过该样本建立的模型来估计该肿瘤的性质,是恶性的还是良性的。
无监督学习(Unsupervised Learning)
定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,对于输入的样本数据是没有标签(label)的
无监督学习的分类:聚类
无监督学习的例子聚类应用的一个例子就是在谷歌新闻中。谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。 它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件, 自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。
参考视频:吴恩达机器学习
版权声明:本文为burning1996原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。