IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]机器学习-入门介绍

    cgl1079743846发表于 2016-07-28 23:53:10
    love 0

    一. 背景

    在机器学习中,有2个很大的思路监督学习(supervised learning)和非监督学习(unsupervised learning)
    监督学习,用通俗的话来说就是你知道问题的答案,需要计算机给出一个更标准的答案。
    非监督学习,用通俗的话来说就是物以类聚,人以群分。我们拿到了很多数据,但是不知道问题的答案,希望计算机给我们提供思路。
    在生产环境中,往往采用混合模式。比如图片搜索,如何能够查找网页中判断那个图片是老虎,那个是狗。就有2个思路。
       1. 根据图片周围的文字。
       2. 图片的图像数据分析。
    2个角度相互校验,稳定之后,就可以产生足够的标注信息了。
    

    二. 监督学习

    1. 监督学习指的是已知一个数据集和数据集中每个数据的正确答案,算法就是基于这个已知的数据集来做出学习并预测出结果。监督学习常见的有回归问题和分类问题
       1). 回归问题
       举例: 已知一批房地产数据,每个数据包括房子面积和售价,想预测一个给定大小的房子面积和售价,这类问题我们称为回归问题。
       2). 分类问题
       举例: 医学界根据已知肿瘤患者的年龄和肿瘤的类型(良性/恶性),想预测一个病人所患肿瘤的类型,这类问题我们称为分类问题。
    2. 在监督学习的数据集中每个样本都已经被标明为正样本或者负样本
    

    三. 无监督学习

    1. 在无监督学习中,我们用的数据会和监督学习里的看起来有些不一样。在无监督学习中没有属性或标签这一概念,也就是说所有的数据都是一样的没有区别。
    所以在无监督学习中,我们只有一个数据集,我们也不知道每个数据点究竟是什么意思。相反,它只告诉我们现在有一个数据集,你能在其中找到某种结构吗? 
    对于给定的数据集,无监督学习算法可能判定,该数据集包含n个不同的聚类。 
    2. 无监督学习算法,最常见的是聚类。例如谷歌新闻对新闻进行归类,分为体育、热点、社会 ...
    


沪ICP备19023445号-2号
友情链接