当前位置:主页>科 研>学术交流>

极简读懂机器学习算法思维

本文没有公式推到,也没有代码编写,仅从算法理念和思维出发,以生活案例或日常思考方式来解读机器学习算法是什么。

  (1)线性回归

回归最早是由高尔顿研究子女身高与父母身高遗传关系提出的,发现子女平均身高总是向中心回归而得名。其实“一分辛苦一分才”中就蕴含了线性回归算法思想,比较简单表现出才能与辛苦是正比关系。另外,经常听说“成功=3分才能+6分机会+1分贵人帮”,这是标准的线性回归方程,其中成功是因变量;才能、机会和贵人是自变量;而自变量前边的3、6和1是权重。

  (2)K-聚类

中国有句古话是“物以类聚,人以群分”,其实已经蕴含了聚类算法的基本思想。比如说人,可以根据年龄分70后、80后、90后等;根据区域分北京、上海、广东等;根据性别分男和女。人可以根据不同特征属性进行划分,而在聚类算法中是根据不同方式来计算两个事物的距离,如欧氏距离、皮尔森相似度等。

假如根据年龄可以每10年份划分为70后、80后、90后等,也可以根据成长周期分童年、少年、青年、中年和老年。因此特征刻度大小决定了群体的范围,这反映在聚类算法中就是通过不同方法处理事物间距离,来确定事物属于哪个群体,如根据平均值、最大值等。

其中K值是表示划分群体的大小,如以区域为例,K=34,则划分为全国省份;K=7,则划分为东北,中原,华东,华北,华南,西北和西部等;K=2,则划分为南方和北方。

  (3)K-邻近

中国还有句古话是“近朱者赤近墨者黑”,该句也蕴含了K-邻近算法的思想。比如判断一个人是否是有钱人,可以根据其最近联系的人群中,有钱人的比例来推测。这就需要解决两个问题,一是如何确定最近联系人,二是如何计算有钱人比例。这反映在K-邻近算法中就是首先确定不同事物样本的距离,然后确定K值的大小,根据K值内的有钱人占比,来预测未知用户的状态。

K值的大小将会直接决定预测结果,假如你有5个有钱人朋友,当K=8时,判定你为有钱人;但当K=12时,则判定你不是有钱人。因此在该算法中K的选择至关重要。

  (4)朴素贝叶斯

“吃一亏长一智”反映了朴素贝叶斯算法思维,就是通过后验经验法,来对未知的预测。假如你经常买水果,发现10个青苹果里边8个都是酸的,而10个红苹果里有7个都是甜的,这种经验告诉以后再挑选苹果时,红苹果7/10是甜的,青苹果2/10是甜的,如果你喜欢甜的,那就选红苹果吧。

  (5)决策树

在婚恋相亲时经常被问到“你有车吗?你有房吗?你有钱吗?”,这和决策树的思维过程极其相似。决策树是由树枝,树叶,节点组成的树型结构,其中每个节点就是一个问题或特征(如你有车吗?),每个树枝是问题的走向(如有),每个节点就是答案(相亲成功)。



 

相亲决策树

(责任编辑:安博涛)

分享到:

更多
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
  • 微笑/wx
  • 撇嘴/pz
  • 抓狂/zk
  • 流汗/lh
  • 大兵/db
  • 奋斗/fd
  • 疑问/yw
  • 晕/y
  • 偷笑/wx
  • 可爱/ka
  • 傲慢/am
  • 惊恐/jk
用户名: 验证码:点击我更换图片
资料下载专区
图文资讯

面向大数据的情报系统初探:以数据为中心的

面向大数据的情报系统初探:以数据为中心的情报系统将成为信息化战争的制胜关键

本文由信息与电子前沿(ID:caeit-e)授权转载,发表于《中国电子科学研究院学报》第11...[详细]

极简读懂机器学习算法思维

极简读懂机器学习算法思维

本文没有公式推到,也没有代码编写,仅从算法理念和思维出发,以生活案例或日常思考方...[详细]

神通广大的小波理论|2017年阿贝尔奖

神通广大的小波理论|2017年阿贝尔奖

1960年,尤金维格纳在《数学在自然科学中不合理的有效性》中论证了数学概念和发现的非...[详细]

Cloudflare泄露客户数据,IT部门可从中吸取

Cloudflare泄露客户数据,IT部门可从中吸取什么教训?

网站和手机应用程序信息在哪里泄露?无人知晓。但是,IT部门应该考虑怎样做才能确保信...[详细]

文本验证已经过时 神经网络是验证码的大敌

文本验证已经过时 神经网络是验证码的大敌

最初的验证码在2000年投入使用,从那时起验证码整体上都大同小异。考虑到验证码主要是...[详细]

返回首页 返回顶部