极简读懂机器学习算法思维

发布时间:2017-03-29 14:09 作者:佚名来源:极数蜗牛点击:加载中...次

本文没有公式推到，也没有代码编写，仅从算法理念和思维出发，以生活案例或日常思考方式来解读机器学习算法是什么。

　　(1)线性回归

回归最早是由高尔顿研究子女身高与父母身高遗传关系提出的，发现子女平均身高总是向中心回归而得名。其实“一分辛苦一分才”中就蕴含了线性回归算法思想，比较简单表现出才能与辛苦是正比关系。另外，经常听说“成功=3分才能+6分机会+1分贵人帮”，这是标准的线性回归方程，其中成功是因变量；才能、机会和贵人是自变量；而自变量前边的3、6和1是权重。

　　(2)K-聚类

中国有句古话是“物以类聚，人以群分”，其实已经蕴含了聚类算法的基本思想。比如说人，可以根据年龄分70后、80后、90后等；根据区域分北京、上海、广东等；根据性别分男和女。人可以根据不同特征属性进行划分，而在聚类算法中是根据不同方式来计算两个事物的距离，如欧氏距离、皮尔森相似度等。

假如根据年龄可以每10年份划分为70后、80后、90后等，也可以根据成长周期分童年、少年、青年、中年和老年。因此特征刻度大小决定了群体的范围，这反映在聚类算法中就是通过不同方法处理事物间距离，来确定事物属于哪个群体，如根据平均值、最大值等。

其中K值是表示划分群体的大小，如以区域为例，K=34，则划分为全国省份；K=7，则划分为东北，中原，华东，华北，华南，西北和西部等；K=2，则划分为南方和北方。

　　(3)K-邻近

中国还有句古话是“近朱者赤近墨者黑”，该句也蕴含了K-邻近算法的思想。比如判断一个人是否是有钱人，可以根据其最近联系的人群中，有钱人的比例来推测。这就需要解决两个问题，一是如何确定最近联系人，二是如何计算有钱人比例。这反映在K-邻近算法中就是首先确定不同事物样本的距离，然后确定K值的大小，根据K值内的有钱人占比，来预测未知用户的状态。

K值的大小将会直接决定预测结果，假如你有5个有钱人朋友，当K=8时，判定你为有钱人；但当K=12时，则判定你不是有钱人。因此在该算法中K的选择至关重要。

　　(4)朴素贝叶斯

“吃一亏长一智”反映了朴素贝叶斯算法思维，就是通过后验经验法，来对未知的预测。假如你经常买水果，发现10个青苹果里边8个都是酸的，而10个红苹果里有7个都是甜的，这种经验告诉以后再挑选苹果时，红苹果7/10是甜的，青苹果2/10是甜的，如果你喜欢甜的，那就选红苹果吧。

　　(5)决策树

在婚恋相亲时经常被问到“你有车吗？你有房吗？你有钱吗？”，这和决策树的思维过程极其相似。决策树是由树枝，树叶，节点组成的树型结构，其中每个节点就是一个问题或特征(如你有车吗？)，每个树枝是问题的走向(如有)，每个节点就是答案(相亲成功)。