登录
  • #机器学习

机器‌‌‍‍‌‍‍‌‍‌‍‍‌‍‍‍‍‌‍‌‌‍‍‌‌‍‌‍‌‍‍‌学习的分类

wx2123
893
1
机器学习是人工智能的一个分支,它通过对数据的研究,构建出新的系统。机器学习的核心是描述(Representation)和归纳(Generalization)。所谓描述,就是找到数据的结构;所谓归纳,就是用数据进行预测。

机器学习和人类的学习类似,并不仅仅是简单的记忆,还需要对以前没有出现过的事件进行分析和判断。让机器通过了解过去,做到预测未来。机器学习可以分为监督学习(Supervised learning)和非监督学习(Unsupervised learning)。

首先,对于监督学习,我们预先知道“正确”答案。比方说,我们知道数据x和数据y,但是我们想知道x和y之间的关系,也就是它们之间的路线图(mapping)。所以,监督学习是从有标记的数据(labeled data)中学习。

举例来说,我们可以根据贷款人的年龄、性别、收入、信用水平和贷款金额等信息(也就是x)判断他是否符合小微贷款条件(也就是y),如表1所示。贷款人1和贷款人2的条件比较高,而且贷款金额低,因此通过了审批。贷款人3的条件比较差,而贷款金额比较高,所以就没有通过审批。

表1 小微贷款的监督机器学习

贷款人1 贷款人2 贷款人3

年龄 24 31 18

性别 男 女 男

年收入 31,000 46,000 13,000

信用水平 620 630 520

贷款金额 4,000 1,200 20,000

审批情况 通过 通过 拒绝

除了用于贷款审批,监督机器学习还可以应用于判断垃圾邮件,预测股市和楼市的价格等方面,如图1所示。

图1.监督机器学习预测股价和房价。

接下来,我们来介绍一下无监督机器学习。同监督机器学习不同,无监督机器学习没有明确的答案。在无监督机器学习中,数据没有标签。无监督机器学习的目标就是要了解数据的结构。

分类是无监督机器学习的重要应用方面。比方说,客户会给手机运营商打电话咨询各种问题。运营商就可以用无监督机器学习对这些客户电话进行分类。图1中,利用无监督机器学习的方法,把客户来电分为三类。

除此以外,无监督机器学习还可以用于自然语言识别(Nature language processing)。

最后,还要指出,数据之间也有差别。有些数据是连续的,比方说身高、体重、速度、时间等。但是有些数据确实离散的,比方说性别、民族、红绿灯的颜色等等。对于不同类型的数据,监督学习和无监督学习产生了4种分析方法:回归、分类、降维、聚类。

表2.机器学习和数据的关系

连续数据 离散数据

监督学习 回归分析 分类分析

无监督学习 降维分析 聚类分析
1条回复
热度排序

发表回复