登录
  • #数据科学

机器学习西瓜书学习分享

sallysss
683
0
一、机器学习原理机器学习:致力于研究如果通过技术手段,利用经验来改善系统自身性能。机器学习研究主要内容:研究能在计算机上从数据中产生模型(model)的算法,即学习算法(learning algorithm)模型:全局性结果,即一棵决策树模式:局部性结果,一条规则二、常见术语一般地,令D={X1,...,Xm}表示包含m个示例的数据集,每个示例由d个属性描述,每个示例Xi=(x_i1,x_i2,...,x_id) 是d维样本空间Χ中的一个向量,x_ij为第i个向量的第j个属性,d称为样本的维数1、数据集(data set):数据记录的集合2、每条记录是关于事件或对象的描述,称为一个示例(instance)或样本(sample)3、反映事件或对象在某方面的表现或性质的事项,称为属性(attribute)或特征(feature)4、属性上的取值称为属性值(attribute value)5、属性张成的空间,称为属性空间(attribute space)或样本空间(sample space)6、在空间中,一个示例也被称为特征向量(feature vector)7、从数据中学习模型的过程称为学习(Learing)或训练(training)8、训练集(training set)9、训练后,获得的关于数据集的某种潜在规律,称为假设(hypothesis)10、数据集本身所客观存在的潜在规律,称为真相(ground-truth)11、学习过程的目的:找出真相或无限逼近真相12、学习模型(model)也是学习器(learner)有监督学习(supervised learning):训练数据具有标记信息13、标记(label):关于示例结果的信息(或者说结论)14、拥有标记信息(label)的示例,称为样例(example)15、所有标记的集合Y称为标记空间(label space)或输出空间16、分类(classification):预测结果为离散值的学习任务(标记空间为有限集合)

* 二分类任务(binary classification):涉及两个类别的分类任务,称一个类为正类(positive class),另一个为反类(negative class)

* 多分类任务(multi-class classification):涉及多个类别的分类任务

17、回归(regression):预测结果为连续值的学习任务(标记空间为连续区间)18、测试(testing):学得模型后,使用模型进行预测的过程19、测试样本(testing sample):被预测的样本20、预测标记:预测所获得的标记结果无监督学习(unsupervied learning): 训练数据没有标记信息21、聚类(clustering):将训练集中数据分为若干组,每组称为一个簇(cluster),聚类有助于了解数据的内在规律,为更深入地分析数据建立基础机器学习的目标:使学得的模型很好地适用于'新样本'22、泛化(generalization)能力:学的模型适用于新样本的能力通常假设,样本空间中全体样本服从一个未知的分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed 即iid)23、归纳(induction):从具体事实归结出一般性规律24、演绎(deduction):从基础原理推演出具体状况假设空间可以把学习过程堪称一个在所有假设组成的空间中进行搜索的过程,搜索目标式找到与训练集匹配(fit)的假设版本空间:与训练及一致的假设集合归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好

* 任何一个有效的机器学习算法必有七归纳偏好,否则将被假设空间中,在训练集上“等效”的假设迷惑

* 奥卡姆剃刀(Occam's razor):常用的自然科学研究中最基本的原则:若有多个假设与观察一致,选择最简单的一个

NFL定理(No Free Lunch Theorem):由于对所有可能函数的相互补偿,最优化算法的性能是等价的。

* 对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;

* 对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

* 对所有的先验知识求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

* 对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。

NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。谈论算法的优劣,必须针对具体的学习问题三、机器学习分类1、有监督学习:训练时提前知道结果分类:K近邻,朴素贝叶斯,决策树,SVM回归:线性回归,逻辑回归,岭回归2、无监督学习:训练时提前不知道结果聚类cluster:K-means3、半监督学习 :训练时知道一部分结果,数据里面一般有结果一半没有结果深度学习3、数据来源:

* UCI mechine learning 数据集网站

* sklearn自带数据库:sklearn.datasets
0条回复
热度排序

发表回复