登录
  • #机器学习

JH‌‌‍‍‌‍‍‌‍‌‌‍‍‌‌‍‌‌‌‍‌‌‍‍‌‍‍‍‌‌‌‌U数据科学专项课程总结

sweeroty
3436
9
1. 前言我是最早完成Coursera上Data Science Specialization专项课程所有9门课程和Capstone Project的学生(楼主上课很认真,所有都是满分^_^),本来以为Specialization Certificate能在11月就拿到,结果被Coursera放了鸽子,得到这个月了。在这里和大家分享一下对于它的一些体验和经验。 MOOC社区对Data Science Specialization的评价不是特别高,至少认为第一轮的所有课程还有不少可以提高的地方。要知道,当时每门课程的Verified Certificate可是要49刀!(现在我看了一下似乎只要29刀了)我完成的第一门MOOC课程是在2013年10月-12月,正是JHU的Data Analysis by Jeff Leek。从第一轮DS的课程来看,应该是以这门12周的Data Analysis为骨架扩充的。可以说通过这门课程,我算是入了数据分析和统计学习的门,并且可以运用R进行一些基本的分析和运算。接下来,我便上了Roger Peng的Computing for Data Analysis,完全是讲R的使用。DS中的第二门课R Programming几乎就是这门课换了一个名字。不过,Coursera承认可以使用这门课的证书替换R Programming。上这门课中的一段时间,我正在马来西亚旅游,为了完成作业特地背着Air,边旅行边coding。由于已经在Data Analysis中打下了R的基础,所以编程作业完成的很顺利,都是一次提交就通过了。接下来讲DS!



2. 第一批课程:Data Scientists' Toolbox, R Programming, Getting and Cleaning Data第一批上线的3门课,我只用上Toolbox和Get and Clean Data。Toolbox可以认为是Introduction to Github。Get and Clean Data给我的感觉也一般,可以认为是在Data Analysis这门课相关章节的基础上稍微扩展了一下,主要在讲R中有关数据读入、基本转换的包。当时觉得49刀有些……



3. 第二批课程:Exploratory Data Analysis, Reproducible Research, Statistical Inference(1) Exploratory Data Analysis: 和Get and Clean data有”异曲同工之妙”,主要是在讲R中的Base plot、lattice plot和ggplot三个图形系统。结合我自己在做机器学习竞赛的经验,exploratory analysis对于解决一个机器学习问题是极其重要的:对数据进行怎样的预处理、是否scale、怎么解释missing data、需进行降维处理吗,特征之间是否有依赖关系,怎样选取特征,怎样合成新的特征等等,这些决策往往来自于Exploratory analysis中得到对数据的直观认识。而这些内容,除了讲解了R中聚类和PCA的简单实现之外,其他在数据分析中需要的经验和技巧都没有涉及。Roger可能把这门课程定位于入门级别,因此没怎么涉及这些内容。(2) Reproducible Resarch:和Toolbox类似,就是在讲某一种东西的使用,在这里就是R Markdown。(3) Statistical Inference:DS系列中难度最大,也是被吐槽最多的课。吐槽多,是因为,至少在第一轮课程中,Brain Caffo备课备的不好,结构性、流畅性和准备程度都不如Roger和Jeff,讲课视频遭到了吐槽,后来又重新录制了。另外,相比于之前的课程,Statistical Inference开始涉及概率、统计分布、假设检验等统计知识,成了DS第一轮中最难课程。我个人把Statistical Inference的lecture听过两遍,主要是为了回忆回忆大学时概率论与数理统计。



4. 第三批课程: Regression Model, Practical Machine Learning, Data Products(1) Regression Model:虽然Brain的Regression Model有一些同样在Statistical Inference中出现的问题,不过整体感觉有好转。这门课在不要求微积分与线性代数知识的前提下讲解回归模型以及模型的解释与统计检验,让我对回归有了更深入的认识。我个人在这门课程上收获还是不少的。(2) Practical Machine Learning:以R中机器学习包Caret为中心,讲解了解决machine learning问题的基本步骤与技巧,着重讲了Tree相关模型的实现(Bagging和Boosting)(3) Data Products:其实就是讲了如何制作shiny app和slide presentation,和toolbox是一个模子的。



5. Capstone Project

终于到了最后的Project。Project要求完成一个英文输入法预测程序,根据用户的输入,预测下一个单词。这门课的特点是:you never walk alone(本人绝非利物浦球迷!)。Roger每周只会发布一个简短的视频说明这周的task。然后老师们就几乎消失匿迹了。学生们则在discussion forum中相互扶持,完成了最终的作业。说实话,虽然涉及了自然语言处理,但是Project的要求并没有多深,可能最大的的难点在于数据量对于个人电脑而言比较大,建模过程中很吃内存。我当时几乎要用一整天的时间才能把一次处理后的训练数据集存入数据库中。所以当时困扰我的最大问题在于程序的运算速度。解决这个问题的时候,正好是国庆,我也是在机场等飞机去旅行的时候在咖啡店里泡了三个小时优化了程序的运算速度。做这个project除了让我了解NLP中的基础知识外,也让我更熟练高效运用R进行计算。



6. 总结如果让我打分的话,满分100,恐怕第一轮的DS可以拿一个60分,当然好多人给的分可能更低。毕竟是第一轮的专项课程,和开设单独一门课程肯定不同。Roger,Jeff和Brain还需要积累经验,进行提高。如果是初学者的话,我觉得还是一个很不错的入门。相信之后几轮的课程应该已经有了提高。





9条回复
热度排序

发表回复