stat录取数据分析(data from thegradcafe

avatar 48470
hitchpy
3356
8
看到前两天有人分享thegradcafe网站,给了我提醒,其实今年上半年申请结果出来之后就一直想做一个图来分析一下各个学校的AD/OFFER 发放的时间,这样申请一个出结果早一点的保底,能过好年啊!
尝试过用这里总结的数据,但是因为格式是html文本里面的,用R 的RCurl 或者XML也许可以取出来,但是我不会。。但是gradcafe数据是表格形式,还是可以直接用XML 包的readHTMLTable() 来直接读取的,我就想看看在US NEWS里面的学校一般发放AD是在什么时间段。

(分析有很多方法,我这里只是分析了AD发放时间,没有理会REJ,并且只是FALL 入学的,并且没有区分PHD 和MASTER,所以如果各位有自己想问的问题,可以下载数据或者我的清理脚本自己再分析,我已经把数据清理的差不多了,所以就比较方便了)

我只是想吐槽的是,汇报真的应该给个下拉菜单之类的统一学校名字!!要不然整理起来太蛋疼了。。我这里是手工做的筛选,其实想请教文本分析大神, 像UCD 和 uc davis 等等的各种变种,假设有50个学校,每个学校有几个变种,如何能够自动将它们统一呢?
我现在想到的方法只能是搞个词库之类的东西,来一条我就和词库比对,然后确定学校这样。
不知道R 能不能做,或者说其他语言,比如说perl之类的

真的如果能搞好一套汇报总结的系统的话,那么实时的数据呈现什么的都能够实现,这样大家用起来也很方便!

好了废话不说了。。我只贴出两个图,一个是10年的统计专业录取时间跨度图,一个是13年的
数据我是在gradcafe,结果搜寻里面输入statistics,设置每页250条然后抓下来的。

文中含有App暂不支持的附件,请到论坛下载
  • 2
8条回复