转专业统计水硕DS上岸回顾

avatar 182897
Hebe4GRE
4182
11
[align="left"]工作有一段时间了,最近比较迷茫。把之前找工作的经验写下来,希望多少可以给大家做个参考,也帮助自己回顾一下2018[/align][align="left"] [/align][align="left"]摘要[/align][align="left"]总结!总结!总结!明确方向,找到自己的节奏,然后就不放弃的走下去吧。我是一个很水不聪明又没有自制力的人,但好在可能还算会抓重点。所以既然我上岸了,相信大家都可以的。[/align][align="left"] [/align][align="left"]背景[/align][align="left"] 本科末流211经济, 村里统计水硕一枚。研究生之前除了点点鼠标的SPSS,没有任何软件和编程语言基础。研二之前只会写写R[/align][align="left"] [/align][align="left"]学习/面试准备[/align][align="left"]Python & Coding[/align][align="left"]1Python基本操作和常用ML包。学校有一门两学期的自学网课,第一学期讲基础LinuxPython命令,第二学期讲经典ML模型的应用。学习材料都是网上现成的文章博客和教授准备的notebook,我传在Github上了。github.com[/align][align="left"]2Hands-onMachine Learning with Scikit-Learning and TensorFlow 个人推荐这本书,虽然纸质书难免事例不足,但他覆盖的内容基础又全面。Demo之前会用简单的语言介绍算法概念,对于面试中“XX是什么”类型问题完全够用。[/align][align="left"]3)数据结构和算法,研二上了学校cs系本科基础课,用的C++…不想说那学期是怎么活下来的,我一个没有任何编程经验的人 C++是什么?对不起,打扰了。这里非常感谢当时的2名队友,撑下来之后感觉收获颇丰,为后面刷题打了基础。所以建议没有基础的朋友在刷题之前,选择一门网课整体学习一下。磨刀不误砍柴功~推荐一本我当时没来及看的用python讲数据结构的书,interactivepython.org[/align][align="left"]4Leetcode 因为毕竟不是找sde的工作,我只刷了top100 interview questionseasy和部门median难度,然后根据不太熟悉的类型又找了些题,前后差不多总共120题。个人觉得数量不是关键,思路和变通最重要。这里非常感谢网上大牛的总结,algorithm.yuanbin.me[/align][align="left"]DScoding题有时候会套一个应用场景,例如 a list of lists, 里面是user,出发地,目的地,让你找出是往返机票的。我的第一反应是,和top100 easy里一题ValidParentheses是一样的思路。这里再推荐一个chrome刷题插件,担心有广告嫌疑...管理员如果觉得不妥我会删掉。JZ刷题小助手,帮助我在卡在一道题时快速看到别人的答案。[/align][align="left"]5Data challenge,这个学校里projects还蛮多的,所以流程比较熟悉。不太熟悉的朋友,网上那么多教程,找来几个看一看,跟着完整的走两遍,都能学会。然后找一个数据,整理一套自己的datacleaning, EDA, modeling 模版。 例如这样的, towardsdatascience.com[/align][align="left"] [/align][align="left"]ML相关(没有DL):[/align][align="left"]1ISLR, introductionof statistical learning. 强推。这本书没有ESL里天书般的理论,我看了3遍,第一遍学校里上课看的,第二遍自己看的,最重要的第三遍边看边总结。个人觉得英语非母语的我们,电面中其实真的挺难把一个技术问题讲清楚。这个书的优势就体现出来了,它用通俗易懂的语言讲清楚了每个算法,很多段落是直接可以拿来回答面试问题的![/align][align="left"]对于每个算法,想清楚它的背景,objectfunction,参数对结果有什么影响,应用条件和优缺点。我的做法是开一个doc,看书的时候思考这些段落想说明什么问题,如果是面试考察这个内容,会怎么问。然后记录下这个问题,并根据书上那几段内容总结成回答。如果想让自己的答案更丰满,可以Google这个问题看看别人是怎么说的。这一步很重要,一定要形成自己表述。[/align][align="left"]2Google 网上有太多ML相关博客可以帮助查漏补缺。我比较暴力直接找几个topML/DS interview questions lists 同样用上面的doc,一个个的过,总结出自己的答案。很多问题回答起来可能比较简单,但自己可以多深入一些。比如经典的type1, type2,就可以顺带把confusionmatrix, AUC一道总结下。[/align][align="left"]最后这个doc会有很多问题,自动生成个目录,面试前过两遍非常好用。[/align][align="left"] [/align][align="left"]统计相关:[/align][align="left"]1)推荐一本书 Naked Statistics,推荐原因,同样讲的很简单很清楚。因为自己菜,高端书都看不下去。我感觉对于大部人来说,能让别人理解你在做什么就足够了吧对于一些常问的统计概念,如上2)一样暴力解决[/align][align="left"]2A/B testingUdacity上基础课。同样注意总结可能的问题和自己的答案,definemetrics, sample size, power, p-value 啊什么的。可以配合上搜索experimentsdesign, hypothesis testing一起准备。这一块我没怎么关注,自己并没有往testing上找。[/align][align="left"] [/align][align="left"]Project相关:[/align][align="left"]个人觉得这里很重要的是得有一个框架,让人能很清楚的了解你的逻辑。对于resume上的project,理清1)这是一个什么样的问题 2)为解决这个问题,模型的目标是什么 3)数据长什么样有什么特点 4)考虑什么模型 5)结果如何 6)有什么实际意义。然后再这个框架下细分每一步,发现了什么,会导致什么问题,怎么解决。比如EDA时,发现数据imbalanced,说明imbalanced会怎么样,考虑oversampling or …总之要让人知道你做每一步都是有原因的。然后我又要来说了,像做presentation一样尽可能详细的把这些说明介绍写下来。之后就可以根据面试的长短有选择性的介绍,也可以用作onsite时的presentation。你会发现就算你电面中大致介绍了project,面试官的followup questions也基本都在你的总结里。[/align][align="left"] [/align][align="left"]海投相关:[/align][align="left"]时间线1-3月网申海投,4-5月结课毕业,5-6月毕业旅行,7-9月一键投递海投。[/align][align="left"]曾经我也是个疯狂填网申的孩子,但那低的可怜的回复率和秒收的拒信实在很受挫。加上到底是个没有耐心的懒人,厌烦了繁杂的网申程序,最后采用的方式是临睡前躺在床上,用LinkedIn也不看jobdescriptions的更狂点easyapply一键投递敲黑板 这里大家不要学我,还是要积极找内推填网申,不然会错过很多好机会。我这种方式只能说帮我找到一份工作,至于公司规模薪资福利什么的就另说了,没有追求的我明知道这样不好,但依然这样做的原因是 它最适合我。我一直嫌自己很菜,不敢找内推,填网申的费时低效让我整个人非常非常的焦虑,直接影响到我复习睡眠情绪等等。后来也是想通了,选择放过自己,不能工作没找到自己先进医院。所以开头才说,找到自己适合的节奏,这样才能撑的久一点。[/align][align="left"] [/align][align="left"] [/align][align="left"]差不多就是这些了,一身缺点的普通的人和她很普通的经历。希望可以让暂处在迷茫期却不普通的你得到一些安慰。只要心还透明,就能折射希望。祝福所有人2019顺利![/align][align="left"] [/align]PS,想看看别人的经验,可怜兮兮的求一点米,谢谢~
  • 53
11条回复