Amazon Applied Scientist 电话面试问题

9244
8
电话面试,1小时。

  1. 介绍自己
  2. 概率题:一共10个人,你是其中之一。随机抽一个人做president,再随机抽一个人做vice president,再随机抽一个人做secretary。问你没有任何职位的概率。
  3. 概率题:和上题一样,但允许一个人身兼多职,也就是sampling with replacement。问你没有任何职位的概率。
  4. ROC曲线的x轴和y轴分别是?能设想一个情况ROC曲线来看不错(比如AUC很高),但false discovery rate很高吗?
  5. 有一种疾病,prevalence是1/10000。有一种检测手段,sensivity是1,false positive rate是1/1000。现一检测结果是阳性。问真实结果是阳性概率。
  6. 用decision tree来聊聊bias和variance。用random forest来聊聊如何降低bias或variance。
  7. Bonus question: 对于random forest,每一个tree需要用多少feature一般怎么定?
  8. Open-ended: 有没有分析biased dataset的经历?具体怎么处理的?
  9. Open-ended: 假设有一banking dataset,关于客户对于loan有没有default的记录,以及客户的个人信息。你会用什么ML模型去预测新客户的default risk?会用什么语言或packages?
  10. BQ:说一个失败的例子,以及从中学了啥。
  11. BQ:说一个push for your own idea or vision的例子,以及假如再做一遍会有什么不同。


回答:
  1. 此略
  2. 0.7
  3. 0.9^3
  4. Class imbalance
  5. 1/11 (面试官在此点评了问题4和5的联系。)
  6. Decision tree is low in bias and high in variance, and it gets more so with the depth of the tree. Random forest is a bagging ensemble method, and uses bootstrapping (sampling with replacement) to create many trees to reduce variance.
  7. 不会。被告知一般是sqrt(n), n是所有feature的数目。具体见:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html下max_features那一参数
  8. 此略
  9. Survival analysis. Python或R. 参考:https://www.dataminingapps.com/2016/01/using-survival-analysis-to-model-time-to-default/
  10. 此略
  11. 此略


第一次发帖,求各路大侠多发大米。多谢!😁

补充内容 (2019-3-14 03:11):
第一次发帖,我发对版块了吗?
  • 28
8条回复