Amazon Applied Scientist 电话面试问题
92448
电话面试,1小时。
回答:
第一次发帖,求各路大侠多发大米。多谢!😁
补充内容 (2019-3-14 03:11):
第一次发帖,我发对版块了吗?
- 介绍自己
- 概率题:一共10个人,你是其中之一。随机抽一个人做president,再随机抽一个人做vice president,再随机抽一个人做secretary。问你没有任何职位的概率。
- 概率题:和上题一样,但允许一个人身兼多职,也就是sampling with replacement。问你没有任何职位的概率。
- ROC曲线的x轴和y轴分别是?能设想一个情况ROC曲线来看不错(比如AUC很高),但false discovery rate很高吗?
- 有一种疾病,prevalence是1/10000。有一种检测手段,sensivity是1,false positive rate是1/1000。现一检测结果是阳性。问真实结果是阳性概率。
- 用decision tree来聊聊bias和variance。用random forest来聊聊如何降低bias或variance。
- Bonus question: 对于random forest,每一个tree需要用多少feature一般怎么定?
- Open-ended: 有没有分析biased dataset的经历?具体怎么处理的?
- Open-ended: 假设有一banking dataset,关于客户对于loan有没有default的记录,以及客户的个人信息。你会用什么ML模型去预测新客户的default risk?会用什么语言或packages?
- BQ:说一个失败的例子,以及从中学了啥。
- BQ:说一个push for your own idea or vision的例子,以及假如再做一遍会有什么不同。
回答:
- 此略
- 0.7
- 0.9^3
- Class imbalance
- 1/11 (面试官在此点评了问题4和5的联系。)
- Decision tree is low in bias and high in variance, and it gets more so with the depth of the tree. Random forest is a bagging ensemble method, and uses bootstrapping (sampling with replacement) to create many trees to reduce variance.
- 不会。被告知一般是sqrt(n), n是所有feature的数目。具体见:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html下max_features那一参数
- 此略
- Survival analysis. Python或R. 参考:https://www.dataminingapps.com/2016/01/using-survival-analysis-to-model-time-to-default/
- 此略
- 此略
第一次发帖,求各路大侠多发大米。多谢!😁
补充内容 (2019-3-14 03:11):
第一次发帖,我发对版块了吗?
- 28
8条回复