Cubist Data Scientist Interview

avatar 370927
imtony
4423
7
贡献一个面筋

网投的QR,HR联系对data service team敢不敢兴趣,然后被要求做一个take home challenge,题目就是检验给定的signal能否预测SP500

1st round
HR火速联系第一轮,一个在新加坡的data scientist
1. resume, projects
2. exmplain decision tree in details
3. random forest hyper parameter tuning and cv, random forest vs boosting
4. why kdb is fast in processing (financial) data... 结果要从memory layout来讲
5. SQL的基本key words, select duplicates in table
6. python OOP的经历,garbage collection机制, reference count, python的a=???,b=a,b=xxx,a最后是什么这类的问题...(cpython都用c里面的struct去emulate int,float,list等等的行为, 这种问题是我碰到最难的python问题了,以后都不敢给自己python能力打上9分...)
7. 用git嘛,用什么command

2nd round
第二轮在下一周,是一个校友面试
1. 有一个self-driving的训练数据集,有数据出现缺失,比如雷达摄像头故障,怎么处理。在这个例子里怎么比较不同的解决方案
2. random forest vs boosting, how to implement subsampling in random forest
2. python OOP的问题
3. 如何用python从10TB数据中随机sample
4. 用pandas吗,对pandas的comments
5. SQL or python: select max price for each single-names, select the k-th largest price for each single-names. 还被追问了pandas怎么做,给了提世transformer也不会orz
6. 至少几个老鼠来测出1000瓶中的一瓶毒药问题,具体怎么实现
7. X, Y等概率-1,1两个值,X=Y的概率为。5,求corr(X, Y)... 展开公式暴力破解
8. 盒子里面999个正常硬币,1个2H硬币,投了10次正面,取了1个2H硬币的概率 话说这种贝叶斯的题还是一个3x3x3立方体取一个立方体的变式有意思

3rd round
下一轮又过了一周,另一个data scientist
1. python decorator, when to use
2. python __enter__ special method
3. pyhon function call pass by value like Java?
4. SQL:取各类中第二大的entry
5. kdb里面比较string和symbol,kdb的一个string field(type C)和symbol field的memory区别
6. how does a kdb database work 太难了
7。 location preference

被通知onsite
签了NDA, 就是处理数据,准备简单的presentation
  • 16
7条回复