登录
  • #中国面经
  • #ByteDance

字节‌‌‌‌‌‌‍‍‌‍‍‌‌‍‌‍‌‌‍‍‍‌‍‍‍‍‌‌‍‌‌‍跳动data中台数据分析师应届面经(Data Analyst) - offer

Windy_风逝无殇
2030
12
学历:

国内咸鱼985数学本科

澳大利亚某咸鱼八大Information Technology硕士

GPA没法看,我在学校一直很放飞乱搞其他项目,课程过了就行简历上没写

奖项:

拿过一个奖金很肥并且面向全国的数据挖掘相关奖, 包括算法和系统设计. 自己是队长并且写了所有最终参赛使用的算法+系统设计, 前三之内

其他:

银行实习半年, 有Data Scientist兼职

是同学拉去的小组档案直接投递链接,本来投的实习,然后hr看我已经毕业了就给我按正式的来

一面: 小姐姐(应该是小组leader. 技术面,但是感觉变成了业务面)

前面半小时在扒简历里的比赛然后我直接共享屏幕介绍项目和代码

问题:

1. 你知道AB测试吗?为什么要进行AB测试

我的回答:

拿以前B站改页面的时候可以自选新页面/老页面举例, AB测试可以在实际环境下判断方案的好坏

对于某些需要部署的技术方案,AB测试与实验室环境的不同是, AB测试部署在真实环境中, 包括断网, 网络波动之类实验室环境中不包括的问题

2. 你了解直播电商平台吗?它与淘宝这种货架式平台有什么区别?如果需要你给主播卖货设计一套指标,你会怎么设计?

我的回答:

不了解(看别人面经第一面都是技术面,以为会考sql和leetcode, 完全没准备业务)

直播卖货和货架式卖货的区别应该是,一个是主播主动推送,主播一般会推送符合自己直播内容的商品.而货架式平台主要靠被动搜索.

指标我扯了一大堆

- 访问量统计量

- 访问时间统计量

- 访问时间与视频时长的比值统计量

(以下两个指标是判断主播是否有较多"铁粉", 也就是主播吸引粉丝"留下来"的能力)

- 重复访问统计量

- 卖货的货品所处的价格段(如:0-10元 2种, 11-50元 1种)与统计量

- 卖货金额统计量

- 顾客购买金额统计量

- 统计量打赏金额

- 货品点击统计量

- 加入购物车统计量

- 产生消费动作统计量

- 以及上面一些比值,如购买用户数/观看用户数

3. 额定预算,怎么用AB测试测试确定哪种优惠券最有效? 消费券如何发放才能达到最大gmv?需要花光预算但又不超.

跪. 只说了如果两个优惠券检验是否有差别用F检验, 如果有很多个用反差分析, 并且扯了下样本必须足够大, 以及要求clearify消费券的发放渠道是否有区别

最后问对方问题环节,我问了一下新人培养方面的东西, 以及data是每个项目配还是中台

二面: 小哥哥(也是data部门但是不清楚是否同组, 业务面)

前面还是扒我那个拿奖了的比赛,并且问我为什么没拿到第一名(我的回答: 由于前几年那个比赛涉及的业务在国内比较火而在国外没有,所以我对业务场景不是很熟悉, 造成最后给出的方案成本较第一名高)

然后问我有没有其他的没有保密的商业设计相关项目可以说

问题:

1.如果抖音出现了突然的访问量下降,你会如何进行分析

我的回答:

1. 渠道: 例如是ios还是安卓下跌?

2. 舆情: 各个社交媒体平台对抖音的负面评价比例是否增高?

3. 是否是因为某几个大主播的观众流失?

4. 用户画像,分析流失的用户有什么共同点

2.如果一个电商平台出现了一部分类型产品销量上升,一部分产品销量下降,你该如何进行分析

我的回答:

1. 不同类型的商品,商家引流渠道是否不同?是不是某些商品特有的引流渠道出了问题?

2. 市场: 用户喜好是否改变?是否遭受了传统相机 - 数码相机 - 手机这种降维打击?

3. 放大招, 用户画像

问问题环节问了出差相关的事请(因为对方在出差)

三面: 大leader(业务面,但是被搞成了技术面)

还, 是, 扒, 比, 赛. 他对我比赛的Machine Learning部分比较感兴趣(当时用了一个相对冷门的算法解决问题),系统设计反而没什么兴致我看他脸色就草草结束了

问我以后职业发展, 我回答了往算法那边走

结果后面所有问题都围绕着比赛算法展开

1. 聚类的几种主流算法的差别是什么?(kmeans, dbscan, 层次聚类的特点)

标准答案

2. 如何评价聚类算法的好坏?

标准答案

3. 你是否碰到过聚类结果看起来很好,但实际应用后发现效果不好的问题?这是什么导致的?

我的答案:

最大的可能是特征选取不当. 如果你对所有数据进行了正规化或标准化, 那么其实将所有维度的重要性视为等同, 但是在实际业务中,可能有某几个特征的重要性远高于其他特征. 比如在"买什么颜色的衣服"这个问题上,如果使用聚类,那么年龄性别的影响一般较身高大, 但是如果全部标准化掉,那么他们在高维空间中的影响力将变得一样.

4. 你对特征选取的理解?

我的答案:

在实际项目中特征工程在某些程度上比模型选择更重要.特征工程做的好坏, 可以将结果从10%准确度提升到90%准确度.而模型选择只要不是出现非常致命的错误, 一般也就90%提升到95%这个提升度或者更小.特征工程算是最基础的东西,这个做好了再来折腾模型

5. 你用过哪几种分类算法?

标准答案

6. 简单介绍一下xgboost原理和特点

没手撕,简单介绍了一下他是个树模型,不会被共线性影响结果, 但是他和gdbt的区别是他其实也可以用线性分类器,这时候就变成了带正则项的线性模型. 他的树部分对gdbt还做了个可以加速并且降低过拟合的优化

总结: 这应该算是比较特殊的面试经历, 我同学进去时据说考了SQL和SVM, 但是我过程中没有写任何代码...(或许项目代码就已经能说明?)
12条回复
热度排序

发表回复