请问: big data的工作大都是在干嘛呢

6752
13
现在big data很火,工作是具体做些什么呢?从头写算法,或者只是用一些算法库呢,还是只是做一些维护啊?
我现在的组就是在维护代码,很少写新东西。
  • 3
置顶回复
收起
avatar 1738
xuyirio
误打误撞做了一名data engineer,然后业余学习了一些data science相关的知识,我对big data的理解是它涵盖了从取得数据到分析再到应用的一系列工作。宽泛一点说,只要涉及到大数据的工作,都可以宣称属于做这个目前非常火热的领域。从职位分类来说,主要是这么几种:
1. analyst:侧重分析,主要是用现成的、容易获得的数据,几乎不编程。背景为商科,或者MIS里非技术导向的毕业生,做这个的比较多。
2. data scientist:给一个topic,自己选择dimensions,并通过各种工具获得数据,然后建model,分析,做experiments,进一步获得数据,反馈,修改model,和做research非常像。少数公司设立这类职位,少数中的大部分要求candidate有PhD学位,学statistics或者machine learning方向的居多。不光要会分析,也要会programming以抓取数据并建模,熟悉相关的算法(不同于我们刷题时用到的算法),但未必要有strong CS background。
3. data engineer:SE的一种,只不过我们programming的对象是各种data pipeline。最基本的是做data ETL(Extract, Transform, and Load),简单的可以用SQL,复杂的就要写Go/C++/Python/Java程序了。什么程序?这个根据公司不同,用的工具就不同,像我就是天天写Map Reduce。有些data scientist也写这些,和他们不同的是,我们不管分析,但会负责管理更多数据。基本简单的script轮不到我们写,我们一般处理那些需要保证accuracy或者on-time delivery的数据,而这些数据一多,就衍生出了对比如infrastructure、dashboard、data quality、query search一系列的需求,也会因为不同数据的priority及complexity而有侧重。考古了解到我们组四年前才五六个人,现在已经发展三四十人,还是觉得活好多啊做不完啊,谁叫现在啥都是数据说话{:4_85:}
4. software engineer:开发那些用了大数据概念的feature,比如说应用data scientist研究出来的model们
大米 153
2
iYxAc+3
modifiedname+150
13条回复