“我要做大數(shù)據(jù)!”
隨著大數(shù)據(jù)領(lǐng)域的火爆,數(shù)據(jù)科學(xué)領(lǐng)域的招聘信息越來越多,范圍也越來越廣,然而面對參差不齊的招聘信息,你真的知道大數(shù)據(jù)到底做什么的么?“你希望具體從事的大數(shù)據(jù)工作或方向是什么?”
對于,大數(shù)據(jù)領(lǐng)域生態(tài),包涵很多不同打的崗位,也賦予不同崗位不同的技能、要求和發(fā)展方向。為了和大家介紹的清楚,通過一個數(shù)據(jù)課題case流程來解釋不同崗位的職責(zé)。
大數(shù)據(jù)課題流程有4個基本環(huán)節(jié),分別是業(yè)務(wù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、分析應(yīng)用。在這個流程里有四個層次:需求層、數(shù)據(jù)層、模型分析層與輸出層,同時對應(yīng)四個職能領(lǐng)域:
業(yè)務(wù)理解(業(yè)務(wù)數(shù)據(jù)分析師,業(yè)務(wù)戰(zhàn)略規(guī)劃師):業(yè)務(wù)側(cè)之眼,負(fù)責(zé)業(yè)務(wù)規(guī)劃與戰(zhàn)略規(guī)劃,幫助企業(yè)在業(yè)務(wù)層突破、創(chuàng)新,實(shí)現(xiàn)價值
DBA:承擔(dān)整個公司數(shù)據(jù)倉儲、數(shù)據(jù)庫的搭建與服務(wù),保證數(shù)據(jù)安全、穩(wěn)定
大數(shù)據(jù)挖掘:負(fù)責(zé)關(guān)鍵模型應(yīng)用與研究工作
大數(shù)據(jù)分析應(yīng)用:既是外部需求的接入者,也是解決方案的輸出者,很多時候也會承擔(dān)全盤統(tǒng)籌的角色
研發(fā)層:完整的流程還需增加職能,承擔(dān)整個運(yùn)營系統(tǒng)的構(gòu)建與維護(hù)、數(shù)據(jù)準(zhǔn)備、平臺與工具開發(fā)
這樣一張完整的職能架構(gòu)變出來了,下面通過信息圖區(qū)分每個職位的角色介紹、必備技能。
1.業(yè)務(wù)數(shù)據(jù)分析師
角色/任務(wù):改進(jìn)業(yè)務(wù)流程的業(yè)務(wù)和IT之間的中介
必備語言:SQL
技能和特長:
基本工具(例如微軟Office)
數(shù)據(jù)可視化工具(e.g.Tableau)
自覺聽和講故事
商業(yè)智能的理解
數(shù)據(jù)建模
2.數(shù)據(jù)庫管理員
角色/任務(wù):確保數(shù)據(jù)庫是提供給所有相關(guān)用戶,正在正確執(zhí)行,并且安全運(yùn)行
必備語言:SQL,Java,Ruby on Rails,XML,C#,Python
技能和特長:
備份恢復(fù)
數(shù)據(jù)建模和設(shè)計(jì)
分布式計(jì)算(Hadoop的)
數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL)
數(shù)據(jù)安全
ERP業(yè)務(wù)知識
3.數(shù)據(jù)科學(xué)家
角色/任務(wù):清洗,管理和組織(大)數(shù)據(jù),利用算法和模型提高數(shù)據(jù)處理效率、挖掘數(shù)據(jù)價值、實(shí)現(xiàn)從數(shù)據(jù)到知識的轉(zhuǎn)換。
必備語言:R,SAS,Python,Matlab,SQL,HivePig,Spark
技能和特長:
分布式計(jì)算
預(yù)測模型
故事講述和可視化
數(shù)學(xué)/統(tǒng)計(jì),機(jī)器學(xué)習(xí)
4.數(shù)據(jù)架構(gòu)師
角色/任務(wù):創(chuàng)建數(shù)據(jù)管理系統(tǒng)進(jìn)行整合,集中,保護(hù)和維護(hù)數(shù)據(jù)源
必備語言:SQL,XML,HIVE,PIG,SPARK
技能和特長:
數(shù)據(jù)倉庫解決方案
深入了解數(shù)據(jù)庫體系結(jié)構(gòu)
提取thansformation和加載(ETL),電子表格和BI工具
數(shù)據(jù)建模
系統(tǒng)開發(fā)
5.數(shù)據(jù)工程師
角色/任務(wù):開發(fā),建設(shè),測試和維護(hù)架構(gòu)(如數(shù)據(jù)庫,以及較大規(guī)模的處理系統(tǒng))
必備語言:SQL,Hive,Pig,R,Mtlab,SAS,SPSS,Python,Java,Ruby,C++,Perl
技能和特長:
數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL)
數(shù)理統(tǒng)計(jì)功底,統(tǒng)計(jì)學(xué)
數(shù)據(jù)建模ETL工具
數(shù)據(jù)API
數(shù)據(jù)倉庫解決方案
6.統(tǒng)計(jì)學(xué)家
角色/任務(wù):收集,分析和解釋,定性和定量的數(shù)據(jù)統(tǒng)計(jì)理論和方法
必備語言:R,SAS,SPSS,Mtlab,Stata,Python,Perl,Hive,Pig,Spark,SQL
技能和特長:
統(tǒng)計(jì)理論方法
數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)
分布式計(jì)算(Hadoop的)
數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL)
云工具
7.數(shù)據(jù)產(chǎn)品經(jīng)理
角色/任務(wù):管理團(tuán)隊(duì)分析師和數(shù)據(jù)科學(xué)家,與團(tuán)隊(duì)解決課題
必備語言:SQL,R,SAS,Python,Matlab,Java
技能和特長:
數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL)
領(lǐng)導(dǎo)項(xiàng)目管理
人際溝通
數(shù)據(jù)挖掘預(yù)測建模數(shù)據(jù)建模
8.數(shù)據(jù)分析師
角色/任務(wù):收集,處理和執(zhí)行統(tǒng)計(jì)數(shù)據(jù)分析
必備語言:R, Python, HTML,Javscript,C/C++,SQL
技能和特長:
電子表格工具(例如Excel)中
數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL)
通信可視化
數(shù)學(xué),統(tǒng)計(jì),機(jī)器學(xué)習(xí)
入職大數(shù)據(jù)領(lǐng)域,弄清楚是做什么產(chǎn)品,做什么項(xiàng)目,將要用到什么技術(shù),什么語言,然后才能有針對性的去進(jìn)行相關(guān)學(xué)習(xí)和培訓(xùn)
對于大數(shù)據(jù)運(yùn)營體系和系統(tǒng)底層架構(gòu),包含了采集層、存儲層、計(jì)算層和應(yīng)用層,對于每一層所需的編程語言和工具都有所側(cè)重
理論上計(jì)算機(jī)專業(yè)、信息專業(yè)、數(shù)學(xué)專業(yè)、管理專業(yè)或者其他專業(yè)背景的都可以嘗試這個領(lǐng)域。前期是做數(shù)據(jù)的基礎(chǔ)監(jiān)測和總結(jié)工作,如周期性的報告或特定專題報告;中期參與業(yè)務(wù)溝通、梳理需求,組織建模解決問題;后期為企業(yè)內(nèi)部提供戰(zhàn)略意見,帶領(lǐng)團(tuán)隊(duì)提供可落地的解決方案,解決大數(shù)據(jù)課題,落地數(shù)據(jù)方案。
最后,會Python無論數(shù)據(jù)采集(爬蟲)、數(shù)據(jù)建模挖掘、數(shù)據(jù)分析應(yīng)用(展示)均能攻克。