答案優(yōu)選數(shù)學(xué),或者計(jì)算機(jī)。
(1) 計(jì)算機(jī)科學(xué)
一般來(lái)說(shuō),數(shù)據(jù)科學(xué)家大多要求具備編程、計(jì)算機(jī)科學(xué)相關(guān)的專業(yè)背景。簡(jiǎn)單來(lái)說(shuō),就是對(duì)處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。
零基礎(chǔ)學(xué)習(xí) Hadoop 該如何下手?
想從事大數(shù)據(jù)、海量數(shù)據(jù)處理相關(guān)的工作,如何自學(xué)打基礎(chǔ)?
(2) 數(shù)學(xué)、統(tǒng)計(jì)、數(shù)據(jù)挖掘等
除了數(shù)學(xué)、統(tǒng)計(jì)方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計(jì)分析的技能。其中,面向統(tǒng)計(jì)分析的開源編程語(yǔ)言及其運(yùn)行環(huán)境“R”最近備受矚目。R的強(qiáng)項(xiàng)不僅在于其包含了豐富的統(tǒng)計(jì)分析庫(kù),而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過(guò)簡(jiǎn)單的命令來(lái)運(yùn)行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴(kuò)展機(jī)制,通過(guò)導(dǎo)入擴(kuò)展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。R語(yǔ)言雖然功能強(qiáng)大,但是學(xué)習(xí)曲線較為陡峭,個(gè)人建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。
如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘?
做數(shù)據(jù)分析不得不看的書有哪些?
怎么學(xué)習(xí)用R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘?
(3) 數(shù)據(jù)可視化(Visualization)
信息的質(zhì)量很大程度上依賴于其表達(dá)方式。對(duì)數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進(jìn)行分析,開發(fā)Web原型,使用外部API將圖表、地圖、Dashboard等其他服務(wù)統(tǒng)一起來(lái),從而使分析結(jié)果可視化,這是對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)十分重要的技能之一。
有哪些值得的數(shù)據(jù)可視化工具?
(4) 跨界為王
麥肯錫認(rèn)為未來(lái)需要更多的“translators”,能夠在IT技術(shù),數(shù)據(jù)分析和商業(yè)決策之間架起一座橋梁的復(fù)合型人才是最被人需要的?!眛ranslators“可以驅(qū)動(dòng)整個(gè)數(shù)據(jù)分析戰(zhàn)略的設(shè)計(jì)和執(zhí)行,同時(shí)連接的IT ,數(shù)據(jù)分析和業(yè)務(wù)部門的團(tuán)隊(duì)。如果缺少“translators“,即使擁有高端的數(shù)據(jù)分析策略和工具方法也是于事無(wú)補(bǔ)的。