熱門專業(yè)解析之?dāng)?shù)據(jù)科學(xué)


數(shù)據(jù)科學(xué)是什么?

熱門專業(yè)解析之?dāng)?shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué), 顧名思義即數(shù)據(jù)相關(guān)的科學(xué)研究,它是一門利用數(shù)據(jù)學(xué)習(xí)知識的學(xué)科,包含兩方面——用數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)。其目標(biāo)是通過從數(shù)據(jù)中提取出有價值的部分來生產(chǎn)數(shù)據(jù)產(chǎn)品,結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué),統(tǒng)計,模式識別,機器學(xué)習(xí),數(shù)據(jù)可視化,數(shù)據(jù)庫,以及高性能計算。

熱門專業(yè)解析之?dāng)?shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)的應(yīng)用覆蓋了醫(yī)學(xué)與公共衛(wèi)生,工程,法律,教育,設(shè)計,商業(yè),經(jīng)濟,政策規(guī)劃等廣泛的領(lǐng)域,也將為這些領(lǐng)域帶來巨大的變革與發(fā)展。

熱門專業(yè)解析之?dāng)?shù)據(jù)科學(xué)

  數(shù)據(jù)科學(xué)的由來

數(shù)據(jù)科學(xué)在目前還算是一門新興學(xué)科, 追溯其發(fā)展歷史, 我們可以看到只有短短的40年時間, 而真正快速發(fā)展階段也就10年左右時間。

1974年彼得諾爾(Peter Naur)發(fā)表文章首次提出數(shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)的概念。他認(rèn)為數(shù)據(jù)學(xué)是計算機科學(xué)的延伸,其研究對象是數(shù)碼化的數(shù)據(jù)。

1996年在日本神戶的一個國際會議上,第一次正式在會議上使用數(shù)據(jù)科學(xué)這一名稱。1997年杰夫-吳 (Jeff Wu, 密西根大學(xué))在演講中提出統(tǒng)計學(xué)=數(shù)據(jù)科學(xué)的命題并建議將統(tǒng)計學(xué)改名為數(shù)據(jù)科學(xué), 統(tǒng)計學(xué)家改名為數(shù)據(jù)科學(xué)家。

2001年威廉-克里富蘭 (William Cleveland) 第一次將數(shù)據(jù)科學(xué)作為由統(tǒng)計延伸出來的一個獨立研究領(lǐng)域。 他認(rèn)為應(yīng)將統(tǒng)計學(xué)中與數(shù)據(jù)分析有關(guān)的技術(shù)層面 (區(qū)別于概率理論) 在6個方面擴展后形成一個新的, 獨立的學(xué)科數(shù)據(jù)科學(xué)。 這6個方面包括:

(1) 多學(xué)科的聯(lián)合研究 (Multidisciplinary Investigations)

(2) 數(shù)據(jù)模式和分析方法 (Models and Methods for Data)

(3) 數(shù)據(jù)計算 (Computing with Data)

(4) 數(shù)據(jù)科學(xué)教程 (Pedagogy)

(5) 工具評估 (Tool evaluation)

(6) 理論 (Theory)

2002年國際科學(xué)委員會(International Council for Science)正式使用數(shù)據(jù)科學(xué)并創(chuàng)辦了數(shù)據(jù)科學(xué)雜志(Data Science Journal)。2003年哥倫比亞大學(xué)開辦了數(shù)據(jù)科學(xué)雜志(Journal of Data Science),為數(shù)據(jù)工作者建立了一個交流平臺。

2007年2月美國北卡羅來納州立大學(xué) (North Carolina State University) 成立高級數(shù)據(jù)分析研究院 (IAA, Institute for Advanced Analytics) ,成為美國第一個正式的數(shù)據(jù)分析碩士研究生學(xué)位授予單位,并開發(fā)了著名的決策支持大型集成信息系統(tǒng)SAS(Statistics Analysis System)。

2012年3月,時任美國總統(tǒng)奧巴馬宣布啟動「大數(shù)據(jù)研究與開發(fā)計劃」(Big Data Research and Development Initiative),標(biāo)志著數(shù)據(jù)科學(xué)爆炸式發(fā)展時代的到來。

數(shù)據(jù)科學(xué)在我國的發(fā)展歷史則更為短暫。

隨著大數(shù)據(jù)時代的到來以及目前社會對于大數(shù)據(jù)研究人才的巨大需求,國內(nèi)高校也紛紛響應(yīng)這一潮流。 在2014-2015年期間,多所國內(nèi)知名高校首先采取設(shè)立大數(shù)據(jù)研究院的形式,從學(xué)校其他優(yōu)勢專業(yè)或相關(guān)專業(yè)選拔研究員和學(xué)生,探索和規(guī)劃數(shù)據(jù)科學(xué)專業(yè)的未來發(fā)展。第一所建立研究院的是清華大學(xué),其后西南交通大學(xué),貴州大學(xué),北京大學(xué),中國人民大學(xué)等7所大學(xué)也相繼設(shè)立。

除了高校自身對于數(shù)據(jù)科學(xué)這一領(lǐng)域的探索外, 各大互聯(lián)網(wǎng)企業(yè)也對數(shù)據(jù)科學(xué)領(lǐng)域人才培養(yǎng)給予了多方面的支持。 2015年6月15日, 國內(nèi)著名云計算服務(wù)商阿里云攜手慧科教育集團,啟動了阿里云大學(xué)合作項目(AUCP, Aliyun university cooperation program),聯(lián)合高校開設(shè)云計算與數(shù)據(jù)科學(xué)專業(yè)方向。通過產(chǎn)教融合的方式,阿里云在AUCP中提供云計算,大數(shù)據(jù),工程師以及生態(tài)圈伙伴等資源,培養(yǎng)下一代數(shù)據(jù)科學(xué)家。經(jīng)過互聯(lián)網(wǎng)企業(yè)不斷地研究與探索,數(shù)據(jù)科學(xué)成為一門獨立專業(yè)的時機日漸成熟,社會各行業(yè)對這一領(lǐng)域人才的需求也在不斷擴大。

哪些人適合學(xué)數(shù)據(jù)科學(xué)專業(yè)?

專業(yè)內(nèi)的要求基本就是對數(shù)據(jù)的意識,邏輯性,業(yè)務(wù)理解力和一些技能的掌握。

數(shù)據(jù)意識方面:

要做數(shù)據(jù)分析師較 基本的就是不討厭數(shù)字,如果對指標(biāo)是通過怎么樣的乘除加減得到的,他會覺得不耐煩,那么顯然他不適合做數(shù)據(jù)分析。如果對數(shù)據(jù)較敏感,能夠一眼發(fā)現(xiàn)異常值,數(shù)據(jù)分布情況,這會是較 好的。

邏輯性方面:

試著做一些經(jīng)典的邏輯題,看看能否解出來,需要多久;邏輯思維對數(shù)據(jù)分析尤其重要,不然會被各種指標(biāo)的定義規(guī)則、與業(yè)務(wù)的聯(lián)系糾結(jié)死,邏輯思維好的人寫SQL等數(shù)據(jù)處理腳本也會更加高效。

業(yè)務(wù)理解能力:

因為數(shù)據(jù)分析較 終價值的實現(xiàn),一般來說不會是分析師親自去制定或者實施。所以一定要很有條理、邏輯清晰向別人表達,讓業(yè)務(wù)方認(rèn)識到你分析結(jié)果的價值,從而影響業(yè)務(wù)方去愿意使用你從數(shù)據(jù)中得到的觀點。比如你能否定義下網(wǎng)站的目標(biāo)是什么,哪些指標(biāo)可以作為KPI,用戶從進入網(wǎng)站到達成網(wǎng)站目標(biāo)的整個過程是怎么實現(xiàn)轉(zhuǎn)化的?能否畫出業(yè)務(wù)流程圖類似等等。如果偏技術(shù)則需要懂一些數(shù)據(jù)庫結(jié)構(gòu)和SQL,如果偏展現(xiàn)需要考驗下對圖表的掌控能力,什么時候用什么圖表合適,甚至如何配色。

愿意學(xué)習(xí):

你分析的內(nèi)容永遠(yuǎn)不會一塵不變,即使你分析的主題是相對固定,但業(yè)務(wù)是變化的,你需要不斷的學(xué)習(xí)業(yè)務(wù),與不同人溝通,吸收別人的觀點。所以分析師一定要有很好的學(xué)習(xí)態(tài)度。

  細(xì)心、耐心和交流能力(這個很重要):

做數(shù)據(jù)分析有時會很糾結(jié),細(xì)心和耐心是必需的,好的交流能力可以讓數(shù)據(jù)分析師更好地闡述清楚各類問題。

  需要學(xué)習(xí)的課程

先修課程:數(shù)據(jù)科學(xué)原理、算法、數(shù)據(jù)庫管理系統(tǒng)、統(tǒng)計

基礎(chǔ)課程:計算統(tǒng)計方法、機器學(xué)習(xí)和數(shù)據(jù)挖掘、視覺分析、所媒體檢索、數(shù)據(jù)分析和商業(yè)智能、數(shù)據(jù)安全管理、預(yù)測分析、高級數(shù)據(jù)模型、云計算、自然語言處理、高級機器學(xué)習(xí)、統(tǒng)計學(xué)習(xí)和數(shù)據(jù)挖掘、復(fù)雜系統(tǒng)、空間數(shù)據(jù)分析、環(huán)境足跡和IO分析……

研究開發(fā)項目(畢業(yè)項目)

  數(shù)據(jù)科學(xué)專業(yè)的就業(yè)

數(shù)據(jù)科學(xué)是這兩年迅速火起來的專業(yè)方向,就業(yè)方向還時比較廣泛的,主要可以分為以下三類:

第一類:純數(shù)據(jù)分析類

1.Data Analyst 數(shù)據(jù)分析師

數(shù)據(jù)分析師側(cè)重于利用統(tǒng)計學(xué)、數(shù)學(xué)等知識進行數(shù)據(jù)挖掘,日常的主要工作內(nèi)容為收集數(shù)據(jù)、清洗數(shù)據(jù)、然后做一些分析或可視化處理,對編程語言有一定的要求,如R,Python,Javascript,C/C++,SQL等。初級的Analyst的工作就是配合Scientist和Engineer,當(dāng)業(yè)務(wù)需求使用某些方法的時候,他們就是一線操作者,當(dāng)scientist要數(shù)據(jù),他們要收集清理數(shù)據(jù),當(dāng)客戶或者子公司要數(shù)據(jù),他們也要收集清理數(shù)據(jù)。得出較 終的分析報告給產(chǎn)品組工程組或管理層。 所以從這個角度講,analyst只是非常純粹的在和數(shù)據(jù)打交道罷了。

2.Data Scientist 數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家是數(shù)據(jù)領(lǐng)域非常具有復(fù)合型的高級崗位,往往需要具備能夠獨立完成一整套數(shù)據(jù)分析過程的能力:從數(shù)據(jù)提取,整合、并進行分層,進行統(tǒng)計或其他復(fù)雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開發(fā)具有更寬廣應(yīng)用前景的數(shù)據(jù)工具。實際工作中主要的精力大概在分布式算法的實現(xiàn)和優(yōu)化上,特別是后者,是 極 具挑戰(zhàn)性的,需要資深的數(shù)據(jù)科學(xué)家來完成,因此需要非常強大的數(shù)學(xué)、統(tǒng)計、計算機背景,在優(yōu)化問題上很有經(jīng)驗。

3.Data Architect 數(shù)據(jù)架構(gòu)師

都說不想當(dāng)數(shù)據(jù)架構(gòu)師的程序猿不是一個好前端。因為一個優(yōu)秀的數(shù)據(jù)架構(gòu)師應(yīng)該對所在領(lǐng)域的主流技術(shù)體系有一個全面清晰的認(rèn)識,對某一種技術(shù)的原理、運作機理有深入的理解,是該領(lǐng)域的專家,同時具有將客觀事物抽象出來的能力,關(guān)注當(dāng)前技術(shù)前沿和熱點,使用較 高效的方式解決問題。他們的日常主要任務(wù)為創(chuàng)建數(shù)據(jù)管理系統(tǒng),對數(shù)據(jù)源進行整合、集中、和維護。具體來講,要求會SQL,XML,HIVE,PIG,SPARK等,對數(shù)據(jù)庫體系結(jié)構(gòu)有深入了解,擅長數(shù)據(jù)倉庫解決方案等。

4.Data Engineer 數(shù)據(jù)工程師

作為一個新興的職業(yè)類型, 數(shù)據(jù)工程師更傾向于掌握 戰(zhàn)術(shù)層面” 的具體數(shù)據(jù)技能,專注于使數(shù)據(jù)可用并能夠在生產(chǎn)環(huán)境中對數(shù)據(jù)進行處理,如具體的編程語言、操作系統(tǒng)與數(shù)據(jù)庫等;而數(shù)據(jù)科學(xué)家更傾向于戰(zhàn)略層面”的數(shù)據(jù)技能,如數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計分析、機器學(xué)習(xí)等。他們的日常主要工作內(nèi)容是用SQL來回答分析型問題,用腳本來做數(shù)據(jù)集成,清洗ETL(提取-轉(zhuǎn)換-裝載)任務(wù)和使用Hadoop生態(tài)工具等,對編程語言要求較高,SQL,HIVE,PIG,R,MATLAB,SAS,SPSS,Python,Java,Ruby,C++,Perl等等都要會。

5.Database Administrator 數(shù)據(jù)庫管理員

數(shù)據(jù)庫管理員和數(shù)據(jù)分析的關(guān)聯(lián)不是很大,類似于一個IT職位,職責(zé)為管理數(shù)據(jù)以及支持?jǐn)?shù)據(jù)管理的設(shè)施,盡量數(shù)據(jù)庫是提供給所有相關(guān)用戶,正在正確、安全的執(zhí)行,因此可能會用到SQL,hadoop及相關(guān)查詢語言,如Hive和Pig。日常專注于優(yōu)化數(shù)據(jù)倉庫,負(fù)責(zé)數(shù)據(jù)的讀寫和管理。

第二類:以數(shù)據(jù)為驅(qū)動的商業(yè)分析類

1.Business Analyst 商業(yè)分析師

商業(yè)分析師和純數(shù)據(jù)科學(xué)家都是使用數(shù)據(jù)的專家,但他們的工作內(nèi)容是有比較大差別的。通常,商業(yè)分析師要對某專業(yè)領(lǐng)域具有深入的了解和深刻的認(rèn)識,商業(yè)敏感度高,擅長于從某一領(lǐng)域的數(shù)據(jù)中挖掘信息,以此評估過去、現(xiàn)在和未來可能的經(jīng)營業(yè)績。確定較 有效的分析模型和途徑,為商業(yè)用戶提供和解釋解決方案。

這個過程一般包括先和客戶溝通,確定客戶的問題和訴求,之后定義業(yè)務(wù)問題,搜集原始數(shù)據(jù),運用預(yù)測性、規(guī)范性和描述性分析來研究、解釋和可視化這些數(shù)據(jù),讓它們變得具有價值且能為客戶展示。在這一過程中與客戶反復(fù)商討需求,更新模型,較 終利用數(shù)據(jù)模型理解、整合,得出較 佳解決方案。

2.Data and AnalyticsProduct Manager數(shù)據(jù)產(chǎn)品經(jīng)理

管理團隊分析師和數(shù)據(jù)科學(xué)家,除了要會一些必備的基礎(chǔ)語言如SQL,R,SAS,Python,Java,Matlab和數(shù)據(jù)挖掘、數(shù)據(jù)建模等能力,還需要對產(chǎn)品有深刻的理解、熟練應(yīng)用數(shù)據(jù)可視化工具,和良好的人際溝通能力。他們的主要職責(zé)包括但不限于搭建數(shù)據(jù)pipeline,做分析,實驗場景,評估和實施分析結(jié)果,同時要針對結(jié)果針對數(shù)據(jù)邏輯提出需求,解答來自其他部門的問題,設(shè)計出更好的產(chǎn)品,留住更多的客戶,產(chǎn)生更多的利潤。

第三類:統(tǒng)計學(xué)家

統(tǒng)計學(xué)家顧名思義,需要熟悉統(tǒng)計理論方法,分布式計算,數(shù)據(jù)庫系統(tǒng),云工具,數(shù)據(jù)挖掘機器學(xué)習(xí)等,語言方面需要R, SAS, SPSS, Mtlab, Stata, Python, Perl, Hive, Pig, Spark, SQL

網(wǎng)上報名
  • 姓名:
  • 專業(yè):
  • 層次: ??分?jǐn)?shù):
  • 電話:
  • QQ/微信:
  • 地址:

文中圖片素材來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系644062549@qq.com刪除

轉(zhuǎn)載注明出處:http://www.tengyi66.com