如何擁抱大數(shù)據(jù)時代
——訪中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心主任袁衛(wèi)
袁衛(wèi) 中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心主任,曾任中國人民大學(xué)常務(wù)副校長?,F(xiàn)任第六屆國務(wù)院學(xué)位委員會應(yīng)用經(jīng)濟學(xué)學(xué)科評議組、統(tǒng)計學(xué)學(xué)科評議組召集人,教育部社會科學(xué)委員會委員、中國統(tǒng)計教育學(xué)會副會長兼高校分會會長、全國應(yīng)用統(tǒng)計專業(yè)碩士教育指導(dǎo)委員會常務(wù)副主任。
什么是大數(shù)據(jù)?也許你不能準(zhǔn)確地給它下一個定義,但是,你知道或者不知道,它就在那里,已經(jīng)滲透到你工作、生活的方方面面。我們該如何應(yīng)對這場被一些人稱為“第四次科技革命”的全球新競爭?又如何培養(yǎng)適應(yīng)大數(shù)據(jù)時代要求的高層次人才?日前,記者就此采訪了中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心主任、中國人民大學(xué)原常務(wù)副校長袁衛(wèi)教授。
中國擁有數(shù)據(jù)資源優(yōu)勢
記者:對于老百姓而言,大數(shù)據(jù)還是個新詞匯,能否介紹一下大數(shù)據(jù)產(chǎn)生的時代背景以及目前國內(nèi)外研究、應(yīng)用的狀況?
袁衛(wèi):在上世紀(jì)80年代初,就已經(jīng)有了大數(shù)據(jù)的概念和相關(guān)應(yīng)用,但是它深入社會和百姓的視野,則是最近幾年的事情。2012年,美國政府由白宮牽頭,啟動了一個“大數(shù)據(jù)發(fā)展計劃”,這個計劃的推出被視為進入大數(shù)據(jù)時代的標(biāo)志性事件,其重要性堪比1992年美國政府推出的“信息高速公路計劃”(被視為進入網(wǎng)絡(luò)時代的標(biāo)志)。在相似的時間,歐盟各國陸續(xù)開放了很多政府?dāng)?shù)據(jù),日本也啟動了一個大數(shù)據(jù)項目,聯(lián)合國2012年發(fā)布大數(shù)據(jù)報告,全球掀起了大數(shù)據(jù)研究和應(yīng)用的熱潮。
大數(shù)據(jù)的發(fā)展,是以網(wǎng)絡(luò)和計算機技術(shù)的高速發(fā)展為依托的。1965年英特爾創(chuàng)始人之一的摩爾先生提出,未來的網(wǎng)絡(luò)計算機發(fā)展,大體上每隔1年到2年,等面積集成電路中的晶體管數(shù)量將會增加一倍,即計算速度會提高一倍,同等的計算,成本會降低一半。經(jīng)過近50年的實踐,驗證了摩爾先生的預(yù)測,也就是人們常說的“摩爾定律”。計算機和網(wǎng)絡(luò)科技的高速發(fā)展,使得大量網(wǎng)絡(luò)數(shù)據(jù),包括音頻的、視頻的、圖片的、文本的各種各樣的數(shù)據(jù),得以保存,并轉(zhuǎn)化為我們可以深入分析的數(shù)據(jù)。于是,大數(shù)據(jù)的研究和應(yīng)用也就水到渠成了。
記者:在大數(shù)據(jù)這個領(lǐng)域,我們和發(fā)達國家的差距大嗎?
袁衛(wèi):上世紀(jì)八九十年代,我們在很多科技領(lǐng)域和國外差距很大,但是進入互聯(lián)網(wǎng)時代以后,這種狀況逐漸改觀。進入大數(shù)據(jù)時代,我們可進一步縮小與美國等科技發(fā)達國家的差距,甚至具有后發(fā)優(yōu)勢,原因有三個方面:其一,在互聯(lián)網(wǎng)時代,各種最先進的技術(shù)可以快速傳播,基本上可以做到全球同步;其二,和微軟的操作系統(tǒng)等軟件不同,大數(shù)據(jù)絕大多數(shù)軟件是開源的,很多網(wǎng)絡(luò)技術(shù)也是公開的,中國的科學(xué)技術(shù)與教育工作者,只要具有足夠的智慧和能力,完全可以追趕甚至在某個領(lǐng)域超過美國;其三,我們在數(shù)據(jù)資源上具有優(yōu)勢。中國有13.5億人,13.5億個活動主體組織了各種社會經(jīng)濟關(guān)系,建立起各種社會、網(wǎng)絡(luò)聯(lián)系,在各種社會經(jīng)濟活動中產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)是可以充分挖掘的資源。我們起步稍晚,但是具有后發(fā)優(yōu)勢,在某些領(lǐng)域甚至可以達到國際先進水平,比如中國推進的智慧城市建設(shè)就很不錯,還有微信社交平臺、阿里小貸等,體現(xiàn)了中國的特色。
統(tǒng)計學(xué)科迎來“最好的時期”
記者:您是統(tǒng)計學(xué)方面的權(quán)威專家。在您看來,大數(shù)據(jù)對于統(tǒng)計學(xué)的發(fā)展有何影響?
袁衛(wèi):統(tǒng)計學(xué)就是數(shù)據(jù)科學(xué),大數(shù)據(jù)對統(tǒng)計學(xué)的發(fā)展影響巨大。我個人認為,大數(shù)據(jù)對于統(tǒng)計學(xué)的發(fā)展,既是機遇又是挑戰(zhàn)。
說它是機遇,是因為大數(shù)據(jù)研究和應(yīng)用會帶來大量人才需求,這對統(tǒng)計學(xué)的發(fā)展是一個巨大的利好,可以說,目前統(tǒng)計學(xué)發(fā)展正處于歷史上最好的時期。這幾年,從全國范圍看,統(tǒng)計學(xué)專業(yè)畢業(yè)生就業(yè)狀況都不錯,今后會更好。
說它是挑戰(zhàn),是因為大數(shù)據(jù)可能部分顛覆傳統(tǒng)的統(tǒng)計方法。比如有人認為,傳統(tǒng)的統(tǒng)計方法講究抽樣,但是大數(shù)據(jù)使得我們可以對接近總量的數(shù)據(jù)進行分析,這樣進行抽樣調(diào)查的需求就會減少;還有人認為,傳統(tǒng)的統(tǒng)計分析注重因果關(guān)系,但大數(shù)據(jù)情況下,只需明確兩者之間有關(guān)系即可。另外,過去強調(diào)分析的準(zhǔn)確性,而在大數(shù)據(jù)情況下,允許存在一定的誤差,等等。
我認為,大數(shù)據(jù)對統(tǒng)計學(xué)帶來的上述挑戰(zhàn)確實存在,但是不會導(dǎo)致傳統(tǒng)抽樣調(diào)查的需求減少。因為大數(shù)據(jù)雖然數(shù)據(jù)量很大,但絕大多數(shù)情況下這些大樣本都不是隨機的,推斷總體都有系統(tǒng)偏差,因而抽樣調(diào)查等統(tǒng)計方法仍然是不可取代的。此外,在很多時候,科研和商業(yè)應(yīng)用、科學(xué)決策還是需要進行準(zhǔn)確的統(tǒng)計分析的。
從人才培養(yǎng)的角度看,統(tǒng)計學(xué)在教學(xué)內(nèi)容、教學(xué)方法、人才培養(yǎng)模式等方面需要進行變革,以適應(yīng)大數(shù)據(jù)時代的人才素質(zhì)要求,這是統(tǒng)計學(xué)科發(fā)展面臨的另一挑戰(zhàn)。