美國(guó)科學(xué)哲學(xué)家漢弗萊斯將大數(shù)據(jù)分為兩類,一類 是大寫的大 數(shù) 據(jù)(BIG DATA), 另 一 類 是 小 寫 的 大 數(shù) 據(jù)(big data)。小寫的大 數(shù) 據(jù)指與數(shù) 據(jù)科學(xué) 相關(guān)的活動(dòng)和方法,是擁有海量數(shù)據(jù)的組織機(jī)構(gòu)所面臨的技術(shù)問(wèn)題 ;而當(dāng)這些活動(dòng)、方法尤其關(guān)于處理海量數(shù)據(jù)的技術(shù)向社會(huì)各領(lǐng)域滲透并迅速發(fā)展時(shí),便產(chǎn)生了大寫的大數(shù)據(jù)。這意味著我們平常所用的“大數(shù)據(jù)”所指的對(duì)象并不同一。大數(shù)據(jù)激進(jìn)派的代表人物安德森、舍恩伯格等認(rèn)為 :數(shù)據(jù)可以客 觀 地 表征世界 ;只 要 數(shù) 據(jù)量 足夠大,就不需要模型、問(wèn)題及相關(guān)的理論,只要在數(shù)據(jù)的驅(qū)動(dòng)下,數(shù)據(jù)可以自己發(fā)聲 ;相關(guān)性是世界的本質(zhì) ;由于大數(shù)據(jù)可以完全避免人類的主觀因素進(jìn)入科學(xué)研究,大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的模式更客觀、更自由。大數(shù)據(jù)保守派的代表人物有弗洛里迪、克勞德、皮耶奇等,他們一方面承認(rèn)大數(shù)據(jù)的獨(dú)特性,另一方面對(duì)大數(shù)據(jù)是否能客觀反映實(shí)在、大數(shù)據(jù)是否是理論自由的、大數(shù)據(jù)能否完全取代小數(shù)據(jù)、相關(guān)性能否代替因果性等都保持理性的懷疑態(tài)度,并且通 過(guò)案例,對(duì) 激 進(jìn)派的各種論 調(diào)一一進(jìn)行反駁。
案例一人類數(shù)感研究
人類對(duì)物體或事件的數(shù)量存在一種非言語(yǔ)的表征方式,區(qū)別于通過(guò)言語(yǔ)或數(shù)字符號(hào)對(duì)數(shù)量的精確表征,具有近似性和不精確性,心理學(xué)家稱之為近似數(shù) 量系統(tǒng)(ANS)。ANS是一種與生俱來(lái)的結(jié)構(gòu),無(wú)論人還是動(dòng)物都有,它不僅體現(xiàn)在視覺(jué)任務(wù)中,也能體現(xiàn)在聽(tīng)覺(jué)任務(wù)中,是人類數(shù)感和形成數(shù)學(xué)能力的基礎(chǔ),在理論上服從韋伯定律。腦科學(xué)研究表明,腦區(qū)雙側(cè)的頂內(nèi)溝處大致為ANS系統(tǒng)所處的位置。目前,腦科學(xué)和心理科學(xué)的相關(guān)研究成果被廣泛應(yīng)用到教育教學(xué)實(shí)踐中。但長(zhǎng)期以來(lái),對(duì)ANS的研究缺乏對(duì)人的整個(gè)生命周期的研究,因?yàn)閷?shí)踐中很難對(duì)每一個(gè)樣本進(jìn)行終生的追蹤研究。大數(shù)據(jù)技術(shù)出現(xiàn)之后,約翰霍布斯大學(xué)的心理學(xué) 家 哈 爾伯 達(dá)(J. Halberda)通過(guò)已有的ANS理論,構(gòu)造出測(cè)試模型,然后向全球征求志愿者,在線完成測(cè)試任務(wù)。在短短的幾個(gè)月時(shí)間里,便收集到了分布在全球不同地區(qū)的13000名年齡在11-85歲的測(cè)試者。通過(guò)對(duì)這些數(shù)據(jù)的分析,哈爾伯達(dá)不但完成了對(duì)人類數(shù)量感知力發(fā)展的整體描述、驗(yàn)證了前期對(duì)于不同年齡階段ANS與數(shù)學(xué)水平之間的理論假設(shè),填補(bǔ)了這一領(lǐng)域的研究空白,而且 還發(fā)現(xiàn)了之前沒(méi)有發(fā)現(xiàn)的一些“意外”規(guī)律。
案例二谷歌流感預(yù)測(cè)
季節(jié)性流感是人類社會(huì)長(zhǎng)期面臨的一個(gè)世界性的威脅和問(wèn)題,據(jù)統(tǒng)計(jì),全球每年約有25萬(wàn)-50萬(wàn)人死于季節(jié)性流感。因此,對(duì)季節(jié)性流感進(jìn)行預(yù)測(cè)并提前防控具有重要意義。美國(guó)疾 病控制和預(yù)防中心(CDC)、歐洲流 感監(jiān)測(cè)計(jì)劃(EISS)所使用的流感預(yù)測(cè)系統(tǒng),都是依據(jù)病毒學(xué)理論,使用臨床監(jiān)測(cè)數(shù)據(jù),對(duì)流感進(jìn)行預(yù)測(cè),并向公眾發(fā)布預(yù)測(cè)報(bào)告,但預(yù)測(cè)報(bào)告通常會(huì)滯后1-2周。隨著互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)在某一地區(qū),某些詞的互聯(lián)網(wǎng)搜索頻率與流感樣疾?。╥nfluenza-like illness,ILI)病例的就診比率高度相關(guān)。2008年,谷歌建立了一種通過(guò)分析谷歌搜索查詢來(lái)跟蹤、預(yù)測(cè)流感的系統(tǒng)。在谷歌的預(yù)測(cè)模型中,自變量為同一地區(qū)與流感樣疾病相關(guān)的檢索詞的檢索頻率。將模型的預(yù)測(cè)結(jié)果與CDC的結(jié)果相比較,發(fā)現(xiàn)對(duì)2008年各季度預(yù)測(cè)的結(jié)果與美國(guó)CDC的監(jiān)測(cè)結(jié)果的相關(guān)系數(shù)達(dá)到0.97。而最為關(guān)鍵的是,由于可以快速處理搜索查詢,谷歌的預(yù)測(cè)報(bào)告比CDC的提前1-2周。
分析SSD與SDS
以上兩個(gè)大數(shù)據(jù)案例恰好代表了兩個(gè)大數(shù)據(jù)流派對(duì)大數(shù)據(jù)的看法。當(dāng)研究者基于案例一來(lái)分析時(shí),必然會(huì)得出大數(shù)據(jù)研究離不開(kāi)模型、以問(wèn)題驅(qū)動(dòng)、相關(guān)性不能代替因果性等,而對(duì)于影響人類“數(shù)感”的機(jī)制是什么仍舊懸而未決 ;如果以案例二為依據(jù)則可以得出,大數(shù)據(jù)不需要具體問(wèn)題,
雖然兩類大數(shù)據(jù)有區(qū)別,但隨著不斷融合,它們之間的界限越來(lái)越模糊。SDS的數(shù)據(jù)雖然依 賴于網(wǎng)絡(luò)技術(shù)的發(fā)展,但其所使用的方法、模型很多都是來(lái)自于SSD的研究成果。正如漢弗萊斯所指出的,當(dāng)小寫的大數(shù)據(jù)向社會(huì)各領(lǐng)域滲透并迅速發(fā)展時(shí),便產(chǎn)生了大寫的大數(shù)據(jù)。綜上所述,由于大數(shù)據(jù)所指陳的對(duì)象并不同一,即客觀上存在著兩類既有區(qū)別又有聯(lián)系的大數(shù)據(jù),因此,在開(kāi)展相關(guān)研究時(shí),研究者首先要明確自己所研究的對(duì)象屬于哪一類,如此才不至于陷入激進(jìn)派與保守派無(wú)休止的論爭(zhēng)漩渦。(數(shù)據(jù)雜志/文薛永紅)轉(zhuǎn)載請(qǐng)注明來(lái)源
本網(wǎng)站所有內(nèi)容屬北京商報(bào)社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報(bào)總機(jī):010-64101978 媒體合作:010-64101871
商報(bào)地址:北京市朝陽(yáng)區(qū)和平里西街21號(hào) 郵編:100013 法律顧問(wèn):北京市中同律師事務(wù)所(010-82011988)
網(wǎng)上有害信息舉報(bào) 違法和不良信息舉報(bào)電話:010-84276691 舉報(bào)郵箱:bjsb@bbtnews.com.cn
ICP備案編號(hào):京ICP備08003726號(hào)-1 京公網(wǎng)安備11010502045556號(hào) 互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號(hào)