電子科大把大數(shù)據(jù)運用到社會科學的研究中
日前,電子科技大學大數(shù)據(jù)研究中心主任周濤教授、高見博士在《物理報道》發(fā)表長篇綜述論文?!段锢韴蟮馈肥俏锢砜茖W和交叉科學類最具國際影響力的期刊之一,是國際頂尖級期刊。這篇名為“計算社會經濟學”的論文,主要是通過利用采集的大數(shù)據(jù),分析全球經濟發(fā)展狀況、區(qū)域經濟水平、城市空間結構布局和個體社會經濟狀況等。相比過去而言,改變了傳統(tǒng)的“問卷調查、普查”的方式,獲取的數(shù)據(jù)更具有真實性,對政府的決策更有指導意義。
大數(shù)據(jù)的運用改變社會科學的調查方式
據(jù)周濤教授介紹,社會科學的研究非常復雜,其基本單元(人)要比物理學的基本單元(基本粒子)復雜得多。社會科學的研究對象具有極大的不完備性和不確定性,如政策和法律條文,不僅復雜,而且不容易用數(shù)值手段來刻畫。同時,影響社會發(fā)展的因素數(shù)不勝數(shù),任何包羅萬象的理論都不可能將它們全盤納入,而單個因素也是不獨立不穩(wěn)定的,受到外部環(huán)境和其他因素的影響很多。因此,搜集大量的數(shù)據(jù),覆蓋足夠的面,可以讓社會科學調查得到的結果更加真實,為政府決策提供更加科學合理的建議。
但是,此前很多社會學的研究,依賴于問卷調查、普查等方式,這些數(shù)據(jù)采集的規(guī)模相對較小,不具有廣泛的代表意義;此外,還存在獲取數(shù)據(jù)的成本較高、時間滯后等劣勢。而此次在論文中所推薦的調查方式,則是基于新興的大數(shù)據(jù)技術。
高見博士提到,隨著大數(shù)據(jù)和人工智能技術的發(fā)展,為社會經濟帶來了前所未有的機遇和改變。一方面,我們可以用相對較低的成本獲取衛(wèi)星遙感、手機通訊、社交媒體等大規(guī)模社會經濟數(shù)據(jù),其具有實時性強和高時空分辨率等優(yōu)勢。另一方面,機器學習、數(shù)據(jù)挖掘、網絡分析等計算方法的發(fā)展,有效提升了定量感知和預測社會經濟態(tài)勢的能力。
新興交叉學科計算社會經濟學應運而生
這篇綜述文章可以看作一個新興的交叉學科——計算社會經濟學,它基于大規(guī)模的真實數(shù)據(jù),用定量化的手段研究社會經濟發(fā)展中的各種現(xiàn)象,特別是與社會過程有關的經濟發(fā)展問題,以及與經濟發(fā)展有關的社會問題。它既可以被看作是社會經濟學因為方法論的變革所形成的新分支,也可以被看作是計算社會科學因為研究對象的聚焦所形成的新分支。計算社會經濟學特別強調三個關鍵詞:“定量化”,強調用數(shù)值而非描述來刻畫問題和呈現(xiàn)結果;“真實數(shù)據(jù)”,強調理論模型必須要服從真實數(shù)據(jù),以對真實數(shù)據(jù)的解釋和預測能力為評價準繩;“大規(guī)模”,強調盡可能獲取能夠直接反映全體的數(shù)據(jù)樣本,即全體尺度數(shù)據(jù)。文章通過介紹大量的研究實例,描摹了社會經濟學發(fā)展在方法論上正在產生的兩大改變。一是為了分析遙感圖像、街景照片、社交網絡、文本內容這些新型數(shù)據(jù),傳統(tǒng)的統(tǒng)計分析工具無法滿足需求,必須高度依賴于人工智能,特別是數(shù)據(jù)挖掘和機器學習的先進技術,例如深度學習算法。二是我們可以通過建立利用全體尺度的數(shù)據(jù)預測少量高價值數(shù)據(jù)的模型,從而可以推斷出全體尺度上的高價值信息。
例如,科學家對盧旺達856名手機用戶的家庭經濟情況進行了詳細的調查,然后通過機器學習方法,建立了利用手機數(shù)據(jù)預測家庭經濟情況的模型,從而以很高的精度直接從手機數(shù)據(jù)中推測盧旺達150多萬家庭的經濟情況。這種結合全體尺度易獲得數(shù)據(jù),少量難以獲得的高價值數(shù)據(jù)和機器學習算法,去推斷全體尺度難以獲得的高價值數(shù)據(jù),是計算社會經濟學研究中很有代表性的一種新方法,體現(xiàn)了社會科學和計算機科學理念和方法的深度融合??傮w而言,社會經濟學將會和數(shù)據(jù)科學、人工智能結成方法論上的深度聯(lián)盟。周濤表示,長遠來看,這種由大數(shù)據(jù)和人工智能發(fā)展所驅動的新理念和新方法論,毫無疑問會成為未來社會科學主流的方法論,并且將不可逆轉而深刻地改變整個社會科學!