
機器學習(Machine Learning,簡稱ML) 指的是從數據中識別出規律並以此完成預測、分類及聚類等任務的算法總稱。隨著數據的可得及計算機處理能力的提高🍸,該技術在業界及自然科學領域已經得到廣泛地應用。在社會科學領域🙇🏽♀️,機器學習的使用雖然起步較晚,但發展也非常迅速。
機器學習是指從數據中識別出規律並以此完成預測、分類及聚類的算法總稱👩🏼🦱🤹🏻。目前機器學習技術在社會科學研究中的應用分成三類:
第一👨🦼➡️,數據生成 (Data Generating Process):機器學習可以幫助學者獲得以前很難或無法獲得的數據;
第二,預測 (Prediction)👨🏻🦽:機器學習可以更有效地探索變量之間的相關性👩🏽,進而做出較為精準的預測🙇🏼♂️;
第三,因果識別 (Causal Inference):社會科學、特別是經濟學實證研究的核心是因果識別,而機器學習在這方面也具有一定優勢。
優勢一🐤:可以完成復雜的數據生成工作
傳統社會科學實證研究基於的數據大都來自官方、問卷調查、實地調查👩🏿⚖️、田野或實驗室實驗。最新一些研究試圖利用機器學習技術拓展數據可得性🔦。通過機器學習獲得數據的主要方式是文本挖據及圖像識別。就文本信息來說🧗🏿♀️,研究者關心的是文本主題💉。為了在海量文本數據中提取主題🚟🌏,學者一般使用Latent Dirichlet Allocation(LDA) 方法🍊。除了文本,機器學習也可以從圖像中提取變量👱🏻♀️。衛星圖像就是一個被經濟學家廣泛研究的圖像信息。
上述研究主要涉及變量的“絕對”值,機器學習還可以為研究者生成“相對”意義上的變量。比較不同文本相似度是該領域的典型應用。除了對海量文本進行歸類和比較外👋🏿,機器學習技術還可以測量文字背後的情感。
優勢二:預測能力強過了計量經濟學傳統方法
在使用機器學習之前🧖🏼♀️,社會科學研究者主要依賴最小二乘回歸 (OLS) 進行預測。如果從“無偏性”和“可解釋性”兩方面評價傳統計量經濟學方法和機器學習方法在預測方面的優劣。任何預測方法都是在偏差和誤差間進行權衡取舍🤵🏿♂️。社會科學實證研究🧟♀️,特別是經濟學研究⭐️,特別強調因果推論🧑🔧。基於這種考慮,計量經濟學回歸模型都致力於獲得一致的估計系數✵。這意味著在這一方差–偏差權衡中8️⃣,計量經濟學方法寧願付出方差較大的代價🧚,也不能放棄無偏這一性質🧎。比方說上面所提到的OLS的估計系數正體現這一思路。而機器學習的目的就是進行預測——它並不在乎用以做出預測的估計系數是否具有一致無偏性特點☂️。這就意味著在無偏性上👨🏭,機器學習做出了“讓步”🏄🏿:選擇用偏差來換取更小的方差以提高預測性能𓀉。
“可解釋性”指的是從模型估計出的結果能夠容易地被解釋。計量經濟學的目的不僅是預測,更在於解釋現實中的現象以找到背後規律😮。從這個意義上來說🦸♀️,用來預測的函數形式越簡單越好。因為復雜模型需要廓清模型擬合好壞的原因及解釋變量與被解釋變量間的互動關系等諸多問題🧑🏼🦰🙆。機器學習則恰恰相反,只要這個函數能夠很好地模擬現實,哪怕函數形式再復雜也無所謂。在這一點上🫰,機器學習不拘泥於“可解釋性”☂️,靈活地選擇函數形式進行擬合數據,這使得其預測能力強過了計量經濟學傳統方法🧟。
在實際研究中機器學習的預測工作體現在個體和宏觀經濟層面🥀。在個體層面上🫗🙆🏿,機器學習可以幫我們更好地預測個人信息、決策或未來行為🟧。在社會經濟層面,機器學習能夠幫助研究者預測經濟指標。
優勢三🛷🚅:有助於識別和推斷因果關系
社會科學,尤其是經濟學實證研究的核心目標是獲得因果推論,以探究幹預(Treatment) 措施是否導致預期結果並廓清作用發生機製。機器學習技術在這方面的應用依然基於著名的Neyman-Rubin反事實框架(Neyman-Rubin Counterfactual Framework)給出“因果效應”的定義🚾;目前已有學者將機器學習技術和應用微觀計量經濟學廣泛使用的兩種因果推論方法雙重差分(Difference-in-Differences, DID) 及斷點回歸(Regression Discontinuity, RD)結合起來為因果分析提供幫助。
局限一:難以突破傳統社會科學的分析框架
和業界及自然科學領域中機器學習技術的應用相比,社會科學中該技術的應用近幾年也獲得了長足發展👳🏽♂️,但整體來說仍然處於較為初步的階段。不管數據生成🙍🏽♀️、預測還是因果識別,我們都認為機器學習技術的引入對整個社會科學研究範式的沖擊有限。就數據生成來說🫱🏿🫶🏽,機器學習僅提高了數據搜集和整理的生產率👩🏽⚖️,將以前通過人力難以獲得的數據變為可得。但這些由機器學習生成的數據依然以變量形式進入到傳統社會科學研究框架內🤷♂️,本質上沒有改變社會科學的研究方法🌋🦯;就預測來說👨🏼🍼,目前社會科學在該領域的應用在很大程度上是對業界已經成果的復製。引領這一領域發展的驅動力依然是商業應用;就最有可能產生顛覆意義的因果識別來說,雖然利用機器學習的預測優勢構建處理組的反事實在方法論上行得通,但目前並沒有被研究者所廣泛接受和使用🤦♂️。本文認為其原因有兩個:
第一,很大程度上在於社會科學,特別是經濟學在識別因果上已經發展出非常成熟的範式。除非能夠帶來顛覆性的邊際貢獻,研究沒有理由拋棄傳統因果識別方法🌭。我們認為目前一個較為務實的做法是將機器學習識別因果的相關證據作為穩健性檢驗方式放入原有框架;
第二,充分發揮機器學習的預測能力依賴於海量數據,當前社會科學研究的樣本量遠沒有達到能夠讓其獲得精準預測的下限。
局限二:潛在的數據資源壁壘
機器學習使得研究者獲得了以前通過人工投入無法獲得的海量數據,檢驗了一些依靠傳統方法無法有效的假設,這在一定程度上拓展了社會科學研究的邊界。我們相信未來幾年會有越來越多的學者會在研究中嘗試機器學習技術。但我們也必須對該技術在應用過程中可能帶來的問題也要有清醒的認識,這主要涉及學者間不平等及數據可復製性問題🧑🍳👩🏿🦳。機器學習依賴海量數據,這些數據的產生者主要來自業界和政府組織。可以想象⚁,獲得這些數據的主要方式並不是團隊勞動投入,而是學者通過個人和組織的網絡關系獲得使用許可🖋。這無疑給大部分學者設置了進入障礙,進而造成贏者通吃並可能加劇學界內部的不平等🥫。
機器學習帶來的另外一個問題是研究的可復製性➗。學者通過公布數據及程序代碼可以讓其他學者和學生復製論文結論➿。但基於大數據的研究,學者雖然可以公布代碼,但數據的公開必須獲得數據提供方的許可↙️。和一般數據相比🏇🏼,業界和政府可能更不情願公布這些海量數據🚵♂️。這可能導致基於大數據研究的可復製性降低🦤。我們對此的建議是,學者在獲得數據的同時一並爭取獲得在未來公布其中的若幹部分 (比如數據量的萬分之一) 的權利:隨機取樣的子樣本依然具有重復復製的價值🥝。