Press "Enter" to skip to content

第二种想象力:社会科学中的因果推断

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

在《社会学的想象力》一书中,社会学家米尔斯强调研究者要把个人经历和社会整体联系起来,呼唤一种“社会学的想象力”。在当下,我们应该如何完整、科学地理解“社会学的想象力”?如何把数据、模型算法、因果逻辑与社会理论更好地连接?这需要“社会学的第二种想象力”。

 

在集智俱乐部「因果科学读书会」第三季,南京大学陈云松 教授 从“因果”和“数据”两个维度,用因果推断、大数据和机器学习等方面的系列研究案例,阐释第二种想象力的八类思维面向。本文是此次读书会的文字整理。

 

研究领域:因果推断,计算社会学,机器学习

 

陈云松 |  讲者

 

周俊铭   | 整理

 

邓一雪  | 编辑

 

美国社会学家查尔斯米尔斯在1959年提出“社会学的想象力”这个概念,他强调是,研究者要把 个人经历和社会整体联系起来 ,把个人体验和历史经验转变为社会学的议题。不过,米尔斯版本的社会学想象力,虽然有助于提出学术概念和理论因果假设,但却无助于验证假设和理论体系的扩展。此外,米尔斯习惯用诗意笔法来描绘想象力的内涵,但对于提升社会学想象力的具体学科路径,却言语暧昧,仅在书末附录中就质性研究方法,以他自己批评过的工程师式的笔法,寥寥数页匆匆带过。在互联网时代、信息时代、数据时代,我们呼唤一种基于理论、数据和方法的“ 第二种想象力 ”。这新的社会学想象力,具体而扎实,体现在定量研究的八类思维。

 

 

一、横向思维:拓展关联

 

通过横向思维,我们对传统社会学理论作平行延展,有可能发现新的社会现象关联。以“维特效应”为例,当我们观察到“阅读自杀小说—模仿自杀行为”的社会现象,并接受了这一理论假设,我们可以进一步就这一关系进行内延和外展:比如“阅读小说—个体抑郁—模仿自杀”和“阅读小说—模仿自杀—出台预防政策”,前者是内延至个人的心理因素,后者是外展至社会治理的政策措施。

 

 

二、纵向思维:理解跃迁

 

跃迁是指传统的社会学理论在解释层次上的垂直变化,科尔曼之舟就是最直观的体现。当然,在空间或者时间上都可以进行,可上升也可下降。如果我们从空间上拓展维特效应,可以尝试研究美国“自杀小说销量大的州,自杀率是否更高”。从时间序列分析沉降到面板分析,从个体微观分析跃迁到宏观分析,都是典型的跃迁。

 

 

三、逆向思维:定量扎根(数据扎根)

 

借助机器学习的黑箱拆解,我们可以采用定量研究的方法进行扎根研究。具体到因果关系,对于给定的“果”Y,当我们从数据中找出对预测贡献度大的系列X,从中筛选出理论。我们的团队已经提出了具体的算法路径和案例。

 

 

为了拆解机器学习算法模型的黑箱,目前可用的指标包括:置换特征重要性、沙普利值、部分依赖图。找出最具预测力的变量,就有可能产生新的理论。

 

[1] 陈云松, 吴晓刚, 胡安宁, 贺光烨, & 句国栋. (2020). 社会预测:基于机器学习的研究新范式. 社会学研究(3), 25.

 

[2] Chen, Z., Guo,W., Chen,Y.(2022)  Developing Social Theory Using Data-grounded Approach: An analysis framework, working paper

 

 

四、外生思维:识别因果

 

受到成本和伦理的限制,社会科学的定量研究基本上不可能做实验,而是采用潜在结果框架的因果模式,通过对抽样调查的问卷数据作回归,分析回归系数的统计显着性。关联的思维本质上也是一种解释世界的方式。例如,《晋书五行志》记录了皇帝施政和五行现象的相关关系,但古代人们还不理解自然现象的科学机制,有系统的理论,但无法形成真正的机制性解释。直到最近十年,中国社会学界才逐渐认识到内生性问题,即“相关非因果”。内生性问题主要产生四种偏误:遗漏变量偏误,自选择偏误,样本选择偏误,联立性偏误。其中后三者可以视为遗漏变量偏误的变体。

 

解决内生性问题,社会学常用以下6种方法:(1)代理变量,比如用IQ数值作为个人能力的代理变量。(2)固定效应,这种方法的原理是,多次观测同一个体,再把估计结果作差分,就消除去不随时间变化的遗漏变量。(3)工具变量,寻找和Y无关,但和内生的X相关的变量。(4)赫克曼两步法,可以用来处理样本选择偏误。(5)双重差分(6)断点回归。此外,实验和匹配,也是目前社会科学的常用方法。当然,PSM不能解决遗漏变量问题。

 

[3] 伍德里奇, & J.M.). (2014). 计量经济学导论:现代观点(第5版). 清华大学出版社.

 

 

五、具象思维:数据测量

 

传统的社会学定量研究主要着眼于个体状态对个体结果的影响,这可以考察微观层面的因果关系,例如个人收入对个人幸福感的影响。但是在宏观层面,却缺乏对于集体状态和集体结果之间的因果关系的研究,这是受宏观层面的可观测数据不足所制约。 直到进入大数据时代,传统问卷调查未覆盖的宏观指标才变得可以获得 。

 

回到“维特效应”的例子。在过去,“大众媒介的自杀内容会不会传播自杀”这一命题只能被定性地讨论,无法被定量地检验。当我们拥有了大数据,就可以从中提取出以往无法获得超大时间空间跨度的指标。比如陈云松和严飞等人利用google、IMDB、proquest等数据,构建不同媒体 (书籍、影视、报纸) 中的自杀指数,作为影响自杀的原因,考察20世纪下半叶的美国社会,在影视媒体、新闻媒体高度发达的情况下,是否存在书籍的“维特效应”。马文、陈茁等利用IMDB数据对中国电影百年国际传播进行了探讨。

 

 

基于大数据的宏观定量研究是传统定量社会学和计算社会学的结合,使我们不仅可以在宏观层面检验大理论,而且能够进行社会学的因果推断。

 

[4] Chen, Y. ,  Yan, F. ,  He, G. , &  Yan, W. . (2020). The Werther effect revisited: do suicides in books predict actual suicides?. Poetics, 101441.

 

[5] Ma, W., Sun,W., Chen,Z., & Chen,Y. (2022).International Cinema’s Shifting Image of China: From the Barbarian to the Schemer, and to the Civilized Great Power. Journal of Contemporary China,forthcoming.

 

 

六、预测思维:黑箱插补

 

问卷调查的一些指标会出现数据缺失,而这种缺失不一定是随机的。社会学的研究往往依赖调查数据,就容易出现偏误,产生测量误差的内生性问题。例如家庭暴力的调查,往往受害者不愿意说出真实,而这类“缺失值”人群可能正是家暴的受害者。再如,性少数群体被访者往往不愿意透露真实信息,造成性取向调查的人口学数值缺失。

 

在以上两个例子,非随机的缺失值导致了向下偏误,使得遭受家暴和性少数人群的比例被低估。为了解决数据缺失的问题,陈云松、句国栋等利用监督学习的方法,对样本中的缺失值进行插补。总体上,传统的测量方法的确低估了这两者的比例。

 

 

[6] Chen, Y. ,  Ju, G. ,  He, G. (2022). The Hidden Sexual Minorities: Machine Learning Approaches to Estimate the Genuine LGBTQ Percentage of Chinese Youth. Journal of Social Computing(forthcoming)

 

 

七、可视思维:社会结构

 

大数据的可视化能够阐发社会学理论的直觉。陈云松团队对《全唐诗》的文本进行聚类分析,根据隐含狄利克雷分布进行主题建模,把4.2万首完整的诗作分入十个主题类别。可视化后能看到隋唐五代中国诗人创作题材比例的时间演变过程。在此基础上,提出诗歌创作与边境用兵等等时间序列的假说。此外,陈云松、陈茁等利用句相似法研究了诗人作品风格之间的相似和传承。

 

 

 

 

诚然,对流传下来的古代文本应用机器学习的方法进行文本挖掘,不一定充分满足算法模型的数学假设。但是,基于大数据的研究,还是能够在某种程度上带来新的启发,补充社会学既有的理论知识。

 

[7] 陈云松. (2022). 社会计算在文化社会学中的运用. 学术月刊, 54(1), 8.

 

 

八、简化思维:数据仿真

 

多主体仿真建模(ABM) 是历史悠久的计算社会科学方法,主要功能在于展示从微观到宏观的涌现现象。但从社会学直觉出发,也可能存在三个悖论。(1)复刻悖论。通过参数调整,简化模型能够再现各类宏观社会现象,但预测全部的可能有不给与概率分布,相当于不预测。(2)复杂性悖论。当模型参数很多,武断地设定参数关系就会丧失复杂性;但加入不确定性又会使模拟结果难以形成解释。(3)长臂悖论。有别于对传染病、城市交通等短链条进行建模,社会现象的模型往往有着从微观到宏观的漫长链条,对建模带来实际困难。瑞典社会学家、科尔曼的弟子赫斯特洛姆提出“实证校准”解决思路,如用现实回归模型的系数来提供ABM参数。但仍然不能解决上述悖论。

 

[8] 彼得・赫斯特洛姆. (2010). 解析社会:分析社会学原理. 南京大学出版社.

 

讲者介绍

 

陈云松,牛津大学社会学博士,南京大学社会学教授,教育部“长江学者”青年学者,国家社科基金重大项目首席专家,Social Science Research等杂志编委。主要研究领域为计算社会学、社会网络和社会心态。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。