Press "Enter" to skip to content

信不信谣、撞车救谁、“生男生女”…机器如何思考人类难题?

“科技向善”理念的提出已接近两年,无论是业界的认可度,还是外界的讨论度,都随着实践的开展、时间的推移,变得越来越广泛和热烈。关于科技向善的解读,不同领域的学者和从业者们显然有着不同的视角和观点,但众说纷纭中始终存在着一个高频闪现的词语——机器。

 

就像我们谈论技术革命时一定会谈论AI, 当我们提到科技发展时也无法避开机器。如果说,当下的时代是用机器学习来解决问题的时代,利用机器学习大数据的方法来研究科学发展议题,便是对这一理念极富创新色彩的探寻。

 

近日,于芝加哥大学社会学系从事博士后工作的腾讯研究院特聘研究员吴令飞受邀作为主讲嘉宾,在主题为“如何在理解机器的基础上谈论科技向善”的Workshop上,分享了学界有关于机器学习与大数据分析交叉应用的最新成果,并就科技向善的理念与实践,同现场参与者进行了热烈讨论。

 

 

在Workshop上,吴令飞主要分享了四篇学术论文,分别聚焦于机器与社交媒体真假新闻,机器算法是否具备道德观,以及机器学习偏见的议题。

 

一、别闹了,转发假新闻这事儿是我们自己干的

 

第一篇论文名为《The spread of true and false news online》,发表于《Science》,在去年有关真假新闻的学术讨论中热度极高。这篇文章的核心关注点为:机器在多大程度上能够控制社交媒体的舆论环境,并且影响人们的行为?

 

基于这个问题,研究团队采用了大数据的方法,利用五家谣言判定网站,对2007-2017年发布于于推特上的12万新闻的真假性进行判定,加注标签,以此来统计真假新闻在社交媒体上的传播速度和趋势。研究最终得出的结论是,社交媒体上转发假新闻的其实是人类,并不是机器,后者对于社交媒体与人类行为的控制和影响能力是非常有限的。

 

具体来说,文章首先从转发深度,转发年份,覆盖面,新闻主题等各方面,对推特样本库中的真、假及混合新闻进行了整体分析,如下图所示:

 

 

图一

 

随后,基于统计结果,研究团队将真新闻和假新闻的部分数据指征进行了比较,得出了如下图表:

 

 

图二

 

可以发现,真新闻很少有超过10的转发深度,超过1000的转发量,而假新闻却刚好相反,这说明假新闻受关注的程度远远高于真新闻。

 

接下来,团队将真假新闻的词频差距进行了统计和比较,得出了图三的结果,其中绿色指标表示真新闻,红色表示假新闻:

 

 

图三

 

吴令飞解释说,所谓词频差距的统计对比,可以看作是对真假新闻重复度与信息量的比较。根据图三的数据可知,假新闻往往显得更有信息量,更富创新性;而真新闻却不尽人意。换言之,假新闻看起来更像一个“新闻”,真新闻却不是。

 

除此之外,团队通过机器学习和人工判别的方法,将具体词频进行分析,判别和统计出了人类面对真假新闻时被激发的各类情绪指征。如图四所示,分别有恐惧,愤怒,恶心,惊讶,快乐,确信等。

 

 

图四

 

根据图四可以发现,假新闻一般激起人们诸如恐惧,恶心,惊讶,愤怒等负面情绪;而真新闻则会使人们产生快乐,确信等正面情绪。而当人们处于负面情绪时,更容易采取行动,进行转发,艾特或者评论。

 

由此,这项研究的结论便非常清晰了:在推特上大量转发假新闻的,并不是所谓的机器算法,而是活生生的人类。因为机器是没有感情的,它们无法被情绪操控而采取行为,能够控制它们操作的只有规则和指令。即使有人试图在机器里植入涉及情感判定的程序,从而让其变得更加像一个“人”,归根结底,仍是人类行为的后果。

 

二、真的存在统一的道德准则吗?

 

第二篇论文《The Moral Machine experiment》发表于《Nature》,探讨了机器算法是否具有道德观的问题。

 

研究认为,当下人类已经进入了全新的AI时代,机器正在对人类生活的方方面面产生越来越重要——甚至在某些时刻是决定性——的作用。在这样的背景下,一个问题呼之欲出:“机器是有道德的吗?”

 

机器能否像人类一样,基于道德准则做出行动?人类又是否能够将某种道德共识灌输给机器,由此使其行为符合人类的道德预期,比如,不要杀人呢?

 

基于上述困惑,研究团队在全球展开了一场大范围的线上测评实验,收集了来自233个国家,近四千万份样本数据,几乎覆盖了世界上所有存在生活人口的区域,如图五(a)所示。

 

 

图五

 

线上测评的设计具体来说是这样的。首先,研究团队模拟了一个经典道德困境,即驾驶汽车在面对“无法避免的交通撞击事故”时的场景,如图五(b)所示,高速行驶的自动驾驶汽车上有三位乘客,前方人行横道左侧有三位老年行人,右侧则是一个路障。在不考虑其他所有变量设定的情况下,假如自动驾驶算法选择不避让,会撞死三位行人;假如算法选择避让至右侧,则会撞到路障上,导致车内三位乘客死亡。

 

那幺,在这样的情况下,假如测试者是自动驾驶算法或司机的角色,是会选择避让还是不避让呢?假如路上行人和车内乘客的属性发生变化,测试者的选择又会有怎样的改变呢?

 

基于这个初始场景,以及改写变量之后由此产生的系列二选一问题,测评者完成了选择。研究团队收集了所有的样本数据,对其进行统计、分析和比较。得出了图六(a,b)如下所示。

 

 

图六

 

由此,研究团队提出疑问:人类真的有共同的道德准则吗?

 

首先来看图a。 横轴表示对于避让偏好(左或者右)的统计呈现。当蓝条愈趋近于右边,则右边愈容易被避让,愈趋近于左边,则左右两方“幸免于难”的可能性差距就愈小。

 

根据排序结果显示,人类做二选一决定时所考虑的首要因素为人数的多少。右边每增加一个人时,他们被避让的概率就会增高:当右边比左边多一个人时,避让概率增高30%;多两人及两人以上时,概率持续增高。这就是着名的“避让多数人”原理。

 

位列排序第二至四位的是,人和宠物、婴儿和老人,以及遵守交规与闯红灯。整体来看,人们更趋向于避让人类,避让婴儿以及避让遵守规则的人。这也与各国社会文化层面的道德共识趋向相一致。

 

序列第五至七位的结果则逐渐显示出人类带有偏向性的道德选择。它们分别为:有钱人和穷人,瘦子和胖子,以及女性和男性。整体来看,人们此时更倾向于避让有钱人,避让瘦子以及避让女性。

 

这是否说明,人类潜意识里是将他人分为“有用”和“无用”两种?考虑到欧美许多国家里,身材的苗条程度和经济条件成正比,那幺是否可以说,虽然普世价值观倡导对富人和穷人一视同仁,但人类潜意识里仍然存在着金钱和权力崇拜?

 

不过,让人欣慰的是,序列第八名显示,在面对无可避免的交通事故时,人们更多的时候会选择牺牲自己,避让车外的行人。

 

上述结论在图六(b),根据目标特性所统计的避让偏好里也有综合呈现。人们更加倾向于避让儿童,孕妇以及社会地位高的医生和运动员,对动物,老年人和胖子则没有更多的同情心。

 

接下来,研究团队将参与测评的四千万人的背景同样进行了统计和分析,得出图七结果,如下所示。

 

 

图七

 

研究团队发现,对人类道德判断影响最大的因素是这个人所来自的文化体系。根据统计结果,全球测试者可被分为三大体系,欧美文化(West),亚洲文化(East)和拉美非洲文化(South),而每个文化体系的道德准则显然大不相同,这一点在图七(b)中得到了更清晰的呈现。

 

如图七(b)所示,首先,亚洲文化会避让行人,其他两者并不;第二,拉美和欧洲文化会避让女性和身材苗条者,亚洲文化不会;第三,拉美文化会避让有钱人,其他两种文化则并无明显趋向性。由此可知,社会维度的各种影响因素对于亚洲人的影响都不大,可以说,亚洲人在避让偏好上最“不偏不倚”。

 

此外,研究团队还统计了具体文化因素影响下,三大文化体系的偏好分布趋势图。

 

 

图八

 

这组图表主要呈现出来的规律为:个人主义越盛行的文化社会,越倾向避让多数人;法律体系越完备的社会,对违反规则的人容忍度越低;越不平等的地方,越倾向避让有钱人,不避让女性。

 

综上所述,研究团队得出结论:人类的道德准则是被不同的文化、法律、经济体系所塑造的,因此人类或许并没有统一的道德。由此,一个与科技向善有关的提问也随之被引出:“当我们谈论科技向善的时候,到底是指亚洲的善,还是欧美的善呢?我们如何去理解和定义这种‘善’呢?”

 

三、机器学习与灰姑娘困境

 

最后,吴令飞简要分享了两篇以词向量模型为工具来进行机器学习研究的学术论文。

 

词向量是Google2013年做出来的模型,它把每一个词表征为一个向量,根据两个向量之间的夹角可以衡量词和词的距离。

 

在名为《Semantics derived automatically from language corpora contain human-like biases》的论文中,研究团队利用这个词向量,对各类职业名词与美国女性职业参与度的相关性进行了分析。他们将性别和各类职业词汇分别表征为词向量,计算它们之间的夹角和距离,并将统计数据和美国劳工部不同职业女性的占比量进行比较,得出了强正相关性的结果。

 

 

图九

 

由此可知,机器学习中存在着强烈的偏见,而这种偏见来源于人类社会。因为词语是人类思考、撰写产出的结果,机器学习到的语言里反映着社会事实的偏见。这种反映不仅来源于社交网络上的发言,更来源于真实的生活。所以,要消除机器的偏见,得先消除人类社会的偏见。此外,微妙的是,偏见也是社会结构某一层面的呈现,而机器的学习目标正是社会结构,那幺,机器能否消除偏见,便成为了一个暂时无法回答的问题。

 

在这个研究的基础上,来自南京大学的团队想要深入分析人类文本叙事之中的偏见,以及机器学习的影响,由此撰写了《The Cinderella Complex: Word Embeddings Quantify Gender Stereotypes in Movies and Books》。

 

所谓”Cinderella Complex”(灰姑娘困境),来源于童话故事《灰姑娘》,即灰姑娘漂亮能干,善良温柔,却无法主宰自己的命运,只能接受“等待王子拯救的人生叙事”的困境。

 

研究团队利用词向量模型,将灰姑娘剧本的全部台词分别表征为向量,并进行正负情绪的属性区分和细化,发现根据属性的不同,角色的情绪会有起伏和变化,并呈特定的趋势。随后,团队将数据进行分析和比较,得出了如下图表:

 

 

图十

 

如图十(c)所示,黄色曲线代表灰姑娘在整个故事中的情绪起伏趋势,蓝色曲线则代表王子的情绪起伏趋势,灰色点线代表两人有交集的台词节点。

 

从图中可以看出:灰姑娘的情绪变化是受王子影响的,但王子的情绪变化却与灰姑娘关系不大。灰姑娘情绪整体波动较大,在遇到王子之前,其情绪以负面为主,二人相遇之后则转负为正,逐渐走向高峰;王子全程的情绪波动则较为平稳。可以说,灰姑娘的命运感受是被王子主导的。

 

团队接着将另外七千个故事按照同样的方法进行了分析,包括剧本、小说,电影等囊括人类历史上大部分主流叙事的文本,并得出了和《灰姑娘》相同的分析结果,即在大部分人类主流叙事中,女性的情绪都取决于男性,而男性却不一定取决于女性。

 

此外,研究者还统计发现,在许多故事中,男性都出现在女性到达人生巅峰之前,而女性则出现在男性抵达巅峰之后,典型例子是霸道总裁文和草根逆袭文。可以说,大部分文本都认同一个叙事,即男性是女性成功的原因,而女性则是男性成功的奖励。

 

这是一个值得深思的结果。如果主流叙事都倡导上述同一个套路,在这样的叙事环境下耳濡目染长大的人,会不会下意识地觉得,女性是不需要奋斗,只需要等待被男性拯救的;男性则是要用奋斗作为筹码,来换取女性的感情和青睐的?此外,从这个研究来看,人类尚且无法避免被动学习偏见。那幺,没有价值观和自我意识的机器又会如何呢?

 

人类有没有统一的道德准则?这是人类学研究了很多年,依然难以回答的问题。然而,是否依然存在一种可能性,即在被三大文化体系区分的各种规则之上,仍有一种更高的能够连接全人类的道德共识?如此一来,在人类设计机器时,是否能够将这种更高的共识灌输其中,让机器反过来协助人类更加向善?

 

随着科技越来越深的介入人类生活,它背后的Coder,和同机器发生互动的人们所投入的价值取向就变得极为重要。悲观来说,机器由人类所造,是一定具有偏见和歧视的;但乐观来看,这种负面成分永远不会大于人类的偏见与歧视。所以,当人类利用技术时,是否能够对科技采取更包容的态度呢?这也是一个值得不仅腾讯研究院,更是业界进一步探讨的问题。

 

可以想见,如何理解科技向善,仍是接下来不短的时间内,互联网领域的重要议题。而本次分享会所提供的来自“机器”维度的思考,或许能够为将来从更多元角度探讨和践行科技向善理念提供一定的参考和帮助。

 

–END–

 

Reference

 

Awad, E.(2018). The Moral Machine experiment. Nature, 563, 59–64. Available from https://www.nature.com/articles/s41586-018-0637-6.pdf. [Accessed 19 June 2019].

 

Caliskan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, Vol. 356, Issue 6334, 183-186. Available from https://science.sciencemag.org/content/sci/356/6334/183.full.pdf. [Accessed 21 June 2019].

 

Vosoughi, S.(2018). The spread of true and false news online. Science, Vol. 359, Issue 6380, 1146-1151. Available from https://science.sciencemag.org/content/359/6380/1146/tab-pdf. [ Accessed 19 June 2019].

 

Xu, HM.(2018). The Cinderella Complex: Word Embeddings Quantify Gender Stereotypes in Movies and Books. Cornell University, 12 Nov. Available from https://arxiv.org/abs/1811.04599. [Accessed 21 June 2019].

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注