性爱、女孩、仇恨和偏见,世界最大精神世界数据集背后的真相

文 / 机器之心
2017-07-18 19:43

谷歌搜索是有史以来最重要的人类精神世界数据集。几十年前根本不存在的数据集,如今为研究人员提供了研究问题的全新视角。谷歌的初衷是为了让人们了解这个世界,不是为了让研究人员了解人。出乎意料地是,在互联网获取知识过程中,人们留下的印记却透露出大量事实。经济学博士 Seth Stephens-Davidowitz 曾在谷歌工作过一段时间。他花了四年时间分析谷歌匿名数据,发现很多有关精神疾病、性行为、堕胎、宗教、健康的真实情况,结果让人吃惊,「数字真理血清」让我们看到这个世界比想象中更糟。本文节选自 Seth Stephens-Davidowitz 著作 Everybody Lies: What the Internet Can Tell Us About Who We Really Are ,编译时有删节。

来源 | 卫报

作者 |Seth Stephens-Davidowitz

编译 | 张震、微胖

性爱、女孩、仇恨和偏见,世界最大精神世界数据集背后的真相

每个人都会撒谎。

人们会谎称回家路上喝了多少酒,去过几次健身房,新鞋子花了多少钱,是否读了书。没病的时候说有病;没联系还假装有联系;口口声声说着爱,实际上毫不在乎;脸上挂满笑容,内心却很悲伤;嘴上说喜欢女人,内心却对男人动心。对朋友、老板、孩子、父母、医生、丈夫、妻子甚至对自己都会说谎。

对调查说谎更是毫无疑问。很多人不会表露一些尴尬的行为和想法,因为他们想要保持一个良好的形象,即使在大多数调查都是匿名的情况下也是如此。这就是所谓的社会期待性偏差(social desirability bias)。1950 年发表的一篇重要论文证实了这一现象的存在:研究人员发现,即使在匿名情况下,许多人在对投票登记,投票行为与慈善捐助的表述都言过其实,没有给出真实信息。

六十五年过去了,事情有发生变化吗?互联网时代,没有一张自己的借书证不再是一件令人尴尬的事情。令人尴尬或令人称许性的事情或许也已发生了改变,但是,人们倾向于欺骗民意调查的意识依然坚挺。

最近,马里兰大学毕业生接受了一项关于大学生活各种问题的调查。调查结果与官方数据形成反差:为了良好的形象,毕业生们给出了很多错误信息。只有不到 2% 的毕业生说,毕业时 GPA 低于 2.5 分,但实际上,近 11% 毕业生的 GPA 低于这个数字。44% 毕业生说,去年给学校捐款,实际上只有 28% 的人捐过。

有时,我们会对自己撒谎,这听起来很奇怪。对自己撒谎,或许可以解释为什么很多人都会说自己处于中等偏上水平。这一情况很普遍。有超过 40% 的工程师说自己能力位居公司前 5%。超过 90% 大学教授认为工作表现中等偏上。环境涉及隐私越少,人们越会说实话。要想获得真实的答案,网上调查优于电话调查,电话调查又优于面对面的调查。单独接受采访比有旁人在场时,实话更多。然而,针对敏感性话题,任何调查方式都会遭遇谎言。

如何才能了解到人们真实的想法和行为呢?大数据。某些在线资源会让人们袒露一些不会在其它地方表露的心迹。它们是数字真相血清(digital truth serum)。 想想 Google 搜索,牢记这个能让人说实话的环境。在线、单独一人、调查无人监管。

谷歌数据的强大之处就在于,人们会将他们不愿对他人言说的事情告诉这个巨大搜索引擎。创建谷歌的初衷是为了让人们了解这个世界,不是为了让研究人员了解人。出乎意料地是,我们在互联网获取知识所留下的印记却展现了大量事实。

我花了四年时间分析谷歌匿名数据。获得了很多精神疾病、性行为、堕胎、宗教、健康方面的真实情况。如今,在几十年前根本不存在的数据集,为这些问题提供了一个全新的视角,结果令人惊诧。谷歌搜索是有史以来最重要的人类精神世界的数据集,对此我深信不疑。

性的真相

1、性生活

谈到性,人们有许多不愿透露的秘密,比如性行为次数。调查显示,美国人每年使用的避孕套比卖出的数量还多。你可能会因此认为,发生性行为时,他们使用了更多避孕套。不过,证据显示,人们一开始就夸大了性行为频率。15-44 岁的女性中,大约 11% 的女性表示,除了在怀孕期间,她们在性生活上很主动,不会采取避孕措施。即便对性生活进行保守估计下,科学家称,在这些女性中,每个月有将近 10% 的女性怀孕。这个数字已经高于整个美国怀孕人数(在达到生育年龄的女性中为 1 比 113).

在一个性开放的文化里,承认自己的性行为次数少不免令人难为情。如果你正在寻找理解或建议,就会再想要使用谷歌。在谷歌上抱怨配偶不想发生性关系,是抱怨已婚伴侣不愿聊天的 16 倍。抱怨未婚伴侣不想发生性关系,是抱怨未婚伴侣不回信息的 5.5 倍。

谷歌搜索找到了这些无性生活的罪魁祸首。抱怨男朋友不愿发生性关系的人数,是抱怨女朋友不愿发生性关系人数的两倍。目前为止,抱怨男友的各种问题中,排在第一位的是「男友不愿发生性关系。」(谷歌搜索无法根据性别进一步划分,但是,根据前文分析,95% 的男性是直男,我们可以猜测男性搜索「男友」的占比不大。)

如何解读这一数据?不愿发生性关系的男友真的比女友多?未必。如前所述,谷歌搜索存在偏差,更偏向于直白表达的人。跟朋友抱怨女朋友性冷淡,总比女人跟朋友谈论男友性冷淡自然地多。而且,即使谷歌数据并非暗示男友避免性生活的可能性是女方的两倍,但确实意味着男友在回避性生活方面比我们认为的更普遍。

谷歌数据也显示出经常拒绝发生性关系的原因,其中之一是过度焦虑,不过很多焦虑是搞错了对象。

先说一下男性焦虑的问题。男性担忧自己是不是足够优秀,并不是什么新鲜事了,但是,担忧到什么程度,影响很深刻。男性搜索性器官的问题,比搜索身体其它部分的问题都要多,比肺、肝、脚、耳、鼻、喉、头的搜索总和还多。较之如何给吉他调弦,如何做鸡蛋卷或者换胎,男性搜索更多的是如何让阴茎变大。关于类固醇,男性搜索最多的不是类固醇会不会危害健康,而是会不会使阴茎变小。随着年龄的增长,男性关系最多的问题不是身体或大脑的变化,而是阴茎是否会变小。

但是,女性在乎阴茎大小吗?谷歌搜索显示,女性几乎不在乎。男女搜索阴茎问题,比例约为 1:170。事实上,女性谈论伴侣的阴茎(通常是大小)的情况很少,而且通常不是抱怨太小。超过 40% 的女性抱怨伴侣阴茎尺寸过大。搜索「发生性关系是……」相关问题时,出现最多的词是「疼......」。在搜索如何改变阴茎大小的信息时,只有 1% 的男性是在搜索如何让阴茎变小。

男性第二大性问题是如何让性交时间更长。再一次,男女焦虑的对象不一致。询问如何让男友更快高潮的人,与如何让男友更慢高潮的人基本持平。事实上,女性普遍关注的并不是男友什么时候会达到性高潮,而是为什么根本没高潮。

谈及男人,我们一般不讨论身体形象。虽然对个人形象的整体兴趣多偏向于女性,但是,也不是完全像刻板印象那样。Google AdWords 可以观测网站访问量,根据我对 Google AdWords 的分析,42% 的男性对美貌和健身感兴趣,33% 的男性对减肥感兴趣,39% 的男性对整容感兴趣。在「如何」与胸相联系的问题上,2% 的男人询问了如何让男人的胸变小。

2、男同比例

美国男性中有多少同性恋?这是性学研究中经常会提到的问题。也是社会科学家最难以回答的问题之一。

Alfred Kinsey 曾对囚犯和妓女进行过大量抽样调查,结果显示 10% 的美国男性是的同性恋。调查结果曾经产生过很大的影响,不过,现在的心理学家不再相信这个数字。代表性的调查显示,大约 2%-3% 的美国男性是同性恋。不过,长久以来,性取向就是一个人们不爱坦诚以待的话题。

现在,利用大数据可以得到更好的答案。

首先,调查数据更庞大。调查显示,相对于对同性恋不够宽容的州,对同性恋态度宽容的州也有更多的同性恋。例如,罗德兰岛是最支持同性婚姻的州,密西西比是最不支持同性婚姻的州,据 Gallup 的调查,罗德兰岛的男同性恋人数比密西西比多了近两倍。

两个可能的解释是,其一,出生在对同性恋不够宽容的州的同性恋者,会移居到态度宽容的州。其二,生活在态度不够宽容的州中的同性恋,不公开自己的同性恋身份。关于同性恋的流动性,我们从另外一个大数据源 Facebook 上收集到了一些信息。Facebook 允许用户列出他们感兴趣的性别。大约 2.5% 的男性用户选择的是男性;与上述调查基本相符。

Facebook 同样显示,对待同性恋态度不同的州,其同性恋人口数量也存在巨大差异。根据 Facebook 上的信息,罗德兰岛的同性恋人数是密西西比的两倍还多。Facebook 也提供了人们流动的信息。我可以对公开同性恋身份的样本用户的家乡进行编码,直接评估不同州之间的同性恋人口流行。确实发现了一些情况——从奥克拉荷马到旧金山的流动很明显。不过,从一个州迁移到另一个思想更加开明的州,这一事实仅能解释不到一半的公开同性恋人口数量差异。

如果流动性无法很好地解释为什么某些州出柜的同性恋人数更多,那么,不出柜一定扮演着重要角色。让我们再次回到谷歌、

在乡村,使用谷歌搜索和谷歌 AdWords 搜索色情片的男性中,大约 5% 的男性搜索了男同色情片。态度宽容州,存在更多男同色情片搜索。根据我的估算,在密西西比,搜索色情片的男性中,约 4.8% 的搜索了男同色情片,数字远高于上述调查或 Facebook 提供的信息,接近罗德兰岛 5.2% 的男同色情片搜索量。

多少美国男性是同性恋呢?搜索男性色情片中,大约 5% 搜索了同性片,这可能是对美国男同性恋真实数字的合理估计,当然只是估计数字。因为一些男性是双性取向;一些男性在年轻的时候并不确定自己的性取向。当然,这个估计无法像统计投票人数那样精确。但是,有一个问题确定无疑,在美国,尤其在一些态度不够宽容的州,相当一部分男性没有公开性取向。他们没有在 Facebook 公开性取向,也不会在调查中承认。很多时候,他们会和女性结婚。

结果,妻子经常怀疑丈夫是同性恋。为了验证怀疑,他们会在网上搜索「我丈夫是同性恋吗?」在「我丈夫……」的搜索显示,排在第一位的就是「同性恋」,比排名第二的搜索词「欺骗」多出了十个百分点。出现的频率是「酗酒」的八倍,「抑郁」的十倍。

更加明显的是,在态度最不宽容的州,质疑丈夫的性取向的搜索更加普遍,比例最高的是南加州和路易斯安那。事实上,在 25 个最经常搜索这个问题的州中,有 21 个州对同性恋婚姻的支持率低于全国平均水平。

仇恨与偏见

性和浪漫并不是唯一羞于启齿的话题,也不是唯一一个人们不愿公开谈论的话题。

许多人出于好意选择隐藏自己的偏见。今天,许多人认为,如果自己对别人的种族、性取向、宗教进行评价,别人也会这么对待自己。这是一种进步。但是,许多美国人仍在这样评价他人。在谷歌上,一些用户仍然会问「黑人为什么粗鲁?」或「犹太人为什么邪恶?」之类的问题。

有一些很典型的刻板印象。比如,非裔美国人是唯一一个被描述为「粗鲁」的群体。几乎每个群体都是这些「愚蠢」刻板印象的受害者;但是,犹太人和穆斯林除外。人们会将「邪恶」的刻板印象加诸于犹太人、穆斯林、同性恋,而不是黑人、墨西哥人、亚洲人以及基督徒。穆斯林是唯一一个被看作恐怖分子的群体。当一个位穆斯林美国人正好落入这个刻板印象时,人们会立刻有所反应,而且反应还特别恶毒。谷歌搜索能让我们时刻洞悉人们仇恨情绪的爆发。

让我们回顾一下加州 San Bernardino 枪击事件发生后不久所发生的一切。

2015 年 12 月 2 日早上,Rizwan Farook 和 Tashfeen Malik 进入会议室,当时大家正在开会。Farook 的同伙用半自动手枪和半自动步枪,杀死 14 人。晚上,当媒体报道其中一名凶手的名字(听起来很像穆斯林人的名字)时,一大批愤怒的加州人立刻决定要解决掉穆斯林:杀死他们。当时加州的谷歌搜索「穆斯林」中,排名最靠前的就是「杀死穆斯林」。全美范围内,美国人搜索「杀死穆斯林」的频次,与搜索「马提尼配方」和「偏头痛症状」的频次几乎等同。

San Bernardino 发生袭击后的几天,每位美国人都在关心「伊斯兰恐惧症(Islamophobia)」,另一个就是搜索「杀死伊斯兰」。袭击前,尽管在所有有关伊斯兰的搜索中,出自恨意的搜索大约占 20%,但是,袭击发生后的几个小时内,一半以上的有关穆斯林的搜索都怀有深深恶意。我们可以看到,平息人们的怒气是多么困难。

袭击发生后的第四天,奥巴马在黄金时间段向全国发表了公开演讲。他想重塑美国人的信心,政府不仅有能力阻止恐怖主义,更重要的是,还可以平息危险的伊斯兰恐惧症。奥巴马呼吁人性善的一面,宣扬着包容与宽容的重要性。演说感情充沛,感人至深。《洛杉矶时报》盛赞奥巴马「决不允许恐惧影响我们的评判」。《纽约时报》称,这次演讲「坚定」而「沉着」。ThinkProgress 将这个演讲成为「实现良好治理的必要手段,拯救了穆斯林裔美国人」。换句话说,奥巴马的演讲广受好评。

真是这样吗?谷歌搜索数据显示并非如此。

后来,在普林斯顿,我和 Evan Soltas 一起观察了这个数据。演讲中,奥巴马说:「每一位美国人,每一种信仰都有责任反对歧视。」但是,在演讲中和演讲结束后不久,将穆斯林成为「恐怖分子」、「坏人」、「暴力」、「邪恶」的搜索成倍增长。奥巴马还说:「接纳其他国家的人来到我们国家,拒绝宗教审查是我们每个人的责任。」但是,有关叙利亚难民的负面搜索上升了 60%,与此同时,如何帮助叙利亚难民的搜索下降了 35%。奥巴马向美国人呼吁「不要忘记,自由比恐惧更加有力量」。但是,「杀死穆斯林」的搜索在演讲过程中增长了三倍。实际上,我们可以认为,奥巴马演讲期间以及之后,我们可以想到的每一条用于测试的、与穆斯林有关的负面搜索,都在激增,积极搜索都在下降。

换言之,奥巴马所说似乎一切正确。但是,网络的新数据(「数字真相血清」)显示,演讲实际上与主要目标发生了背离。演说不仅没有像说过的那样平息人群的怒火,实际上助长了这一愤怒。有时,需要借助互联网数据纠正自己的直觉,才不至于自满。

那么,奥巴马应该如何做才能平息美国出现的这种特殊仇恨?我们稍后在谈。我们首先看一下美国根深蒂固的偏见,这种形式的仇恨远比其它的问题更加突出,也最具破坏力,也是这本书的主要研究话题。在我对谷歌搜索数据的研究中,我发现,与仇恨相关字眼中,最突出的就是「黑鬼」(nigger)。

每年,美国有 700 万人会搜索这个词。搜索「黑鬼笑话」是搜索「kike 笑话」、「gook 笑话」、「spic 笑话」、「chink 笑话」、「fag 笑话」的总和的 17 倍。(「kike」,「gook」,「spic」,「chink」、「fag」分别是对「犹太人」、「东南亚人」、「说西班牙语的人」、「中国人」和「同性恋」的蔑称) 什么时候搜索这个词搜索的最多呢?非裔美国人出现在新闻里的时候。2005 年,飓风 Katrina 登陆时,电视和报纸报告了新奥尔良的黑人求生场景,当时这类搜索达到了最高值。奥巴马第一轮竞选期间,这类搜索也曾出现大幅增加。在马丁·路德·金日(Martin Luther King Jr Day),对黑鬼搜索平均增加了 30%。

这种令人惊恐,但又无处不在的种族诋毁,让我们对种族主义的理解陷入了迷茫。在美国,任何种族主义理论都不得不试图解释这一巨大困惑。一方面,大量黑裔美国人认为他们遭受了歧视,在警察叫停、工作面试、司法判决方面,大量证据表明他们受到了歧视。另一方面,几乎没有美国白人承认自己是种族主义者。政治科学家所持的主流解释认为,很大程度上归因于广泛存在的内隐偏见。按照该理论,美国白人或无恶意,但潜意识里的偏见会影响对待黑人的方式。

有学者发明了一种测试偏见的巧妙方法,亦即内隐关联测验(implicit association test)。该测试让人们瞬间将黑人面孔和一些词汇联系很来。结果一致显示,人们几乎是不假思索地将黑人面部与诸如「坏(awful)」的负面词汇联系起来,多花一点时间才会将之与诸如「好」的词汇联系起来。如果是白人面孔,结论则相反。其中所需的额外时间,证明了某些人存在内隐偏见,甚至当事人都没有意识到偏见的存在。

一个可能的解释是:隐藏起来的明显的种族主义(hidden explicit racism)。这一解释认为,存在一种相当广泛的有意识的种族主义,一些人深感受到歧视,而歧视方对此并不承认(在调查中,当然更不愿承认)。这也正是搜索数据似乎要说明的。搜索「黑鬼笑话」并没有任何隐含的意义。很难想象,美国人搜索「黑鬼」的频次与「偏头痛」和「经济学家」搜索频次相同,没有任何明显种族主义情绪,却对黑裔美国人造成了如此大的影响。

使用谷歌数据之前,如何评估这种仇恨,并没有一个令人信服结果。现在可以做到。我们可以用这个评估来解释一些事情。比如,为什么 2008 年和 2012 年,奥巴马在某些地区的得票数很低。最近一个经济学家团队报告称,黑人、白人工资存在差异,也可以用这个数据进行解释。我发现,搜索含有种族歧视言论最多的地区,黑人收入也偏低。

川普的竞选中,也存在这种现象。当时,预测大神 Nate Silver 寻找与支持 2016 年共和党(主要支持川普)最相关的地理变量时,他在我做的一副有关种族主义的地图中找到了答案。为了鼓励更多人对这个领域进行研究,我将猜想陈述如下,以期不同领域学者的检验。接受测试的人下意识的将负面词汇和黑人联系起来,并非存在歧视的主要证据;真正的证据在于:数百万白人一直在进行着诸如「黑鬼笑话」之类的搜索。

女孩问题

对其他群体来说,下意识的偏见可能产生更加深刻的影响。我用谷歌搜索发现了一些证据,年轻女性可能遭受内隐的偏见.。你会问,谁会对女孩有偏见?女孩儿们的父母。

初为父母,幸福激动地认为自己的孩子聪慧无比,也是人之常情。实际上,所有以「我两岁的孩子」开始的谷歌搜索中,接下来最常见的单词就是「聪明(gifted)」。但是,男孩还是女孩,也会影响这个问题的出现频率。搜索「我儿子聪明吗?」的频率是搜索「我女儿聪明吗?」的近 2.5 倍。与智商有关的其它词汇的使用,比如「我儿子是天才吗?」,也显示出类似的偏差,尽管父母或许羞于大声谈论这些。

差异对待合理吗?男孩子比女孩子更容易说大话(big words),还是更容易表现出客观的天赋迹象?当然不是,真相可能正相反。幼年时期,女孩的词汇量更大一些,使用的句型也更复杂。在美国学校,女孩子更有机会(9%)进入天才儿童项目。不过,父母仍觉得男孩比女孩更聪明。尽管如此,研究显示父母寻找的是更具天赋的男孩。实际上,我研究的每一条与智力有关的搜索条款中,父母更多的是询问儿子,而不是女儿。另外,搜索「儿子不如别人?」或「笨」的频次,也更多一些。但是,搜索负面词汇,诸如「落后」、「笨」,并没有特别指向儿子,而带有肯定词汇的搜索,如「聪明」、「天才」,很明显倾向儿子。

在哪些方面,父母更偏向于搜索女儿?

首先,任何和外貌相关的搜索。比如,体重问题。「女儿偏胖吗?」的搜索次数,是「儿子偏胖吗?」的两倍。如何让女儿减肥的询问,是如何让儿子减肥的两倍。但在实际生活中,这种性别偏见同样站不足脚。大约 28% 的女孩偏胖,而 35% 的男孩偏胖。尽管偏胖的男孩比女孩多,但是,父母关注或担心更多的还是女孩过胖。此外,父母更容易询问(1.5 倍)女儿是否漂亮、

奉行自由主义的读者或许认为,这种偏见更常见于传统保守的地方。但是,我没有找到任何支持这一「想当然」的证据。实际上,我没有发现:这些偏见与政治或文化组成存在显著相关性。不利于女孩的偏见,其范围之广、其根之深,超出我们的想象。