川普勝選讓你跌破眼鏡?那是你沒看懂數據


川普勝選讓你跌破眼鏡?那是你沒看懂數據

——歐巴馬勝選代表種族歧視已經好轉?看看「黑鬼」的搜尋次數好嗎?

人們說,他必輸無疑。

二○一六年共和黨初選時,投票專家們斷定川普沒有機會勝出。畢竟,川普把許多少數族群都得罪了。民意調查和民調專家告訴我們,很少美國人認同這種侮辱。

當時大多數投票專家都認為,川普會在美國總統大選中落敗。有太多選民說,川普的態度和觀點冒犯了他們。

但其實網路上有一些線索顯示,川普可能會贏得初選和大選。

我是網路數據專家,每天都要追蹤人們在網路上留下的數位足跡。從人們點擊或點按的按鈕或按鍵,我試圖了解我們真正想要什麼、我們真正會做什麼,以及我們的真面目。我先說明一下,我是如何步上這條非比尋常之路。

故事要從二○○八年總統大選和社會科學長久爭議不休的這個問題開始說起:在美國,種族歧視有多麼嚴重?現在回想起來,這一切似乎是很久以前的事了。

巴拉克.歐巴馬(Barack Obama)是第一位獲得美國主要政黨提名的非裔美籍總統候選人。他輕而易舉地贏得大選,民意調查顯示,種族不是美國人在投票時會考慮的因素。比方說,蓋洛普(Gallup)在歐巴馬第一次選舉前後進行多次民調,民調結果如何呢?基本上,美國選民並不在乎歐巴馬是黑人。選後不久,加州大學柏克萊分校(University of California, Berkeley)兩位知名教授利用更複雜的數據探勘技術,鑽研其他以調查為主的數據,他們得出類似的結論。

所以在歐巴馬執政期間,媒體和學界大多抱持這種看法。媒體和社會科學家八十多年來用於理解世界的民調資料告訴我們,絕大多數的美國人在決定該選誰當總統時,並不在意歐巴馬是黑人。

這個長期被奴隸制和「吉姆.克勞法」(Jim Crow laws)玷汙的國家,似乎終於停止以膚色論人的惡習。這似乎表明種族主義在美國已經奄奄一息,事實上,一些專家甚至表示我們生活在一個後種族的社會。

二○一二年時,我還在念經濟學研究所,被自己的研究領域搞得精疲力盡,對人生感到十分迷惘。我自信,甚至自大地以為自己相當了解世界如何運作,也明白二十一世紀的人們在思考和關心什麼。在講到偏見這個問題時,基於我在心理學和政治學所讀過的一切,我讓自己相信明確的種族主義只侷限於一小部分的美國人,而這群人大多是保守的共和黨人,多半居住在美國最南端那幾州。

然後,我發現Google搜尋趨勢(Google Trends)。

Google在二○○九年推出這項工具時,並沒有引起太多關注。這項工具告訴使用者任何字詞或短語在不同地點和不同時間被搜尋的頻率。Google將它宣傳為一項有趣的工具——或許讓朋友之間可以討論哪位名人最受歡迎或哪種時尚突然變夯。Google搜尋趨勢剛推出的版本還包括一個戲謔的警告說到,人們「可不會想用這些數據幫你完成博士論文」。這句話馬上激勵我利用這項工具撰寫我的博士論文。

當時Google搜尋趨勢似乎並非「嚴謹」學術研究的適當資料來源。不像一般調查,Google搜尋數據的設計宗旨並非是要協助我們了解人類的內心世界。Google的發明讓人們可以了解世界,而不是讓研究者可以了解人們。但是,我們在網路上尋求知識時留下的足跡,最後反而揭發驚人的真相。

換句話說,人們搜尋資訊,這種行為本身就是資訊。事實證明人們何時何地搜尋事實、引言、笑話、地點、人物、事情或協助,比任何人可能做的猜測,更能告訴我們許多資訊。透過這些資訊,我們了解人們真正在想什麼、真正渴望什麼、真正恐懼什麼和真正做了什麼。由於人們有時不僅僅是在Google上進行搜尋,而是在搜尋欄中吐露真心,譬如:「我討厭我的老闆」、「我醉了」、「我爸爸打我」,所以網路足跡就更有真實性可言。

人們每天在長方形空白搜尋欄中輸入一個字詞或一小段話,就留下一點點真相。當這些搜尋加乘幾百萬倍時,最後便會透露出意義深遠的事實。我在Google搜尋趨勢中輸入的第一個字詞是「上帝」(God)。我得知最常出現「上帝」的Google搜尋,是在阿拉巴馬州、密西西比州和阿肯色州,也就是所謂的聖經地帶(Bible Belt),而這些搜尋的高峰都出現在週日。這樣的結果並不令人意外,但讓人感興趣的是,搜尋數據可以揭示這種明確模式。我在Google搜尋趨勢中以「尼克隊」(Knicks)進行搜尋,結果紐約市最常出現尼克隊一詞的搜尋,這又是一個毫無疑問的事實。然後,我以我的名字做搜尋,Goolge搜尋趨勢顯示的結果是:「抱歉,你的搜尋資料不足,因此無法在此顯示。」我由此得知,Google搜尋趨勢只會在許多人進行相同搜尋時提供數據。

但是,Google搜尋的力量不在於可以告訴我們,上帝在美國最南方備受愛戴,尼克隊在紐約市很受歡迎,或是我在任何地方都不夠有名。任何調查都可以告訴你這些,然而Google數據的強大之處在於,人們會把自己可能不會告訴任何人的事情,告訴這個大型搜尋引擎。

以性方面(本書稍後會詳細研究的一個主題)的研究為例,問卷調查無法確切告訴我們有關人們性生活的真相。我分析社會概況調查(General Social Survey)的數據6(該調查被認為是說明美國人行為最具影響力也最有權威的資訊來源之一),根據這項調查,在涉及異性性行為時,女性表示自己每年平均進行五十五次性行為,其中使用保險套的次數只占一六%。加總起來,就是每年用掉約十一億個保險套,但異性戀男性則說每年使用十六億個保險套。照理說,這些數字必須一樣,那麼,究竟誰說了實話,是男人還是女人?

結果,男女雙方誰也沒說實話。據追蹤消費者行為的全球資訊暨評量公司尼爾森(Nielsen)表示,每年賣掉的保險套不到六億個。7所以大家都在說謊,唯一的區別是,數字多寡。事實上,這個謊言普遍存在。未婚男性聲稱,每年平均使用二十九個保險套,然而數字加總後,超過美國賣給已婚男性和未婚男性的保險套總數。已婚男性也可能誇大自己每年的性行為次數,平均來說,六十五歲以下的已婚男性在調查中表明,自己每週有一次性行為,只有一%的人說自己過去一年沒有性行為。已婚女性回答的性行為次數較男性少,但並沒有少太多。

Google搜尋的數據告訴我們,已婚人士的性生活並沒有那麼活躍,而且我認為Google搜尋數據比較準確。在Google上,人們對於婚姻的最多抱怨就是沒有性行為。「無性婚姻」的搜尋比「不幸婚姻」的搜尋多出三.五倍,比「無情婚姻」的搜尋多出八倍。即使是未婚伴侶也經常抱怨沒有性行為,Google搜尋「無性關係」僅次於搜尋「虐待關係」(我要強調這些數據全是匿名提交,Google當然不會透露有關特定個人搜尋的任何數據)。

而且,Google搜尋呈現出的美國概況,跟調查所勾勒的後種族烏托邦截然不同。我記得當我第一次在Google搜尋趨勢上輸入「黑鬼」(nigger)時,我發現我真的太天真了。我想到這個字詞是如此充滿惡意,因此以為自己會看到的搜尋次數並不多。天啊,我錯了。在美國,人們對於「黑鬼」(nigger,複數niggers)的搜尋次數,竟然跟「偏頭痛」、「經濟學家」和「湖人隊」的搜尋次數不相上下。我納悶著,搜尋饒舌歌詞是否導致這項結果受到曲解?沒有,因為饒舌歌曲中提的黑鬼,幾乎總是以「nigga(s)」一詞表示。那麼,美國人搜尋「黑鬼」的動機是什麼呢?通常,他們是在搜尋嘲笑非裔美國人的笑話。事實上,帶有「黑鬼」一詞的搜尋中,有二○%的比例也包括「笑話」一詞,其他常見的搜尋還包括「愚蠢的黑鬼」和「我痛恨黑鬼」。

每年這類搜尋多達數百萬次,大多數美國人在自己家中私密地進行駭人聽聞的種族主義探索。我愈深入研究,得到的資訊就愈令人不安。

在歐巴馬第一次總統大選勝選之夜,大多數評論都專注於讚美歐巴馬和承認歐巴馬此次選舉的歷史意義。這時,包含「歐巴馬」一詞的Google搜尋,每一百則裡就有一則也包括「kkk」或「黑鬼」等字眼。也許這個比例聽起來不是很高,但想想看,人們有成千上萬的非種族主義理由,在Google上對這個有迷人家庭、大爆冷門勝選、即將接管世上最有權勢職務的年輕人進行搜尋。在選舉之夜,人們對於「風暴前線」(Stormfront)這個在美國很受歡迎的白人民族主義網站的搜尋次數和註冊人數,比平常高出十倍以上。在某些州,「黑鬼總統」的搜尋次數超過「首位黑人總統」的搜尋次數。9

由此可知,這股邪惡與敵意暗暗隱藏在傳統資訊來源裡,但在人們進行的搜尋中,這股邪惡與敵意卻相當明顯。

那些搜尋顯示出的社會現況,跟認為種族主義只占一小部分的社會,有著極大的出入。在二○一二年時,我聽說過唐納德.川普這號人物,主要因為他是商人和實境節目主持人,我跟大家一樣完全沒想到四年後他會成為舉足輕重的總統候選人。但是這些醜陋的搜尋倒也說明了,川普這位操弄選民劣根性,以憤怒和憎恨抨擊移民的候選人為何會勝選。 閱讀完整內容
數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

本文摘錄自‎

數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

賽斯.史蒂芬斯—大衛德維茲(Seth Stephens-Davidowitz)

由 商周出版 提供