《數據、謊言與真相》Google資料分析師用大數據揭露人們的真面目

數據謊言與真相

別讓直覺扯你後腿


小時候,我只有一個夢想:我希望長大後成為經濟學家和數據科學家。沒有啦,我開玩笑的。小時候我很想成為職籃球員,效法我的英雄─紐約尼克隊明星中鋒派崔克.尤英(Patrick Ewing)。註1

註1 有關尤英的影片,我最喜愛這幾部:2015年9月18日上傳YouTube的影片“Patrick Ewing’s Top 10 Career Plays”,網址為https://www.youtube.com/watch?v=Y29gMuYymv8,以及2006年5月12日上傳YouTube的影片“Patrick Ewing Knicks Tribute”,網址為https://www.youtube.com/watch?v=8T2l5Emzu-I。

有時我懷疑每一位數據科學家的內心都像小孩一般,設法弄清楚為什麼自己童年的夢想沒有成真。難怪最近我會調查要在美國職籃(後稱NBA)闖出名號,需要具備什麼條件。調查結果令人驚訝。事實上,調查結果再次證明,有效的數據科學可能如何改變你對世界的看法,以及這些數字可能多麼違反直覺。

我特別關注的問題是:在貧窮家庭長大,還是在中產階級家庭長大,讓你更有可能在NBA成名?

大多數人會猜前者。一般人都認為,在貧困環境下長大,也許由十幾歲未婚媽媽辛苦扶養的環境,有助於培養在這種競爭激烈運動比賽中達到頂尖水準所需的驅動力。

費城高中籃球教練威廉. 艾勒比(William Ellerbee)在接受《運動畫刊》(Sports Illustrated)採訪時表示:「郊區小孩打球往往只是為了好玩,但都市貧民區的小孩卻把籃球當成生死攸關的大事。」註2唉,我是在紐澤西州郊區由雙親扶養長大,而我這個世代最優秀的球員雷霸龍.詹姆斯(LeBron James),是在俄亥俄州阿克倫由一名十六歲貧窮的單親媽媽扶養長大。

註2 S. L. Price, “Whatever Happened to the White Athlete?” Sports Illustrated, December 8, 1997.

事實上,我進行的一項網路調查註3顯示,大多數美國人的看法跟艾勒比教練和我一樣:NBA球員大多在貧困環境下長大。

註3 這是我在2013年10月22日進行的一次Google消費者調查。我問道:「你猜NBA球員大多出生在什麼地區?」受訪者可從這兩個選項作答:「貧窮地區」或「中產階級地區」。有59.7%的受訪者選擇「貧窮地區」。

這種普遍看法正確嗎?

我們來看看數據怎麼說。目前並沒有關於NBA球員社經背景的綜合數據來源,但是藉由數據檢測,利用來自許多來源的數據,例如basketball-reference.com、ancestry.com等網站和美國人口普查及其他數據,我們可以弄清楚哪些家庭背景最有利於NBA球員的養成。你會發現這項研究使用各種數據來源,其中有些數據來源較大、有些數據較小,有些是網路數據、有些是離線數據。跟一些新的數據來源同樣令人振奮的是,只要傳統來源的數據有幫助,優秀數據科學家不會將其摒除在外。取得問題正確答案的最佳方式是,結合所有可用的數據。

第一個相關數據是每個球員的出生地。針對美國的每個郡,我記錄在一九八○年代出生的黑人人數和白人人數。然後,我記錄他們當中有多少人成為NBA球員。我把這個數據跟各郡家庭平均所得進行比較。我還控制一個郡的種族人口統計數據,因為黑人成為NBA球員的可能性大約是白人的四十倍,光是這個主題就足以寫一本書好好研究。

數據告訴我們,出生在富裕郡的男孩,更有機會成為NBA球員。舉例來說,跟在最貧窮郡出生的黑人小孩相比,在美國最富裕郡出生的黑人小孩成為NBA球員的可能性是前者的兩倍之多。對白人小孩來說,最富裕郡出生的白人小孩成為NBA球員的可能性,則比最貧窮郡白人小孩的可能性高出六○%。

這表示事實跟普遍的想法正好相反,出身貧困的NBA球員並沒有我們想的那麼多。然而這個數據並不完美,因為美國許多富裕郡,如紐約郡(曼哈頓),也包括哈林區等貧困地區,所以,童年貧困還是有可能激勵小孩成為NBA球員。我們還需要更多線索和更多數據來佐證。

所以我調查NBA球員的家庭背景。這項資訊是在新聞報導和社群網路中找到的。這種方法相當耗時,所以我把這項分析限制在一九八○年代出生、得分最多的一百位非裔美籍NBA球員上。跟美國一般黑人相比,NBA超級明星球員由青少年媽媽或未婚媽媽所生的可能性少了三○%。換句話說,NBA最優秀黑人球員的家庭背景也顯示,寬裕的家庭背景是實現成功的一大優勢。

然而,不管是郡出生數據和有限球員樣本的家庭背景,都沒有提供所有NBA球員童年的完美資訊。所以我還不完全相信中產階級的雙親家庭會比貧困單親家庭,養育出更多NBA球星。針對這個問題我們能蒐集到愈多數據愈好。

然後我想起另一個數據點可以提供球員背景的線索。羅蘭.弗萊爾(Roland Fryer)和史蒂芬.李維特(Steven Levitt)這兩名經濟學家在一篇論文中提到,黑人的名字是個人社經背景的一項指標。註4弗萊爾和李維特研究一九八○年代加州的出生證明發現,在非裔美國人中,貧窮未受過教育的單身媽媽往往會給自己小孩取很特別的名字,跟中產階級受過教育的已婚雙親會為小孩取的名字不同。

註4 Roland G. Fryer Jr. and Steven D. Levitt, “The Causes and Consequences of Distinctively Black Names,” Quarterly Journal of Economics 119, no. 3 (2004).

來自富裕背景的小孩更有可能取菜市場名,譬如:凱文、克里斯和約翰。貧困家庭出生的小孩,名字可能較為獨特,譬如: Knowshon、Uneek和Breionshay。出生貧困的黑人小孩,他們名字和同年出生的其他小孩大為不同的機率將近有兩倍之多。

那麼,NBA黑人球員的名字又是什麼狀況呢?他們的名字聽起來更像中產階級出身,還是窮困家庭出身?檢視同一時期加州出生的NBA球員,他們取獨特名字的可能性是一般黑人男性的一半,這是統計數字顯示的一項顯著差異。

你認識的人當中,是否有人認為NBA是出身貧民區者的聯盟?那你可要告訴此人,只要仔細聽聽下一場比賽的轉播,注意羅素有多少次運球超越德懷特,然後試圖將球從賈許伸出的手臂中滑入凱文正等著接球的手裡。註5如果NBA真的是一個充滿貧窮黑人的聯盟,那麼賽事轉播聽起來會很不一樣,會有更多球員的名字像雷霸龍。

註5 譯注:以上皆為較常見的名字。

現在,我們蒐集了三種不同證據,包括出生郡、得分最高球員母親的婚姻狀況以及球員的名字。沒有一項數據來源是完美的,但三者都支持同樣的說法。更好的社經地位表示更有可能成為NBA球員。換句話說,普遍的看法是錯誤的。

一九八○年代出生的所有非裔美國人中,註6約有六○%者的爸媽是未婚的。但是據我估計,在那個年代出生、後來成為NBA球員的非裔美國人中,絕大多數來自雙親家庭。換句話說,NBA不是主要由雷霸龍這類背景的男性組成。有更多的男性像克里斯.波希(Chris Bosh)這樣,在德州由雙親扶養長大,培養出喜歡電子玩具的興趣。或像克里斯.保羅(Chris Paul)14是北卡羅來納州路易斯維爾中產階級雙親家庭的第二個兒子,他的家人跟他一起在二○一一年上了一集益智節目《家庭大對抗》(Family Feud)。

註6 Centers for Disease Control and Prevention, “Health, United States, 2009,” Table 9, Nonmarital Childbearing, by Detailed Race and Hispanic Origin of Mother, and Maternal Age: United States, Selected Years 1970–2006.
數據謊言與真相
數據謊言與真相

本文摘錄自‎

數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

賽斯.史蒂芬斯—大衛德維茲(Seth Stephens-Davidowitz)

由 商周出版 提供