?圖源:ELLEN PORTEUS
本次事件的核心可總結(jié)為以下幾點:
第一,F(xiàn)acebook和劍橋分析(Cambridge Analytica)所導(dǎo)致的這次事件,其真正靈感來源自Kosinski和Stillwell的研究,而始作俑者Kogan僅僅是一個抄襲者和操作者。
第二,F(xiàn)acebook并沒有被黑客入侵,也不存在數(shù)據(jù)”泄露“或”偷盜“一說,所有的數(shù)據(jù)都是用戶自己同意出讓的(隱私其實很廉價)。
第三,這個事件唯一違法的部分是Kogan把用研究名義取得的數(shù)據(jù)轉(zhuǎn)手給了劍橋分析,用作他途。
第四,根據(jù)現(xiàn)有信息,我們無法確定利用這五千萬大數(shù)據(jù)所構(gòu)建的模型是不是真正影響了美國大選和英國脫歐,作為因果推斷的證據(jù)不足。只要我們繼續(xù)在網(wǎng)絡(luò)上留下電子足跡,我們的隱私就會繼續(xù)被挖掘和用作他途,刪除Facebook賬號并不能解決今天的隱私危機(jī)。
撰文 | 沈粹華(加州大學(xué)戴維斯分校傳播系)責(zé)編 | 趙亞杰●●●Facebook和劍橋分析(Cambridge Analytica)數(shù)據(jù)泄露丑聞席卷了全球的社交媒體。在《衛(wèi)報》和《紐約時報》的報道上,居然看到了我的兩位合作者的名字:Michal Kosinski和David Stillwell, 可以說是相當(dāng)魔幻了。這兩位學(xué)者都是心理學(xué)家。Kosinski現(xiàn)在在斯坦福商學(xué)院教書,Stillwell在劍橋商學(xué)院教書。雖然他們沒有直接參與這次Facebook數(shù)據(jù)泄露事件,但稱他們?yōu)槭甲髻刚?,?yīng)不為過。
1
事情要從2007年說起。當(dāng)時還在英國諾丁漢大學(xué)念心理學(xué)本科的David Stillwell平時愛寫一些小程序。畢業(yè)前,他在Facebook上發(fā)布了一個專門用作性格測試的第三方小程序:myPersonality。和大部分不怎么靠譜的心理測試不同,這個小程序上的測試題是基于經(jīng)典的心理學(xué)量表,比如大五人格量表(開放性,外向性,情緒不穩(wěn)定性,隨和性,盡責(zé)性)。參加測試是免費的,同時參與者還可以匿名捐獻(xiàn)自己在Facebook上的行為數(shù)據(jù)作為研究使用。這個小程序取得了巨大的成功,據(jù)Stillwell自己統(tǒng)計,有六百萬用戶使用過這款小程序。其中一小部分用戶同意捐出他們在Facebook上的行為數(shù)據(jù)供研究使用。用戶的心理性格測試數(shù)據(jù)與Facebook行為數(shù)據(jù)相疊加,就形成了包含有數(shù)十萬用戶的數(shù)據(jù)的myPersonality數(shù)據(jù)集。這個數(shù)據(jù)集目前還有很多學(xué)者在使用,包括筆者所在的實驗室(
http://www.mypersonality.org)。
2
就樣本量而言,myPersonality數(shù)據(jù)集遠(yuǎn)遠(yuǎn)小于這次Facebook和劍橋分析所造成的數(shù)據(jù)泄露的數(shù)量(據(jù)說有五千萬之多)。但對于社會科學(xué)研究者,這個數(shù)據(jù)集無疑是一個金礦。這是為什么呢?傳統(tǒng)的定量社會科學(xué)研究,收集數(shù)據(jù)的方法很有限,主要是實驗和問卷兩種。實驗很難規(guī)?;苓_(dá)到幾百人就相當(dāng)不容易了。問卷方法也許可以收集幾千人甚至上萬人的數(shù)據(jù),但是只能知道人們當(dāng)時是怎么說的/想的(態(tài)度),而不是怎么做的(行為)。 填過問卷的人都知道,怎么說和怎么做經(jīng)常是兩回事。但myPersonality數(shù)據(jù)集把性格量表和用戶的Facebook行為結(jié)合在了一起。而且樣本量之大,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)定量研究。(眾所周知,樣本量對社科的結(jié)論可信度有很大的影響,有興趣的讀者可以關(guān)注一下心理學(xué)界最近的實驗重復(fù)危機(jī)和關(guān)于p值的討論)
3
2008年,Michal Kosinski進(jìn)入了劍橋大學(xué),在心理測量中心攻讀碩士。他和Stillwell帶領(lǐng)了一個團(tuán)隊,用myPersonality這個金礦,在《美國國家科學(xué)院院刊》上發(fā)表了兩篇極有影響的文章。第一篇文章發(fā)表于2013年,題目是”Private traits and attributes are predictable from digital records of human behavior” (個人性格特質(zhì)可以用行為數(shù)據(jù)來預(yù)測)。 這篇論文的大意是,他們用用戶的Facebook行為數(shù)據(jù)(主要是Facebook上點贊)建立模型,來預(yù)測用戶的性格和其他特質(zhì)(比如性別,性取向,黨派),并且得到比較高的準(zhǔn)確率。比如,贊Hello Kitty的人較神經(jīng)質(zhì),更可能支持民主黨而非共和黨。第二篇文章發(fā)表于2015年,題目是“Computer-based personality judgments are more accurate than those made by humans”(基于電子足跡的算法模型比你親近的人更了解你)。這篇的大意是,運用他們之前建立的模型來預(yù)測你的性格,竟然比你好友的預(yù)測還準(zhǔn)確。
4
Kosinski和Stillwell的研究成果在當(dāng)時取得了轟動,有兩大原因。
第一,大家意識到海量行為數(shù)據(jù)建模能夠精準(zhǔn)地預(yù)測用戶性別、年齡、性取向、政治傾向、購買意愿……之前不管是營銷公司,廣告公司,還是公關(guān),民調(diào)機(jī)構(gòu),要了解用戶,只能辛辛苦苦做訪談,問卷,焦點小組。這些方法不但勞民傷財,準(zhǔn)確率也不夠高。電子足跡不但精準(zhǔn),而且俯拾皆是,只要是上網(wǎng),每個人都會有自己的電子足跡。這是也大數(shù)據(jù)結(jié)合人工智能的一次勝利。過去的幾十年(弱)人工智能已經(jīng)發(fā)展到了一定高度,但是算法再先進(jìn),也遵循GIGO(Garbage in, garbage out)原則:如果輸入(數(shù)據(jù))精度不夠,輸出(預(yù)測)也不會準(zhǔn)確。Kosinski和Stillwell所用的算法并不高深,但海量的電子足跡充分發(fā)揮了算法的優(yōu)勢,因此取得了精準(zhǔn)程度很高的用戶心理畫像。
第二,他們的研究啟發(fā)了很多人,原來科研還可以這么做,原來可以通過第三方app獲取Facebook的用戶數(shù)據(jù)。要知道Facebook的海量行為數(shù)據(jù)極少對外界開放。雖然在Facebook上可以精準(zhǔn)投放廣告給用戶,但是沒有靠譜的行為模型做支撐,廣告仿佛大炮打蒼蠅,對絕大部分的受眾都是打水漂。但是有了myPersonality這樣的先例,為大家提供了一個嶄新的思路,那就是通過第三方小程序以獲取Facebook的行為數(shù)據(jù)。
5
毫無意外,劍橋分析(Cambridge Analytica)找上了Kosinski和Stillwell。雖然叫劍橋,這家公司和劍橋大學(xué)沒有任何關(guān)系。值得一提的是,這家公司的背后金主是Robert Mercer,他為英國脫歐和特朗普2016年大選做出了貢獻(xiàn)。而Mercer的另一重身份是伊利諾伊大學(xué)計算機(jī)系博士,曾經(jīng)的研究課題就是人工智能。但劍橋分析并沒有買到Kosinski和Stillwell的數(shù)據(jù)。根據(jù)《衛(wèi)報》的報道,問題出在價格上。Kosinski和Stillwell要價50萬美金,最終導(dǎo)致談判流產(chǎn)。(這一點頗有爭議,因為劍橋分析在之后和Kogan的合作時付出了更高的價格,花了近一百萬美元。)
Kosinski和Stillwell的退出,給別人創(chuàng)造了機(jī)會。劍橋分析最后和同在劍橋大學(xué)心理系擔(dān)任的講師Aleksandr Kogan達(dá)成了協(xié)議(到底是怎么達(dá)成的協(xié)議,現(xiàn)在眾說紛紜。Kogan本人說是劍橋分析找上門來;而劍橋分析卻說是Kogan毛遂自薦)。在劍橋分析的資助下,Kogan直接抄襲了Kosinski和Stillwell的研究設(shè)計,也寫了一個專做心理測試Facebook第三方小程序:this is your digital life (據(jù)英國衛(wèi)報報道,Kosinski和Stillwell早在2014年就舉報Kogan侵犯了他們的知識產(chǎn)權(quán),而Kogan則認(rèn)為已發(fā)表的知識產(chǎn)權(quán)屬于公眾領(lǐng)域,誰都可以使用)。
在Mechaincal Turk和其他網(wǎng)絡(luò)平臺上,Kogan以五美元的酬金,吸引了27萬用戶答題并出讓自己的Facebook數(shù)據(jù)。五美元是什么概念呢?Mechanical Turk是亞馬遜旗下的兼職網(wǎng)站,上面有很多小任務(wù),完成一項任務(wù)會有一定的報酬,但是任務(wù)的價格都非常低廉,耗時十分鐘的任務(wù)的報酬在一角到一元美金不等。相較之下,五美元不亞于是一個天文數(shù)字。所以這樣一個小程序能夠吸引27萬人參加測試,也就不奇怪了。注意,所有的參加者都是心甘情愿地讓出他們的Facebook行為數(shù)據(jù)的。Facebook并沒有被黑客入侵,也沒有所謂的數(shù)據(jù)“泄露”或是“偷盜”。因為在當(dāng)時,F(xiàn)acebook小程序在用戶同意的情況下收集數(shù)據(jù)是完全合法的。
那么,所有的報道中都提到了五千萬用戶,又是從哪里來的呢?因為Kogan的程序不僅收集了用戶本人的數(shù)據(jù)(以五美元做交換),也收集了用戶的Facebook好友數(shù)據(jù)。一個用戶可能有幾百個好友,所以27萬個“種子”最后就變成了五千萬用戶。
這里有一個很有意思的問題,就是
數(shù)據(jù)的歸屬問題。張三有個朋友叫李四,這個信息是張三個人的信息,還是李四的信息?張三為了五塊錢出賣自己的數(shù)據(jù)(其中包括李四的姓名,性別,年齡等等),需不需要李四的同意?很多學(xué)者認(rèn)為,在社交媒體上,隱私不再是一個個人的決定,而已經(jīng)演變成一個網(wǎng)絡(luò)共同的決定。但在當(dāng)時,收集用戶好友的基本信息是合乎Facebook規(guī)定的。不僅僅Kogan的小程序這么干,其他數(shù)十萬個Facebook小程序都這么干。比如糖果傳奇(Candy Crush)這樣的小游戲,就靠好友的網(wǎng)絡(luò)效應(yīng)進(jìn)行病毒式傳播。一旦張三裝了糖果傳奇,游戲就可以通知李四:你的好友張三玩的很嗨,你要不要也試試?2015年,F(xiàn)acebook調(diào)整了隱私設(shè)置,用戶不再能夠輕易地和小程序“分享”自己的好友信息。這一改變還遭到許多Facebook 小程序開發(fā)者的詬病。
6
到了這里,整件事情都還是合理合法的。下一步則不然。
Kogan本人也是心理學(xué)家,他設(shè)計這個小程序時聲稱要研究社交媒體和心理健康。Facebook也是基于這個研究目的,才同意了他收集了五千萬用戶的數(shù)據(jù)。但
不久以后,Kogan就通過自己開的公司GSR,把這個龐大的數(shù)據(jù)集轉(zhuǎn)手給了劍橋分析,其用途已經(jīng)不屬于學(xué)術(shù)研究。這一轉(zhuǎn)手違背了Facebook的安全協(xié)議,也違背了小程序本身和用戶之間的協(xié)議,是整個事件違法的部分。但也有人說,這時的數(shù)據(jù)集屬于”二手?jǐn)?shù)據(jù)“(secondary data),在數(shù)據(jù)的監(jiān)管上屬于灰色區(qū)域。Kogan當(dāng)時和Facebook的用戶簽訂協(xié)議時,明確指出收集數(shù)據(jù)是供研究使用,并且他也的確做了研究,那么
數(shù)據(jù)完成了它的使命之后,是否應(yīng)該直接刪檔(這是Facebook對Kogan的要求)?
這時的數(shù)據(jù)到底歸誰所有?(歐美多數(shù)的大學(xué)和研究機(jī)構(gòu)在做人類相關(guān)研究時(human subjects),都會專門設(shè)立一個委員會(Institutional Review Board,IRB)來監(jiān)管類似的倫理問題。就筆者個人的經(jīng)驗,IRB對二手?jǐn)?shù)據(jù)一般都網(wǎng)開一面。至少在學(xué)術(shù)界,因為A而收集的數(shù)據(jù)后來用作B用途并不少見。很多數(shù)據(jù)集都是開放下載的,比如斯坦福的SNAP, Data verse等等。前文提到的myPersonality數(shù)據(jù)集,也對學(xué)術(shù)界全盤開放。)
之后的故事大家都知道了。
劍橋分析運用這個數(shù)據(jù)量超過五千萬的超大規(guī)模的用戶數(shù)據(jù)建立模型,其
目的就是找出符合某種特定心理畫像的選民(低開放心性,高情緒不穩(wěn)定性)。在美國“贏者通吃”的大選制度下,絕大部分的選票對選舉結(jié)果都沒有影響(比如說深紅州和深藍(lán)州的選票)。還有一部分選票,無法被廣告左右(比如民主黨或者共和黨的死忠粉)。能左右選舉結(jié)果,且可以被廣告影響的選票數(shù)量微乎其微。但是
一旦有了一個特定的心理畫像,劍橋分析就可以在茫茫人海中找出他們要的這一小部分選民,然后集中精力給這一小部分選民施加影響就可以了。他們買了大量Facebook廣告對這些人進(jìn)行狂轟濫炸,進(jìn)行所謂的“信息戰(zhàn)爭”(information warfare),以達(dá)到操縱大選的目的。
7
那么,這五千萬數(shù)據(jù)和模型,真的如劍橋分析所說,操縱了2016年美國大選,影響了英國脫歐嗎?對于這個問題,我們可能永遠(yuǎn)也不會知道答案。不管媒體如何渲染報道,科學(xué)上的因果推定有嚴(yán)格的標(biāo)準(zhǔn)。當(dāng)因變量X存在時,我們觀察到了結(jié)果Y,無法做出X導(dǎo)致Y的推斷。就像一個小朋友愛吃冰激淋,后來發(fā)現(xiàn)了蛀牙,很難說冰激淋直接導(dǎo)致了蛀牙(可能這個小朋友同時愛吃糖,不刷牙,或者其他原因?qū)е轮溃?。只有?dāng)我們能直接對照兩個一模一樣的平行宇宙,在一個宇宙里這個小朋友愛吃冰激淋,另一個宇宙里不吃,然后比較結(jié)果,才能得出最令人信服的因果推斷。
可惜,這樣的平行宇宙并不存在。所以,劍橋分析究竟有沒有影響大選結(jié)果,影響有多大,也只能永遠(yuǎn)存疑了,這就是整個證據(jù)鏈里最為薄弱的一環(huán)。就連Kogan本人,也對此不置可否。一位教授直接發(fā)信去問Kogan,劍橋分析所用的模型究竟有多精準(zhǔn)。Kogan的回答是,根據(jù)Facebook大數(shù)據(jù)建模預(yù)測出來的選民性格和選民的實際性格(根據(jù)心理學(xué)量表)僅有30%的相關(guān)性,而這個準(zhǔn)確率比之前Kosinski和Stillwell的模型所給出的準(zhǔn)確率還要低。
不管Kogan的回答是否可信,即使他的模型有效,能找出符合特定心理畫像的選民。但是用假信息廣告轟炸符合這個心理畫像(低開放性,高情緒不穩(wěn)定性)的選民究竟有沒有作用?是不是真的讓他們選擇了特朗普?永遠(yuǎn)都只是一個未知數(shù)。
8
事件發(fā)生以后,F(xiàn)acebook的股價大跌,市值蒸發(fā)超過700億美元。另有很多人發(fā)起了刪除Facebook賬號的行動。但是這一切現(xiàn)象都只是表面,并不需要當(dāng)真。因為刪除Facebook賬號并不會從根本上解決今天我們所面臨的隱私危機(jī),原因如下:
第一,F(xiàn)acebook有超過20億活躍賬號。也許Facebook已經(jīng)不是年輕一代最愛用的app了,但它依然是全球最為廣泛使用的社交媒體平臺,擁有全球最多最廣最全的行為數(shù)據(jù)集。
第二,刪除了Facebook,我們還有Google,Twitter,Snapchat,Netflix,微博,微信,淘寶,今日頭條等各種互聯(lián)網(wǎng)接入商……我們的數(shù)據(jù)不給Facebook,也會給別的網(wǎng)絡(luò)平臺。當(dāng)用戶數(shù)據(jù)變成所有平臺核心競爭力的今天,劍橋分析所導(dǎo)致的事件只不過是眾多類似事件中的冰山一角罷了。
筆者給學(xué)生上社交媒體課的時候,都要問一問大家:
怎樣操作才能保證自己的裸照不被泄露?正確答案是,不要拍裸照。
只可惜,這個答案在今天已經(jīng)不現(xiàn)實了。我們在互聯(lián)網(wǎng)上做任何事情都會留下電子足跡。買東西,叫外賣,看劇,打車,乘坐高鐵和飛機(jī),上各種社交平臺……當(dāng)一切都電子化,所有的信息都有電子存檔,我們的足跡也一覽無遺。大數(shù)據(jù)結(jié)合人工智能,可以根據(jù)這些海量足跡建模型,賣給我們東西,灌輸給我們思想,改變我們的行為,這一切早已發(fā)生,并不會因為一個劍橋分析的爆料就有任何改變。
從前意義上的“隱私”早已死去。如今我們尚能做的,也許就是更好管理自己的隱私,呼吁監(jiān)管,要求各平臺對數(shù)據(jù)的存儲,建模和買賣,更加透明。再大膽預(yù)測一下,也許某一天,“數(shù)據(jù)煙幕”公司會出現(xiàn),為客戶建虛假賬號,留下虛假電子足跡,也許這才是保護(hù)隱私的新方法。
制版編輯:黃玉瑩 |
本頁刊發(fā)內(nèi)容未經(jīng)書面許可禁止轉(zhuǎn)載及使用
公眾號、報刊等轉(zhuǎn)載請聯(lián)系授權(quán)
[email protected]知識分子為更好的智趣生活 ID:The-Intellectual