隱私已死：Facebook數(shù)據(jù)“泄露”事件解讀

?圖源：ELLEN PORTEUS

本次事件的核心可總結(jié)為以下幾點：

第一，F(xiàn)acebook和劍橋分析（Cambridge Analytica）所導(dǎo)致的這次事件，其真正靈感來源自Kosinski和Stillwell的研究，而始作俑者Kogan僅僅是一個抄襲者和操作者。

第二，F(xiàn)acebook并沒有被黑客入侵，也不存在數(shù)據(jù)”泄露“或”偷盜“一說，所有的數(shù)據(jù)都是用戶自己同意出讓的（隱私其實很廉價）。

第三，這個事件唯一違法的部分是Kogan把用研究名義取得的數(shù)據(jù)轉(zhuǎn)手給了劍橋分析，用作他途。

第四，根據(jù)現(xiàn)有信息，我們無法確定利用這五千萬大數(shù)據(jù)所構(gòu)建的模型是不是真正影響了美國大選和英國脫歐，作為因果推斷的證據(jù)不足。只要我們繼續(xù)在網(wǎng)絡(luò)上留下電子足跡，我們的隱私就會繼續(xù)被挖掘和用作他途，刪除Facebook賬號并不能解決今天的隱私危機(jī)。

撰文 | 沈粹華（加州大學(xué)戴維斯分校傳播系）

責(zé)編 | 趙亞杰

●●●

Facebook和劍橋分析（Cambridge Analytica）數(shù)據(jù)泄露丑聞席卷了全球的社交媒體。在《衛(wèi)報》和《紐約時報》的報道上，居然看到了我的兩位合作者的名字：Michal Kosinski和David Stillwell, 可以說是相當(dāng)魔幻了。這兩位學(xué)者都是心理學(xué)家。Kosinski現(xiàn)在在斯坦福商學(xué)院教書，Stillwell在劍橋商學(xué)院教書。雖然他們沒有直接參與這次Facebook數(shù)據(jù)泄露事件，但稱他們?yōu)槭甲髻刚?，?yīng)不為過。

1

事情要從2007年說起。當(dāng)時還在英國諾丁漢大學(xué)念心理學(xué)本科的David Stillwell平時愛寫一些小程序。畢業(yè)前，他在Facebook上發(fā)布了一個專門用作性格測試的第三方小程序：myPersonality。和大部分不怎么靠譜的心理測試不同，這個小程序上的測試題是基于經(jīng)典的心理學(xué)量表，比如大五人格量表（開放性，外向性，情緒不穩(wěn)定性，隨和性，盡責(zé)性）。參加測試是免費的，同時參與者還可以匿名捐獻(xiàn)自己在Facebook上的行為數(shù)據(jù)作為研究使用。這個小程序取得了巨大的成功，據(jù)Stillwell自己統(tǒng)計，有六百萬用戶使用過這款小程序。其中一小部分用戶同意捐出他們在Facebook上的行為數(shù)據(jù)供研究使用。用戶的心理性格測試數(shù)據(jù)與Facebook行為數(shù)據(jù)相疊加，就形成了包含有數(shù)十萬用戶的數(shù)據(jù)的myPersonality數(shù)據(jù)集。這個數(shù)據(jù)集目前還有很多學(xué)者在使用，包括筆者所在的實驗室（http://www.mypersonality.org）。

2

就樣本量而言，myPersonality數(shù)據(jù)集遠(yuǎn)遠(yuǎn)小于這次Facebook和劍橋分析所造成的數(shù)據(jù)泄露的數(shù)量（據(jù)說有五千萬之多）。但對于社會科學(xué)研究者，這個數(shù)據(jù)集無疑是一個金礦。這是為什么呢？傳統(tǒng)的定量社會科學(xué)研究，收集數(shù)據(jù)的方法很有限，主要是實驗和問卷兩種。實驗很難規(guī)?；苓_(dá)到幾百人就相當(dāng)不容易了。問卷方法也許可以收集幾千人甚至上萬人的數(shù)據(jù)，但是只能知道人們當(dāng)時是怎么說的/想的（態(tài)度），而不是怎么做的（行為）。填過問卷的人都知道，怎么說和怎么做經(jīng)常是兩回事。但myPersonality數(shù)據(jù)集把性格量表和用戶的Facebook行為結(jié)合在了一起。而且樣本量之大，遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)定量研究。（眾所周知，樣本量對社科的結(jié)論可信度有很大的影響，有興趣的讀者可以關(guān)注一下心理學(xué)界最近的實驗重復(fù)危機(jī)和關(guān)于p值的討論）

3

2008年，Michal Kosinski進(jìn)入了劍橋大學(xué)，在心理測量中心攻讀碩士。他和Stillwell帶領(lǐng)了一個團(tuán)隊，用myPersonality這個金礦，在《美國國家科學(xué)院院刊》上發(fā)表了兩篇極有影響的文章。第一篇文章發(fā)表于2013年，題目是”Private traits and attributes are predictable from digital records of human behavior” （個人性格特質(zhì)可以用行為數(shù)據(jù)來預(yù)測）。這篇論文的大意是，他們用用戶的Facebook行為數(shù)據(jù)（主要是Facebook上點贊）建立模型，來預(yù)測用戶的性格和其他特質(zhì)（比如性別，性取向，黨派），并且得到比較高的準(zhǔn)確率。比如，贊Hello Kitty的人較神經(jīng)質(zhì)，更可能支持民主黨而非共和黨。第二篇文章發(fā)表于2015年，題目是“Computer-based personality judgments are more accurate than those made by humans”（基于電子足跡的算法模型比你親近的人更了解你）。這篇的大意是，運用他們之前建立的模型來預(yù)測你的性格，竟然比你好友的預(yù)測還準(zhǔn)確。

4

Kosinski和Stillwell的研究成果在當(dāng)時取得了轟動，有兩大原因。

第一，大家意識到海量行為數(shù)據(jù)建模能夠精準(zhǔn)地預(yù)測用戶性別、年齡、性取向、政治傾向、購買意愿……之前不管是營銷公司，廣告公司，還是公關(guān)，民調(diào)機(jī)構(gòu)，要了解用戶，只能辛辛苦苦做訪談，問卷，焦點小組。這些方法不但勞民傷財，準(zhǔn)確率也不夠高。電子足跡不但精準(zhǔn)，而且俯拾皆是，只要是上網(wǎng)，每個人都會有自己的電子足跡。這是也大數(shù)據(jù)結(jié)合人工智能的一次勝利。過去的幾十年（弱）人工智能已經(jīng)發(fā)展到了一定高度，但是算法再先進(jìn)，也遵循GIGO（Garbage in, garbage out）原則：如果輸入（數(shù)據(jù)）精度不夠，輸出（預(yù)測）也不會準(zhǔn)確。Kosinski和Stillwell所用的算法并不高深，但海量的電子足跡充分發(fā)揮了算法的優(yōu)勢，因此取得了精準(zhǔn)程度很高的用戶心理畫像。

第二，他們的研究啟發(fā)了很多人，原來科研還可以這么做，原來可以通過第三方app獲取Facebook的用戶數(shù)據(jù)。要知道Facebook的海量行為數(shù)據(jù)極少對外界開放。雖然在Facebook上可以精準(zhǔn)投放廣告給用戶，但是沒有靠譜的行為模型做支撐，廣告仿佛大炮打蒼蠅，對絕大部分的受眾都是打水漂。但是有了myPersonality這樣的先例，為大家提供了一個嶄新的思路，那就是通過第三方小程序以獲取Facebook的行為數(shù)據(jù)。

5

毫無意外，劍橋分析（Cambridge Analytica）找上了Kosinski和Stillwell。雖然叫劍橋，這家公司和劍橋大學(xué)沒有任何關(guān)系。值得一提的是，這家公司的背后金主是Robert Mercer，他為英國脫歐和特朗普2016年大選做出了貢獻(xiàn)。而Mercer的另一重身份是伊利諾伊大學(xué)計算機(jī)系博士，曾經(jīng)的研究課題就是人工智能。但劍橋分析并沒有買到Kosinski和Stillwell的數(shù)據(jù)。根據(jù)《衛(wèi)報》的報道，問題出在價格上。Kosinski和Stillwell要價50萬美金，最終導(dǎo)致談判流產(chǎn)。（這一點頗有爭議，因為劍橋分析在之后和Kogan的合作時付出了更高的價格，花了近一百萬美元。）

Kosinski和Stillwell的退出，給別人創(chuàng)造了機(jī)會。劍橋分析最后和同在劍橋大學(xué)心理系擔(dān)任的講師Aleksandr Kogan達(dá)成了協(xié)議（到底是怎么達(dá)成的協(xié)議，現(xiàn)在眾說紛紜。Kogan本人說是劍橋分析找上門來；而劍橋分析卻說是Kogan毛遂自薦）。在劍橋分析的資助下，Kogan直接抄襲了Kosinski和Stillwell的研究設(shè)計，也寫了一個專做心理測試Facebook第三方小程序：this is your digital life （據(jù)英國衛(wèi)報報道，Kosinski和Stillwell早在2014年就舉報Kogan侵犯了他們的知識產(chǎn)權(quán)，而Kogan則認(rèn)為已發(fā)表的知識產(chǎn)權(quán)屬于公眾領(lǐng)域，誰都可以使用）。

在Mechaincal Turk和其他網(wǎng)絡(luò)平臺上，Kogan以五美元的酬金，吸引了27萬用戶答題并出讓自己的Facebook數(shù)據(jù)。五美元是什么概念呢？Mechanical Turk是亞馬遜旗下的兼職網(wǎng)站，上面有很多小任務(wù)，完成一項任務(wù)會有一定的報酬，但是任務(wù)的價格都非常低廉，耗時十分鐘的任務(wù)的報酬在一角到一元美金不等。相較之下，五美元不亞于是一個天文數(shù)字。所以這樣一個小程序能夠吸引27萬人參加測試，也就不奇怪了。注意，所有的參加者都是心甘情愿地讓出他們的Facebook行為數(shù)據(jù)的。Facebook并沒有被黑客入侵，也沒有所謂的數(shù)據(jù)“泄露”或是“偷盜”。因為在當(dāng)時，F(xiàn)acebook小程序在用戶同意的情況下收集數(shù)據(jù)是完全合法的。

那么，所有的報道中都提到了五千萬用戶，又是從哪里來的呢？因為Kogan的程序不僅收集了用戶本人的數(shù)據(jù)（以五美元做交換），也收集了用戶的Facebook好友數(shù)據(jù)。一個用戶可能有幾百個好友，所以27萬個“種子”最后就變成了五千萬用戶。

這里有一個很有意思的問題，就是數(shù)據(jù)的歸屬問題。張三有個朋友叫李四，這個信息是張三個人的信息，還是李四的信息？張三為了五塊錢出賣自己的數(shù)據(jù)（其中包括李四的姓名，性別，年齡等等），需不需要李四的同意？很多學(xué)者認(rèn)為，在社交媒體上，隱私不再是一個個人的決定，而已經(jīng)演變成一個網(wǎng)絡(luò)共同的決定。但在當(dāng)時，收集用戶好友的基本信息是合乎Facebook規(guī)定的。不僅僅Kogan的小程序這么干，其他數(shù)十萬個Facebook小程序都這么干。比如糖果傳奇（Candy Crush）這樣的小游戲，就靠好友的網(wǎng)絡(luò)效應(yīng)進(jìn)行病毒式傳播。一旦張三裝了糖果傳奇，游戲就可以通知李四：你的好友張三玩的很嗨，你要不要也試試？2015年，F(xiàn)acebook調(diào)整了隱私設(shè)置，用戶不再能夠輕易地和小程序“分享”自己的好友信息。這一改變還遭到許多Facebook 小程序開發(fā)者的詬病。

6

到了這里，整件事情都還是合理合法的。下一步則不然。

Kogan本人也是心理學(xué)家，他設(shè)計這個小程序時聲稱要研究社交媒體和心理健康。Facebook也是基于這個研究目的，才同意了他收集了五千萬用戶的數(shù)據(jù)。但不久以后，Kogan就通過自己開的公司GSR，把這個龐大的數(shù)據(jù)集轉(zhuǎn)手給了劍橋分析，其用途已經(jīng)不屬于學(xué)術(shù)研究。這一轉(zhuǎn)手違背了Facebook的安全協(xié)議，也違背了小程序本身和用戶之間的協(xié)議，是整個事件違法的部分。

但也有人說，這時的數(shù)據(jù)集屬于”二手?jǐn)?shù)據(jù)“（secondary data），在數(shù)據(jù)的監(jiān)管上屬于灰色區(qū)域。Kogan當(dāng)時和Facebook的用戶簽訂協(xié)議時，明確指出收集數(shù)據(jù)是供研究使用，并且他也的確做了研究，那么數(shù)據(jù)完成了它的使命之后，是否應(yīng)該直接刪檔（這是Facebook對Kogan的要求）？這時的數(shù)據(jù)到底歸誰所有？（歐美多數(shù)的大學(xué)和研究機(jī)構(gòu)在做人類相關(guān)研究時（human subjects），都會專門設(shè)立一個委員會（Institutional Review Board，IRB）來監(jiān)管類似的倫理問題。就筆者個人的經(jīng)驗，IRB對二手?jǐn)?shù)據(jù)一般都網(wǎng)開一面。至少在學(xué)術(shù)界，因為A而收集的數(shù)據(jù)后來用作B用途并不少見。很多數(shù)據(jù)集都是開放下載的，比如斯坦福的SNAP， Data verse等等。前文提到的myPersonality數(shù)據(jù)集，也對學(xué)術(shù)界全盤開放。）

之后的故事大家都知道了。

劍橋分析運用這個數(shù)據(jù)量超過五千萬的超大規(guī)模的用戶數(shù)據(jù)建立模型，其目的就是找出符合某種特定心理畫像的選民（低開放心性，高情緒不穩(wěn)定性）。在美國“贏者通吃”的大選制度下，絕大部分的選票對選舉結(jié)果都沒有影響（比如說深紅州和深藍(lán)州的選票）。還有一部分選票，無法被廣告左右（比如民主黨或者共和黨的死忠粉）。能左右選舉結(jié)果，且可以被廣告影響的選票數(shù)量微乎其微。但是一旦有了一個特定的心理畫像，劍橋分析就可以在茫茫人海中找出他們要的這一小部分選民，然后集中精力給這一小部分選民施加影響就可以了。他們買了大量Facebook廣告對這些人進(jìn)行狂轟濫炸，進(jìn)行所謂的“信息戰(zhàn)爭”（information warfare），以達(dá)到操縱大選的目的。

7

那么，這五千萬數(shù)據(jù)和模型，真的如劍橋分析所說，操縱了2016年美國大選，影響了英國脫歐嗎？對于這個問題，我們可能永遠(yuǎn)也不會知道答案。不管媒體如何渲染報道，科學(xué)上的因果推定有嚴(yán)格的標(biāo)準(zhǔn)。當(dāng)因變量X存在時，我們觀察到了結(jié)果Y，無法做出X導(dǎo)致Y的推斷。就像一個小朋友愛吃冰激淋，后來發(fā)現(xiàn)了蛀牙，很難說冰激淋直接導(dǎo)致了蛀牙（可能這個小朋友同時愛吃糖，不刷牙，或者其他原因?qū)е轮溃?。只有?dāng)我們能直接對照兩個一模一樣的平行宇宙，在一個宇宙里這個小朋友愛吃冰激淋，另一個宇宙里不吃，然后比較結(jié)果，才能得出最令人信服的因果推斷。

可惜，這樣的平行宇宙并不存在。所以，劍橋分析究竟有沒有影響大選結(jié)果，影響有多大，也只能永遠(yuǎn)存疑了，這就是整個證據(jù)鏈里最為薄弱的一環(huán)。就連Kogan本人，也對此不置可否。一位教授直接發(fā)信去問Kogan，劍橋分析所用的模型究竟有多精準(zhǔn)。Kogan的回答是，根據(jù)Facebook大數(shù)據(jù)建模預(yù)測出來的選民性格和選民的實際性格（根據(jù)心理學(xué)量表）僅有30%的相關(guān)性，而這個準(zhǔn)確率比之前Kosinski和Stillwell的模型所給出的準(zhǔn)確率還要低。

不管Kogan的回答是否可信，即使他的模型有效，能找出符合特定心理畫像的選民。但是用假信息廣告轟炸符合這個心理畫像（低開放性，高情緒不穩(wěn)定性）的選民究竟有沒有作用？是不是真的讓他們選擇了特朗普？永遠(yuǎn)都只是一個未知數(shù)。

8

事件發(fā)生以后，F(xiàn)acebook的股價大跌，市值蒸發(fā)超過700億美元。另有很多人發(fā)起了刪除Facebook賬號的行動。但是這一切現(xiàn)象都只是表面，并不需要當(dāng)真。因為刪除Facebook賬號并不會從根本上解決今天我們所面臨的隱私危機(jī)，原因如下：

第一，F(xiàn)acebook有超過20億活躍賬號。也許Facebook已經(jīng)不是年輕一代最愛用的app了，但它依然是全球最為廣泛使用的社交媒體平臺，擁有全球最多最廣最全的行為數(shù)據(jù)集。

第二，刪除了Facebook，我們還有Google，Twitter，Snapchat，Netflix，微博，微信，淘寶，今日頭條等各種互聯(lián)網(wǎng)接入商……我們的數(shù)據(jù)不給Facebook，也會給別的網(wǎng)絡(luò)平臺。當(dāng)用戶數(shù)據(jù)變成所有平臺核心競爭力的今天，劍橋分析所導(dǎo)致的事件只不過是眾多類似事件中的冰山一角罷了。

筆者給學(xué)生上社交媒體課的時候，都要問一問大家：怎樣操作才能保證自己的裸照不被泄露？正確答案是，不要拍裸照。只可惜，這個答案在今天已經(jīng)不現(xiàn)實了。我們在互聯(lián)網(wǎng)上做任何事情都會留下電子足跡。買東西，叫外賣，看劇，打車，乘坐高鐵和飛機(jī)，上各種社交平臺……當(dāng)一切都電子化，所有的信息都有電子存檔，我們的足跡也一覽無遺。大數(shù)據(jù)結(jié)合人工智能，可以根據(jù)這些海量足跡建模型，賣給我們東西，灌輸給我們思想，改變我們的行為，這一切早已發(fā)生，并不會因為一個劍橋分析的爆料就有任何改變。

從前意義上的“隱私”早已死去。如今我們尚能做的，也許就是更好管理自己的隱私，呼吁監(jiān)管，要求各平臺對數(shù)據(jù)的存儲，建模和買賣，更加透明。再大膽預(yù)測一下，也許某一天，“數(shù)據(jù)煙幕”公司會出現(xiàn)，為客戶建虛假賬號，留下虛假電子足跡，也許這才是保護(hù)隱私的新方法。

制版編輯：黃玉瑩 |

本頁刊發(fā)內(nèi)容未經(jīng)書面許可禁止轉(zhuǎn)載及使用

公眾號、報刊等轉(zhuǎn)載請聯(lián)系授權(quán)

[email protected]

知識分子為更好的智趣生活 ID：The-Intellectual

上一篇:專家詳解 Facebook AAA自動廣告及直播表單等新營銷功能丨沙龍分享

下一篇:Shopee站外引流干貨：手把手教你，F(xiàn)acebook抖音網(wǎng)紅營銷套路

相關(guān)文章: