圖源:圖蟲
編者按:本文來(lái)自微信公眾號(hào)計(jì)算廣告(ID: Comp_Ad),作者大數(shù)據(jù)仁波茄,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
最近,滴滴他們?nèi)叶急幌录芰?。除了?yáng)奉陰違趕去納斯達(dá)克投胎以外,數(shù)據(jù)安全、隱私保護(hù)這些多數(shù)人既關(guān)心又不了解的話題,也被推上了風(fēng)口浪尖。正好前些天,金星老師要搞個(gè)新節(jié)目,導(dǎo)演組找到我,居然也想聊聊大數(shù)據(jù)、用戶隱私這方面的事兒。當(dāng)然,雞一嘴鴨一嘴地控訴大數(shù)據(jù)罄竹難書的罪惡,我興趣不大。
全民關(guān)注數(shù)據(jù)和隱私,當(dāng)然是好事,只是這里技術(shù)和行業(yè)知識(shí)太多,不容易透徹理解。因此,市面上驚悚的傳言頻出,似乎搞大數(shù)據(jù)的都是三頭六臂的妖精。作為一名戰(zhàn)斗在數(shù)據(jù)一線的仁波切,我感到有必要挺身而出,以我在宗教界相聲說(shuō)的最好的工程師身份,給大家把這方面的事兒講明白。
弄明白這玩意有啥用?普通人,可以搞清泄露什么隱私會(huì)讓自己破財(cái)招災(zāi),免得不明就里地疑神疑鬼,心臟病和痔瘡都犯了;對(duì)立法專家來(lái)說(shuō),可以稍微理清法規(guī)的邊界和作用,別總想著利用手里的圖章,靠加緊箍咒漁利;對(duì)想掙錢的來(lái)說(shuō),那這里面日進(jìn)斗金的機(jī)會(huì)多了去了。當(dāng)然,在學(xué)習(xí)本文之外,您還得同時(shí)精研刑法,先找好退身步。
首先,大家得明白一個(gè)道理:如今的世界,早已是數(shù)字世界第一性的了。利用用戶數(shù)據(jù)提供個(gè)性化服務(wù),是絕對(duì)無(wú)法逆轉(zhuǎn)的大趨勢(shì)。如果把數(shù)據(jù)的使用都停掉,其后果比全國(guó)停用電力還要嚴(yán)重。
既然數(shù)據(jù)是提供個(gè)性化服務(wù)的,那么什么樣的數(shù)據(jù)應(yīng)用,是靠譜和無(wú)風(fēng)險(xiǎn)的呢?其實(shí),這里有個(gè)明確的標(biāo)準(zhǔn):你的數(shù)據(jù),只能在同一個(gè)場(chǎng)景下服務(wù)于你本人。打個(gè)比方,快遞可以拿到你的地址電話,但這是給你服務(wù)用的,只要不把你的數(shù)據(jù)給別人,或者服務(wù)別人,那就沒(méi)啥問(wèn)題。
互聯(lián)網(wǎng)也是一樣,管他是騰訊、淘寶還是抖音,根據(jù)你的行為影響你看到的內(nèi)容,雖然乍一看菊花一緊,但是其實(shí)用不著太緊張,它對(duì)你的隱私并沒(méi)有實(shí)質(zhì)性的侵害。這樣的用途,今后會(huì)長(zhǎng)期存在,沒(méi)必要因噎廢食。
這里隱藏的問(wèn)題,在于把數(shù)據(jù)“用于服務(wù)別人”這件事該怎么界定。說(shuō)起來(lái),這在互聯(lián)網(wǎng)上并不新鮮,您想想現(xiàn)在短視頻的推薦系統(tǒng)吧,其原理基本都是去統(tǒng)計(jì)“看過(guò)這個(gè)視頻的人還會(huì)看什么”,這不就是把其他人的數(shù)據(jù)聚合起來(lái)服務(wù)你嘛!沒(méi)錯(cuò),這確實(shí)是。只不過(guò),這是把其他人統(tǒng)計(jì)數(shù)據(jù)用于服務(wù)你。
那么,在統(tǒng)計(jì)過(guò)程中,究竟有沒(méi)有漏洞讓你可以窺見(jiàn)其他某個(gè)人的具體隱私呢?如果有的話,又如何解決呢?沿著這個(gè)方向,衍生出了數(shù)據(jù)安全方面一個(gè)重要的技術(shù)方向——隱私計(jì)算。你可能聽(tīng)過(guò)的一些詞匯,什么差分隱私啊、聯(lián)邦學(xué)習(xí)啊,都是這個(gè)方向里的熱點(diǎn),這些話題我們改天專門再談。
說(shuō)完了什么算正常,再回到正題:如今的互聯(lián)網(wǎng),到底有沒(méi)有數(shù)據(jù)黑產(chǎn)呢?那肯定有?。〔贿^(guò)這些黑產(chǎn),可能跟多數(shù)人理解的不太一樣。
跟數(shù)據(jù)相關(guān)的黑產(chǎn)門道,簡(jiǎn)直是五花八門,一抬腳踩死一片。歸納總結(jié)一下,數(shù)據(jù)黑產(chǎn)可以分成兩個(gè)大類:一是直接從你身上騙錢;二是借你的身份去干點(diǎn)壞事。
從你身上騙錢,又有兩種不同的思路,先說(shuō)第一種。比方說(shuō),有人拿了你的電話號(hào)碼和家庭住址,怎么掙錢呢?很簡(jiǎn)單,往你家里發(fā)個(gè)貨到付款的快遞,別收太貴了,比方說(shuō)50塊,家里人不知買的啥,糊里糊涂就交錢收了。包裹里的小物件一塊錢,快遞費(fèi)三塊錢,那還掙你40多呢!您說(shuō)家里人也不一定收?就算只有百分之二十的人收,人家都掙大了!
可以看出,這是一種“廣撒網(wǎng)”的“輕詐騙”模式,可以很容易把大量用戶信息變現(xiàn)。這類模式需要的信息,是那些“可以找到你”的信息,比方說(shuō)住址、電話、email之類。這類信息有個(gè)統(tǒng)一的名字,大概您聽(tīng)說(shuō)過(guò),叫“個(gè)人可定位信息(PersonalIdentifiable Information, PII)”。
該怎么防范呢?這種廣撒網(wǎng)的模式需要用到的PII信息,在如今各國(guó)的用戶隱私保護(hù)法規(guī)下,幾乎都已經(jīng)被禁止傳播和使用了。在我國(guó),販賣五十條以上的手機(jī)號(hào)這類信息,就有可能有刑事責(zé)任,所以這種風(fēng)險(xiǎn)在總體上是可控的。就算是信息真被泄露了,人家是廣撒網(wǎng)嘛,一般也不會(huì)把你一把薅死,倒也犯不著憂心忡忡。當(dāng)然,自己的PII信息,還是要看住了,別輕易給別人。
而更生猛的模式,“廣撒網(wǎng)”就不夠了,還得“深挖洞”。這就要用到用戶身份以外的“行為數(shù)據(jù)”了。簡(jiǎn)單來(lái)說(shuō),就是深入分析你平常的網(wǎng)絡(luò)行為,找到你的軟肋之后,一刀下去,砍你個(gè)全身不遂。
這個(gè)路數(shù)最興旺的領(lǐng)域,是放貸。放貸的愛(ài)找什么人呢?就是那些頻繁借錢的人,這種人拆了東墻補(bǔ)西墻,聽(tīng)說(shuō)哪兒能借出錢來(lái),就跟蒼蠅見(jiàn)了血一樣。于是,想辦法通過(guò)各種來(lái)源的數(shù)據(jù),找出那些頻繁借貸的人,誘使他上自己這兒來(lái)借,再設(shè)下個(gè)套路貸的陷阱,就能掙一把大的。而這些人常用的數(shù)據(jù),就是短信、搜索詞什么的。至于來(lái)路,沒(méi)幾個(gè)正規(guī)的。當(dāng)年那一撥金融科技公司紛紛被抓,不少都跟這些數(shù)據(jù)黑產(chǎn)有關(guān)。
“深挖洞”的模式,用戶就有可能蒙受重大損失了。說(shuō)到底,這還是違背了上面說(shuō)的“在同一個(gè)場(chǎng)景下服務(wù)于你本人”這條原則:一個(gè)人在A家借貸的數(shù)據(jù),按說(shuō)是不應(yīng)該讓B家知道的。
但是,這樣一來(lái)麻煩就來(lái)了。本質(zhì)上看,所有的精準(zhǔn)廣告模式,都存在把A場(chǎng)景/客戶的數(shù)據(jù)用于B場(chǎng)景/客戶的問(wèn)題。如果B場(chǎng)景/客戶的金主有惡意,那么這里的風(fēng)險(xiǎn)不容小覷。因此,我支持對(duì)于廣告業(yè)務(wù)中使用的數(shù)據(jù),要有明確的規(guī)范和邊界。您想想,搜空調(diào)維修把騙子引到家里來(lái)這種事,還少么?
在現(xiàn)代的大數(shù)據(jù)技術(shù)下,這種“深挖洞”的能力超乎你的想象:舉個(gè)例子,通過(guò)手機(jī)陀螺儀數(shù)據(jù),能分析出用戶的行進(jìn)速度,如果速度比較快,再看看電量一直是滿的,那么他十有八九是在開(kāi)車,手機(jī)插著充電。如果一天有八九個(gè)鐘頭都是這狀態(tài),那大概就是個(gè)職業(yè)出租司機(jī)了。如果這司機(jī)在北京,消費(fèi)上又不像一般司機(jī)那么節(jié)儉,那很可能是城鄉(xiāng)結(jié)合部的拆遷戶,手里有了點(diǎn)錢,沒(méi)啥事干只好開(kāi)出租。這些人一夜暴富,耍錢的比例不低,耍著耍著家里管得緊了,可手癮還在,就只好借錢了。抓住他們玩套路貸,那可是一抓一個(gè)準(zhǔn)!
而像滴滴這種掌握大量用戶數(shù)據(jù)的公司,任何一點(diǎn)疏忽或惡意,都可能讓用戶蒙受重大損失,至于上市過(guò)程中,把什么數(shù)據(jù)交給SEC,SEC又能從中挖掘出什么,雖然不得而知,也是細(xì)思極恐了。
咱們?cè)賮?lái)說(shuō)說(shuō)第二類,借你的身份去干壞事。這類方法,往往是在互聯(lián)網(wǎng)的技術(shù)體系內(nèi),用一些非PII信息,從客戶而不是你身上掙錢。
最典型的例子,就是在黑產(chǎn)圈長(zhǎng)盛不衰的的cookie stuffing。這事比較復(fù)雜,簡(jiǎn)單說(shuō)是這樣的:舉個(gè)例子,假設(shè)淘寶為了搞到更多流量,就跟一些渠道說(shuō),你們?nèi)ソo我送流量,帶來(lái)的用戶下單,我給你提成千分之二!但是怎么才算這個(gè)渠道帶來(lái)的下單呢?就是用戶通過(guò)這個(gè)渠道的廣告位點(diǎn)擊到淘寶的時(shí)候,帶了個(gè)用戶的ID,后面這個(gè)ID再下單時(shí),就能對(duì)上了。這樣一來(lái),雞賊的渠道就想出個(gè)辦法:盡可能多收集用戶ID,然后給每個(gè)ID偽造一個(gè)到淘寶的點(diǎn)擊事件,這些ID里如果有人下單,那不就算我的了!反正我一點(diǎn)成本也沒(méi)有,撞上多少算多少唄!
大家注意,在這樣的黑產(chǎn)中,除了用戶的ID,人家什么也沒(méi)用。而這里用的ID,也并不是電話、email這些 PII信息,而是cookie、IDFA等這些根本無(wú)法主動(dòng)觸達(dá)用戶的身份號(hào)。就這樣,人家拿你的身份證去掙了點(diǎn)小錢,而你沒(méi)有直接損失,就像是做了一次免費(fèi)的微型無(wú)痛人流。
因?yàn)橹皇墙栌昧四愕纳矸軮D,一般不會(huì)讓你受到直接損失,這類方法往往不為大家所關(guān)注。其實(shí),前文那種“廣撒網(wǎng)”的黑產(chǎn)也好,這里借身份的黑產(chǎn)也好,雖然單個(gè)用戶損失有限,但也是赤裸裸地侵害用戶權(quán)益,這一點(diǎn)沒(méi)什么可說(shuō)的。更重要的是,很多黑產(chǎn)從業(yè)者,往往是從輕量級(jí)的業(yè)務(wù)入手,一步步升級(jí)到那些“深挖洞”的模式,更放肆地訛詐用戶。因此,這些“入門黑產(chǎn)”,也會(huì)像大麻這種“入門毒品”一樣,把掙了這份錢的人,引向更加邪惡的黑產(chǎn)深淵。
說(shuō)到這兒,咱們拐個(gè)彎,提個(gè)坊間盛傳的傳聞:APP監(jiān)聽(tīng)你線下的聊天內(nèi)容,然后給你推廣告,到底是不是空穴來(lái)風(fēng)呢?這事兒比較復(fù)雜,理論上講有可能的,但是難度不小。簡(jiǎn)單說(shuō)可以這么總結(jié):硬件可以搞,軟件搞不了。
要從聲音中提取有商業(yè)價(jià)值的信息,那一定得用到語(yǔ)音識(shí)別技術(shù)。雖然這現(xiàn)在已經(jīng)比較成熟,可是如果有個(gè)程序喝不喝老端著,一直在后臺(tái)等著聽(tīng)墻根,那會(huì)有個(gè)嚴(yán)重后果:檢測(cè)語(yǔ)音的程序,很快就把手機(jī)耗沒(méi)電了。這不就露餡了么?
那還有什么其它呢?有,做一個(gè)專用芯片,用于檢測(cè)語(yǔ)音信號(hào),有語(yǔ)音信號(hào)了,再送到后臺(tái)識(shí)別。實(shí)際上,智能音箱就是這么干的,所以你喊上一句就能把他喚醒。智能音箱能干,手機(jī)廠商當(dāng)然也能干,所以說(shuō),“硬件可以搞”。如果手機(jī)把這項(xiàng)能力開(kāi)放給APP,那么APP也就能干了。只不過(guò),我不認(rèn)為手機(jī)廠商有什么動(dòng)力這么做,實(shí)踐中好像APP也拿不到這能力,所以說(shuō),“軟件搞不了”。
今天扯了不少了,最后再補(bǔ)充兩點(diǎn):一、數(shù)據(jù)安全問(wèn)題并非互聯(lián)網(wǎng)的新問(wèn)題,原來(lái)線下商業(yè)中也不少,只是因?yàn)榛ヂ?lián)網(wǎng)讓數(shù)據(jù)變現(xiàn)成了規(guī)模化的產(chǎn)業(yè),這事兒才讓大家格外重視;二、很多問(wèn)題都是復(fù)雜的技術(shù)問(wèn)題,僅僅靠法規(guī)的約束作用有限。我相信,解鈴還須系鈴人,只有在互聯(lián)網(wǎng)場(chǎng)景下發(fā)展起來(lái)的隱私保護(hù)技術(shù),才能徹底解決問(wèn)題。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。