2015年,数据匿名化和隐私领域的研究员Latanya Sweeney针对芝加哥HIPAA(Health Insurance Portability and Accountability)法案保护下的医疗记录数据进行了一项“去匿名化”研究。在该州(以及许多其他州),公司和个人可以选购匿名的医疗记录数据。Sweeney通过合法渠道订购相关数据,其中包括“该州一年内几乎所有的入院诊治记录”以及就诊记录相关的大量细节,包括病人接受的确诊、手术,主治医生信息、收费摘要等等。这些记录都是匿名的,因为它们不包含病人的姓名或地址,但包括病人所在地址的邮政编码。
之后,Sweeney查阅了华盛顿州自2011年以来刊发的所有包含“住院治疗”一词的新闻报导,总共找到了81篇文章。通过对文章内容和匿名数据库进行比对剖析,Sweeny发觉其中35篇报导才能在数据库中找到与之精准对应的惟一医疗记录。而这种新闻报导中明晰包含了病人的姓名,“成功”实现了对这35名病人的“去匿名化”。
众所周知,数据已成为现代社会发展的重要推动力。研究人员会搜集大量的数据,并基于数据举办研究工作。Google的数据库可以包含你的完整搜索历史记录;Facebook储存着大量用户的行为、评论和相片信息。这些数据决定着我们会听到什么新闻、电影和广告,哪些同学的贴子会出现在我们社交媒体的feed流中,以及什么潜在的伴侣会出现在我们的交友app中。然而,这里涉及的大部分数据都与我们的个人隐私息息相关。
政府、企业和研究机构持续搜集着大量的数据
通常情况下,我们不会向陌生人透漏我们的信用卡记录或医疗记录,因为我们对这种数据的敏感性有着清晰的认识。那么,为什么我们会泄漏那些最私密的个人信息呢?原因是大多数人首先是数据“泄露”的受益者。Google通过搜集数据优化搜索体验,并帮助Gmail过滤垃圾邮件;用户信用卡记录可以帮助建行检测信用卡盗刷行为;医疗记录可以帮助研究人员研制新药,或者帮助大夫制订更好的医治计划。
但人们享受这种好处并非没有代价。政府、企业和研究机构持续进行着大量的数据搜集,而这仅仅是这一系列数据旅程的开始。它们将被重新打包,与来自其他来源的数据相结合,并通过合法或非法的方法被转卖给“需要的人”。典型的数据包括:你的位置(包括实时的与历史上的)、你的信用卡交易记录、你的网站浏览历史记录、你在网站的登入凭据、你的社会安全号码、你的医疗记录。
即使你觉得自己并没有哪些须要隐藏的“秘密”,对个人数据的滥用仍可能对你导致不利影响。因此,大部分相关方在储存或转卖个人信息时,一直在努力实现个人数据的“匿名化”。某些情况下,数据匿名化存在法律要求,例如HIPAA对个人医疗数据的要求,尽管HIPAA提供的保护并不像大多数人想像的这么强。类似的,欧盟最新的通用数据保护细则(GDPR)对才能辨识个人身分信息的数据提出了严格的使用限制,相比之下,GDPR对匿名数据的使用限制则较少。
除此之外,有些公司早已将“数据匿名化”作为其战略的一部分。例如,与Google和Facebook不同,Apple刻意降低对数据的搜集,因为拥有大量数据可能会使公司更容易成为黑客的目标。同时,Apple努力对搜集的数据进行匿名化处理,并且不会对外转卖用户数据。
这些措施很有勇气,值得鼓励。遗憾的是,研究表明,许多匿名化数据都很容易被“去匿名化”,尤其是当多个数据来源有一定程度的重叠的时侯,区别一个数据来源和另一个数据来源的任一信息都能被用于去匿名化。
这里有一个关于“去匿名化”的著名案例。2006年,Netflix为改善其影片推荐服务,公布了包含部份用户评分的数据库,其中包括用户对影片的评分和评分日期。该数据库是匿名的,采用随机修改数据库中包含的大概480,000个用户的部份评级和评级日期等方式对数据库进行匿名化处理。
尽管存在这种干扰,但研究人员的实验结果表明:只需十分少的辅助信息,就可以对Netflix数据库中的大部分的用户记录进行去匿名化。通过8部影片的评分,和容许偏差14天的评分日期,就可以惟一标示数据库中99%的用户;而仅通过2部影片,就可以标示68%的用户。而一个人观看8部影片的记录很容易获得,通过与其聊天或则查看他的博客就有可能得到。
电影评级可能看似无害,它们似乎不如医疗记录敏感,但依然可以阐明一个人的政治观点、宗教信仰和性取向等,从而严重侵害一个人的隐私并使其处于危险之中。这对于当前的数据驱动型社会来说是一个严峻的挑战。
随着更多数据的公开或窃取去匿名化将显得愈发容易
现实是,我们的数据正在被越来越多地被泄漏和窃取。美国联邦紧急事务管理局(FEMA)今年早些时侯窃取了230万饥民的家庭地址和建行帐户信息;美国三大个人信用评估机构之一的Equifax在2017年遭到黑客攻击,超过1.45亿人的信息被窃;非营利组织Privacy Rights Clearinghouse的研究显示,自2005年开始,14年中共发生了8804次数据泄漏,超过115亿条记录被窃取。这意味着自2005年以来,平均每晚发生1.7次数据泄漏,220万条记录被窃取。当别有用心的人将所有那些数据堆砌在一起时,数据的去匿名化将变的愈发容易。
对于相关领域的学者来说,这些担心并不是哪些新闻。2010年,个人隐私律师Paul Ohm就曾在《UCLA法律评论》中刊文强调,虽然恶意攻击者可以使用个人身分信息(如姓名或社会安全号码)将数据与个人身分进行关联,但事实证明,即便只拥有这些不会被归类为“个人身分信息”的信息,他们也可以达到同样的目的。
Ohm参考了Sweeney初期的一些研究,她发觉1990年日本人口普查中有87%的人可以通过两条信息进行惟一辨识:他们的出生日期和她们住址的邮政编码。Ohm还引用了Netflix以及其他有关数据泄漏的案例,并得出结论:在传统的以个人身分信息为保护重点的匿名化技术下,几乎任何数据都未能实现永久的完全匿名。
2013年,研究人员发觉位置数据具有高度的独特性,因此愈发无法匿名化。许多匿名数据库都可能间接泄漏你的位置,例如刷卡消费或抵达诊所就诊。研究人员发觉,通过每小时记录4次手机联接到的讯号发射塔,就可以对95%的设备进行惟一辨识。如果数据更精细(GPS跟踪而不是讯号发射塔,或者实时采集而不是每小时采集),匹配则会显得愈发容易。
数据的合理借助具有积极的社会价值
然而不可证实的是,尽管面临被滥用的风险,但数据的合理借助同时又具有好多积极的社会价值。我们希望医学研究人员创造新的抗生素和医治方式、希望我们的房子能否手动调节到舒适的体温、希望Google地图提示我们前方公路堵车。我们盼望大数据带来的好处,却又不想面临去匿名化的风险。
然而事实是,我们必须作出权衡。我们早已被迫舍弃了一些隐私,未来可能还须要舍弃更多,但真正关键的是怎样增加我们的隐私被滥用的可能性。
保护敏感数据和避免未经授权的访问必须成为每一个数据收集者的第一要务。同时,监管机构也应持续强化对个人数据隐私的保护力度。例如,GDPR鼓励公司储存更少的数据并尽最大努力对储存的数据进行匿名化处理,即使这并非100%有效。
同样,参与数据搜集和储存的每一方都应当及时了解最新的隐私保护技术。例如差分隐私(Differential Privacy,一种基于密码学的隐私保护技术)这样的策略,即在数据库发布之前将一些随机噪音添加到数据库中,这有助于降低基于数据关联性的功击。Apple和Google都在研究差分隐私策略方面付出了好多努力,这些措施值得借鉴。
总而言之,我们须要坦率面对数据带来的价值和风险,并慎重权衡。一方面,我们希望释放大数据的力量,为我们的生活带来积极的改善。而另一方面,大量数据存在的本身就是一种隐私风险。如果我们舍弃过多的隐私,大数据则可能进一步剥夺我们的自由。