QQ泡沫乐园 · 免费提供游戏辅助,破解软件,活动资讯,喜欢记得收藏哦!
综合软件_线报活动_游戏辅助_最新电影_最优质的的辅助分享平台

NatureCommunications期刊:匿名数据集中准确追踪你的难易程度

网络 2022-12-05 08:01

编译:李雷、夏雅薇

数字时代的生活使我们不断留下各类数据痕迹,大部分都不是这么有趣,比如订餐订单、网购记录等,其中一些是涉及个人隐私的,如医疗确诊信息、个人性取向以及纳税记录。

各种公共机构保护个人身分信息的最常用技巧是数据匿名化。这包括剥离显著的可辨识信息(去标示),如姓名、电话号码、电子邮件地址等。数据会模糊处理,数据表中的个别数据会被整列删掉(抑制),并且引入一定“噪声”。这些隐私新政确保我们不会被定位到个人。

然而,Nature Communications刊物发表的一项新研究表明,情况并非这么。

来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以确切恐怕从匿名数据集中重新辨识一个人的难易程度。你可以在这个链接中输入你的邮政编码、性别和出生日期来查看自己的得分。

平均而言,在印度,使用这三个信息(邮编、性别、出生日期),有81%的机率可以在“匿名”数据集中准确地追踪到你。一个搬去马萨诸塞州的人,如果你手里有与他相关的15个人口统计特点数据,那你有99.98%的机率可以在任何匿名数据库中找到他。

匿名化是对个人数据_匿名化 不可逆_匿名化消费

伦敦帝国理工学院的研究员,该项研究的作者之一Yves-Alexandre de Montjoye说:“你把握的信息越多,识别错误的可能性就大大增加。”

这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括德国人口普查信息。研究人员将这种数据输入到该机器学习模型中,让其学习什么数据组合近乎惟一,哪些组合不惟一,然后给出正确的辨识机率。

这并非第一个研究从匿名数据库中辨识个人的项目。在2007年的一篇论文中,只需少量的Netflix连续剧评分数据就可以像公积金号码一样轻松辨识一个人。这篇论文表明了目前数据匿名化技术还远落后于匿名辨识技术的发展。de Montjoye说,数据集的不完整(泛化和抑制)并不能保护人们的隐私。

匿名辨识并非都是坏事,今年早些时侯,《纽约时报》的记者使用相同的辨识技术爆光了特朗普从1985年到1994年的纳税申报表。但是,同样的方式也可能被这些想要进行身分欺诈或获取信息用于恐吓的人所使用。

匿名化消费_匿名化是对个人数据_匿名化 不可逆

“问题在于我们觉得数据在匿名化后是安全的,各种机构和公司也告诉我们如此做是安全的,但事实证明不是。”de Montjoye说。

英国数据隐私公司Privitar的研究负责人Charlie Cabot觉得,要想真的高枕无忧,应该使用差分隐私(differential privacy)技术,这是一种复杂的物理模型。利用这项技术,公司间可以共享有关用户习惯的统计数据,但同时也可以保护个人身分信息。

这项技术将在今年首次经历重大考验,它正被拿来确保法国人口普查数据库的中数据的安全。

相关报导:

,

相关文章