匿名数据/去标识化数据对比匿名化的目的与意义

网络 2023-02-11 16:06

目的与定义

为了减少个人信息泄露的风险，除了通过网路安全举措避免未授权用户访问数据外，也可以通过清除数据中的可辨识信息来切段和数据主体间的关联，控制数据泄露后对自然人的损害程度。比如健康码数据不慎泄漏到网段，但其中所有的记录都不包含个人识别符，无法指向特定自然人，只能看见该城市内目前的红码数目即变红时间，整个泄露风波的风险损害就是较小的。这就是在数据处理过程中引入匿名化的目的与意义。

在个保法和GDPR/CCPA中，对匿名化(anonymisation)的定义是类似的。匿名化是指个人信息经过处理难以辨识特定自然人且不能复原的过程。与此相对的，还有一个数据去标识化(de-identification)，它的定义是是指个人信息经过处理，使其在不依靠额外信息的情况下难以辨识特定自然人的过程。两者的区别就在于完成处理后，结果是完全没法关联回个人，还是可以利用其他手段和资源重新建立和自然人的关联关系。

下图是对匿名化，去标识化以及假名化以后的数据情况做的一个对比。假名化后的数据由于保留了实际身分标识符与人工标识符之间的映射关系，是可以随时重建与自然人的辨识关系。去标识化由于直接和间接标识符都被处理，需要利用额外的背景知识才可重新辨识。而匿名化应当是通过叠加多重技术手段，实现了完全不可辨识。

图0-匿名数据/去标识化数据对比

匿名化和去标识化都是实现数据最小化的方法之一，它帮助在数据的储存/披露过程中最大化的限制对个人信息的使用，防止个人隐私的泄密与超范围使用。下面是实现数据匿名/去标识化的常用手段。

常用技术手段一、抑制

数据匿名化/去标识化的第一步要做的是避免数据被直接关联到特定自然人，可以通过抑制(Suppression)技术处理直接辨识符，即从微数据中删掉各直接辨识符

图1-抑制示例

抑制有多种形式，可以是删掉一列/多列属性，也可以是删掉特定记录行

二、假名化

假名化(Pseudonymisation) - 如果微数据仍需保留个体级别记录的独特性，则不适宜删掉所有直接标识符，而应当生成一个假名来取代原有的属性值。

图2-假名化示例

多个直接标识符数组，只需选其中一个进行假名化生成取代ID。

假名可不依赖于原始属性值独立生成，比如说生成随机数。这种方式须要维护假名与原始辨识符的匹配表，该匹配表需单独保存并施行访问控制。也可借助加密技术对原始属性值采用加密或安全散列技术生成假名。该方法估算成本高，需要对秘钥进行单独保存和保密。

对辨识符数组进行直接加密的处理方法，我觉得也是假名化的一种。

三、屏蔽

屏蔽(Masking)是一种对原有辨识符进行的属性值遮蔽或截断的方法，降低属性值的可识别性的同时保留一定的数据可用性。

图3-屏蔽示例

屏蔽时可用各类自定义字符进行代替，比如手机号码13812345678，可转换为13899999999。

四、泛化

泛化(generalisation)是对属性值的数据细度进行调整，将多个相仿属性值归到一类中，通过对数据进行概括，提高数据主体被推断的难度。

图4-泛化示例

文本类的数组也可以进行泛化，比如职业：“软件工程师”，“产品总监”可以都分类到“工程师”。

五、数据扰动

数据扰动(data perturbation)是对间接辨识符的属性值进行调整，通过添加噪声的方法减少该数组和其他数据集组合进行数据主体辨识的风险。

规格化化数据_食物匿名化_匿名化是对个人数据

图5-数据扰动示例

六、数据置换

置换(swapping)是对选取的辨识符的属性值进行重新排序，各属性值被从原有记录中提取初，再随机交换到其他记录行中。

置换保证了属性值的统计分布继续保持确切，但单条记录的准确性被打破。

图6-数据置换示例

七、数据聚合

聚合(aggregation)是对微数据集中的属性值进行统计，然后以统计结果的形式发布数据。

数据聚合结果会增加数据的可用性，因为没有了个体级别的数据特点，同时它对重标示功击也十分有效。

图7-聚合示例

八、不同数组适用的匿名化手段

数据中不同的数组依照各自的属性和使用需求，需组合不同的处理手段，如下是各种辨识符适用的匿名化手段列表。

图8-各类辨识符适用的匿名化方式

直接标识符如采用屏蔽方法，因为它的直接关联疗效，需重点评估重功击风险。

数据匿名化步骤

匿名化技术在提高数据隐私保护力度的同时，会牺牲数据的可用性，所以在设计和执行匿名化方案时可以依照如下步骤

步骤一：理解数据

研究原始数据，区分中其中不同类型的数据数组（直接辨识符，间接辨识符，普通数组属性），方便后续使用不同的处理方法

同时要理清数据发布后的使用场景，基于该场景对不同数据字段的准确性要求，才能对各数组选择不同的匿名化方式。比如下游用户要基于精确的年纪对用户行为进行剖析，就不适宜对年纪数组执行泛化或扰动。

步骤二：应用匿名化技术

筛选出须要匿名化的数组，结合数据使用需求，组合使用不同的匿名化技术

步骤三：评估重标示风险

对匿名化结果进行重标示风险剖析，如果评估出的风险超过预期，需要回步骤二重新选择新的匿名化方案。

步骤四：管理匿名数据发布风险

基于风险评估结果，结合其他技术举措和管理举措来应对已辨识风险。

下一章我们会详尽介绍数据匿名化/去标识化的隐私泄露风险与K匿名模型，欢迎继续阅读。

参考资料：

1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》

2. PDPC - Introduction to Basic Data Anonymisation Concepts

大数据

上一篇：搜索引擎优化行业的站长或朋友们可以多做测试下一篇：没有了

匿名数据/去标识化数据对比匿名化的目的与意义

合作伙伴

商务合作

关于我们