数据正在逐步成为关键生产要素,各产业对数据的需求也急剧不断下降。
本文原载于《信息安全研究》2021年10期
庄媛媛 靳晨 华控清交信息科技(北京)有限公司
何昊青 清华大学 五道口金融学院
摘要:数据正在逐步成为关键生产要素,各产业对数据的需求也急剧不断下降。2021年9月1日开始施行的中华人民共和国数据安全法,对国外信息和数据安全领域的普适性法律框架作了进一步建立. 作为数据中最为特殊的一部分,个人信息在中华人民共和国个人信息保护法遭到愈加严格的保护. 个人信息保护法中有关匿名化与去标识化的概念与欧共体相关规定类似,但亦有其不同之处. 以欧美相关规定为起点,洞察欧美对匿名化相关概念的差别,评价其可操作性与值得借鉴之处. 随后,将我国相关规定与基于多方估算(Multi-party Computation,MPC)的数据交易场景进行结合, 分析目前匿名化与去标识化相关规定在适用上可能面临的问题.最后,从个人信息保护与数据流通的角度,对匿名化与去标识化及其相关规定提出建议.关键词 匿名化; 去标识化; 假名化; 多方估算; 个人信息保护; 数据流通
1 匿名化相关规定对数据流通的意义
新一代信息技术的迅速发展,使得数据控制者(controller)对于数据主体(data subject)个人信息的搜集、处理、利用的深度与广度不断加强. 随着数据控制者越发强势,数据主体的权力变得微不足道. 为了平息数据控制者与数据主体之间的权责失衡,保障个人信息才能合理借助,各国纷纷颁布了构建在“告知同意”框架下的个人信息保护相关法律法规,定义了匿名化等概念,并给出了相应的管理规定.各国对匿名化等相关术语的定义多有出入,宽严不一,但主要皆聚焦于信息能够“识别出特定个人”,其根本目的在于通过将特定个人“埋没”于群体中,在“统计学意义上”保障个人隐私. 在我国,“匿名化”“去标识化”“假名化”等原属于技术概念的范畴,2021年颁布的中华人民共和国个人信息保护法(以下简称个保法),定义了“去标识化”与“匿名化”,并将匿名化处理后的信息排除在个保法规制的范畴之外,至此 “去标识化”与“匿名化”在我国早已成为法律概念. 对于匿名化处理后的数据的豁免规定,欧盟的通用数据保护细则(General Data Protection Regulation, GDPR)将匿名化数据排除GDPR规制范畴; 美国加利福尼亚州消费者隐私保护法案(California Consumer Privacy Act, CCPA)将去标识化后且未能合理辨识出特定个人的信息排除CCPA规制范畴,以上规定皆致力平衡个人信息隐私保护与个人信息流通所能带来利益之间的关系。
从匿名化数据清除了数据集中个体颗粒度的角度来看,该方法确实才能在一定程度上保障个人隐私,但还有以下问题急待明晰:1)匿名化既是法律概念也是技术问题,是网路安全、信息安全与数据保护的关键一环,需要考虑涉及数据上下游产业链对数据的借助情况,辅之以新政、法律法规、标准、内部管理制度;2)匿名化不是孤立的,数据链条上相关方的数据处理与保护能力各不相同,对于数据的颗粒度需求也不同,故需结合数据的实际使用场景和目的去阐述;3)匿名化是一种对数据“状态”的评估,但数据处理是一个动态的过程,需充分评判整个动态过程的评估与管理;4)合理借助数据是匿名化的目的,但匿名化不是惟一的起点或则手段,新技术的出现将会改变合理借助数据的形式.在目前的研究过程中,上述问题并未遭到充分关注.因此,本文将以欧美对匿名化的相关规定为起点,阐释上述观点并结合具体应用场景辨析匿名化相关规定在合规实践上的难点,于文末提出相关的新政建议.
2 欧美匿名化相关规定及其发展
2.1欧共体匿名化规定剖析
2.1.1欧共体匿名化概念及发展历程
在技术领域,匿名化模型的起点可以溯源至1997年日本的Samarati和Sweeney提出的k匿名模型,目前也发展出许多其他的技术与解决方案.在法律领域,欧盟1995年的数据保护指令提到“匿名化”的概念.随着技术的进步,各产业对数据挖掘、共享、交换的需求越来越高,为保护个人隐私,各界纷纷对匿名化及其技术投入了更多关注,在与个人信息有关的法律法规中都有迹可循.例如,2014年欧共体第29条数据保护工作组起草的关于匿名技术的意见,对匿名化的场景诱因、判断标准、常用匿名化技术等,结合1995年的数据保护指令与2002年的电子隐私指令作了详细的介绍.2020年欧共体电子隐私细则延续了匿名化的相关规定,规定用于研究的元数据必须匿名化或假名化、电子通讯服务商必须对其元数据删掉或匿名化处理(如图1所示).
图 1 欧盟匿名化相关概念的发展
2.1.2欧共体匿名化和假名化的区别
欧盟在对于个人数据匿名化方面提出了“假名化”与“匿名化”这2个概念.假名化(pseudonymisation)是一种处理数据的方法,使其在不结合额外信息的情况下,无法再次辨识到特定数据主体,前提是这种额外信息必须单独保存,采取相应技术和组织举措,确保个人数据不再被用于辨识特定自然人(如图2所示).匿名数据(anonymous data)则是与已辨识或可辨识的自然人无关的数据,以及经过处理后难以或不再可辨识到特定自然人的数据.在关于匿名化技术的意见中对其有更详尽的诠释,认为“只有当数据控制者将数据汇总到某些风波(event-level)不再可辨识的水平时”该数据集才是匿名的数据集,即数据控制者应该在风波层面删掉原始(可辨识)的数据(如图3所示).
图 2 欧盟去标识化概念图例
图 3 欧盟匿名化概念图例
2.1.3欧共体关于匿名化的技术评估
欧盟的关于匿名技术的意见主要从3个维度考虑匿名化技术的稳健(robustness)程度:1)筛选(singling out).将数据集中的所有或个别记录分离下来,从而辨识出特定个人.2)关联(linkability).从1个数据集中的起码2条记录或则起码不同数据集中的2条记录关联到特定个人(单独的数据集中未能筛选出特定个人则不具有筛选风险).3)推断(inference).从1组其他属性明显可能地推论出其他属性.当数据集有可能出现筛选、关联、推断情况时,数据集就不是匿名化的数据集,需受GDPR的约束.关于匿名技术的意见上将对标签进行加密的一类密码学相关技术归类为假名化的技术,认为该类技术在不结合其他技术的情况下,无法实现匿名化(如图4所示).在评估稳健性要求时,采取“合理可能”(reasonably likely)的标准,即综合考虑了采取重辨识的技术手段需付出的成本(所需时间与资源)和技术,并且考虑了技术随时间发展的变化.
图 4 欧盟关于匿名化的判定
2.2日本不采用匿名化,而采用假名化和去标识化
美国采用去标识化(de-identification)与假名化(pseudonymization)的概念,而未有匿名化的概念,即将个人信息中的直接或则间接标识符删掉.1996年颁布的健康保险责任流通法案(Health Insurance Portability and Accountability Act, HIPAA)是最早有关个人信息去身份化的法律规定.HIPPA 指出去标识化处理后的健康信息,使用和公开不再受限,其认定标准采取“专家标准”与“安全港标准”.2015年日本国家标准与技术商会发表了个人信息去标识化,将去标识化定义为从数据库删掉身分信息,使其不能再链接到特定个人,处理后的数据不再遭到隐私保护的限制.美国关于去标识化的方式较为简单,将标识符分为直接标识符与准标识符(间接标识符),对于与特定个人高度关联的直接标识符,应采取“删除”或者“置换”的形式.准标识符难以直接辨识到特定个人,但结合其他信息后则可联接到特定个人,对其可选择抑制(suppression)、泛化(generalization)、干扰(perturbation)、交换(swapping)、子抽样(sub-sampling)的处理方法.2018年的加利福尼亚州消费者隐私法案(The California Consumer Privacy Act, CCPA)将去标识化的消费者信息或聚合消费者信息排除在个人信息的范围之外.“假名化”则是一种个人信息的处理方法,在附加信息单独保存并受技术合组织管理的前提下,通过该方法处理后的数据若不附加其他信息则不再被用于辨识到特定个人.2020年的加利福尼亚隐私权法案(Consumer Privacy Bill of Right Act, CPRA)对去标识化与假名化的相关规定与CCPA一致,同时还觉得去标识化后的数据仍有存留的安全风险,规定信息处理者有严禁重新辨识的义务,从管理的角度上保障个人信息安全(如图5所示).
图 5 美国匿名化相关概念发展
图 6 欧美匿名化、假名化、去标识化相关概念对比
3 国内对去标识化、匿名化的定义及发展
2016年颁布的网络安全法是我国法律领域与“匿名化”相关概念的起点.其中第42条规定,不得向别人提供个人信息,但经处理难以辨识特定个人且不能复原的除外.2017年信息安全技术个人信息安全规范是我国首次对“匿名化”“去标识化”定义的标准.匿名化为通过对个人信息的技术处理,使得个人信息主体难以被辨识或则关联,且处理后的信息不能被复原的过程.个人信息经匿名化处理后所得的信息不属于个人信息.去标识化指的是通过个人信息的技术处理,使其在不依靠额外信息的情况下,无法辨识或则关联个人信息主体的过程.2019年信息安全技术个人信息去标识化手册(以下简称去标识化手册)提出了常用去标识化技术,并且对技术的去标识化疗效进行了评价.需要提到的是,该评价并非从“匿名化”的角度出发,而是将所有技术都放在“去标识化”的框架下,最后将去标识化后的疗效进行重标示风险评估(如图7所示).与欧共体的关于匿名化技术的意见类似,去标识化手册罗列了3类重标示的方式即隔离、关联、推断,并提出了重标示机率的定量分析方式,即先估算每行的重标示机率,从而得出数据集重标示的机率,再结合环境风险估算整个数据集重标示的机率.2021年4月,信息安全技术个人信息去标识化疗效分级评估规范(征求意见稿)(以下简称分级评估规范)给出了定量的去标识化评估方法,如图8所示,这与欧美的技术意见相比降低了可供评价的根据.
图 7 我国去标识化、匿名化相关概念发展
相较去标识化,我国关于匿名化的提法不多.2020年民法典人格权篇将散见于相关法律法规当中的人格权统一其中,人格权、隐私权、个人信息有了新的内涵.对匿名化信息有关的规定可见于第1038条,未经自然人同意不得向别人非法提供其个人信息,但是经过加工难以辨识特定个人且不能复原的除外.2021年个保法定义了匿名化与去标识化,其由标准中的技术概念,上升为法律概念.具体地,个保法强调匿名化为个人信息经过处理难以辨识特定自然人且不能复原的过程,个人信息不包括匿名化处理后的信息,隐含了数据控制者可不经数据主体同意对数据进行处理的涵义;而经过去标识化的个人信息,借助额外信息能够辨识到特定自然人,需遵守个保法的各项规定.
图 8 我国匿名化相关的判定
4 对我国个人信息保护的法律思索
从上可知,我国个保法对匿名化、去标识化的诠释较为扼要,在实践中结合不同的场景可能有不同的解释,故须要具备更广泛的适用性.在技术上,去标识化可结合去标识化手册对具体数据集做出相应操作,并参照其中风险评估方式考评去标识化的具体疗效,落地可操作性较强.但对于匿名化而言,我国目前仍未有匿名化相关的技术手册、评估标准,实践中亦未有人能明晰自身处理后的数据为匿名化数据,若无法挺好地结合实际,规范恐将沦为一个空洞且无意义的概念.故将现有的法律法规、标准结合欧美对于匿名化一类概念的相关规定以及实践中可能碰到的问题,提出如下观点,以兹参考.
4.1定级方面
分级评估规范将去标识化的疗效分为4级,但未明晰说明哪一个级别或则达到何种程度疗效的数据为匿名化数据,或者可在那个范围使用的去标识化数据,从规范到实践有一定的跨径.例如:分级评估规范中的4级聚合数据仅具有统计概念上的意义,符合个保法对匿名化定义的内涵.
4.2定量分析方面
分级评估规范是以“重标示机率”来定义风险,但必须明晰的是“重标示”只是数据风险的其中一个维度,通过定量分析下来重标示机率高的数据集并不能完全代表数据集的其他风险就高.比如:完全公开共享数据,除非数据集足够大、等价类足够多,否则在该估算方式下总体风险值为1(数值越大风险越高).但从数据敏感程度的角度来看,被完全公开的数据集(合法合规的前提下),一般是风险极低的非敏感数据.故分级评估规范评估出的重标示风险与数据实质上面临的风险考虑上应该有所区别.
4.3对于密码学技术去标识化的认识
无论是在欧共体关于匿名技术的意见中还是在我国的去标识化手册中都有提到密码学相关技术,对于密码学技术的考虑局限于用其对标识符进行加密处理,只要秘钥没删掉,个人信息就可以被“重新辨识”.去标识化手册觉得其不可能增加隔离风险、关联风险、推导风险与可分辨风险.上述认识具有一定局限性,因为在密码学技术中,在安全性假定创立的前提下其安全性具有严谨的物理证明.只要符合基于其安全性假定构建的安全模型,隔离、关联与推论风险对于密码技术来说在所有“合理可能”(攻击者的能力,如有效时间和估算能力)的情况下是可忽视的,除非攻击者付出“不合理的努力”(违法功击服务器)才会发生,即在“合理可能”的情况下该风险近乎于0,符合匿名化的要求.
4.4关于“合理可能”的考虑
欧盟觉得匿名化应该考虑重辨识所需的具体手段,特别是施行这种手段的成本和技术,评估对匿名化付出的努力和成本.我国的相关规定则不具备这方面的考虑,是一种较为绝对的规定形式.
4.5关于“可操作性”的考虑
美国的相关规定则是将规定中的标识符删掉或置换即可达到相应标准,从技术上看是一种较为“简单粗鲁”的保障方法,但是操作方法较为简便,评估也具备可行性,其关键在于对管理的要求较高,包括对于违背规则所造成个人或群体利益损坏时的追责机制完善.
4.6对于“识别主体”的考虑
目前个保法对匿名化与去标识化的定义中未有对“无法辨识到特定个人”的“识别主体”作出相应规定,但在实际业务场景中,对个人信息的保护考虑可能是“第四人”不可辨识出特定个人,而对数据发送和接收方则是借助管理的手段保障个人信息安全.
4.7对于数据处理全流程活动的考虑
去标识化考虑的模式是单方采集、享有、处理的数据,要对外发送时,用消除可辨识出特定自然人标签的形式来保障个人信息不被泄漏.但目前市场上对数据多方融合的需求早已步入深水区,对于数据中存在的个人信息保护早已可以贯串数据处理的全流程活动,而无需将其限定在数据处理的起点.
5 基于多方估算数据交易所场景下的匿名化认定
在搞清我国匿名化、去标识化相关概念与实践中,近年来我国隐私估算技术的发展也为数据流通创造了新的可能性.本文在自主可控的多方估算(multi-party computation, MPC)应用可能存在问题的基础上,选取大数据交易所为例,对在采用MPC的特定场景下匿名化的认定进行剖析.MPC是一种基于多方数据协同完成估算目标,实现除估算结果及其可推论出的信息之外不泄漏各方隐私数据的密码技术.计算因子是基于多方估算输入数据形成的数据,包括输入因子、输出因子和中间因子.输入因子是指数据提供方执行数据输入过程后可供估算方执行后续估算的数据;输出因子是指估算方执行估算后,返回给结果使用方用以恢复最终估算结果的数据;中间因子指计算方中间估算过程中形成的数据.数据交易所基于MPC的数据交易平台,可实现数据的安全交易,降低因数据交易引起的个人信息外泄的风险.
5.1数据交易的参与主体
1)每个须要作数据共享的部门或单位都是数据提供方,如图9的数据提供方1与数据提供方2.在每位数据提供方布署数据接入模块,对应图中的“MPC数据输入处理”,用于实现数据的密文接入.2)数据交易平台是计算方,主要提供算力,监督数据交易过程.3)结果获得方通常也是数据的实际需求方.
图 9 基于MPC的数据交易平台匿名化的认定
5.2数据交易的流程
1)数据提供方提供数据目录;2)数据需求方查看数据目录,根据自身需求与数据交易所签订合约;3)数据提供方初审所需数据及算法后,将数据通过MPC数据输入处理后产生估算因子,将估算因子传输至数据交易平台;4)数据交易平台对接入的估算因子依照合约中的算法进行估算;5)数据交易平台将估算后的结果发送至数据需求方(结果获得方).
5.3数据交易的管理
数据提供方对算法进行初审,只有初审通过后,数据需求方能够正常使用该算法.数据交易平台基于区块链等技术搭建的应用,负责数据资源目录管理、数据合约签署和执行以及数据安全融合流程存证等功能,建立多方可见且不可篡改的存证体系,支持问题追溯和审计需求.
5.4数据交易中匿名化数据的认定
1)输入因子,不增加数据的可用性,其他方只有在获得所有输入因子时才可能恢复、识别出原始数据集中的特定自然人,可以说每位独立的输入因子完全符合匿名化的相关规定;2)输入因子在数据交易平台集中估算,可能被视为“加密数据与秘钥结合”,导致不再被视为“匿名化”,但估算场所是一个可监管的环境,通过严格的管理约束,按照估算合约限制的范围完成估算,基本不存在泄漏特定个人数据的风险;3)数据交易平台输出的输出因子仍然是加密数据,符合匿名化的相关规定;4)输出因子传输至估算结果获得方,通过MPC数据输出处理(解密),从而获得“计算结果”,其通常为一个不具备任何可辨识出特定自然人可能性的“模型”或者符合“聚合数据”特征的数据.“聚合数据”在分级评估规范被定为第4级, 虽然目前该级别数据仍未被认定为匿名化数据,但依照其“不可重辨识出特定个人”的特点,可觉得其符合匿名化的相关规定.
5.5数据交易需考虑的风险点
1)计算因子仅在符合安全性假定的前提下,可视为完全消除“隔离”“关联”“推断”风险,即不存在被辨识出的可能性;2)计算因子的“匿名化”保证,需结合管理上的举措,对算法用途的初审,保证数据有限的用途,且不可用于辨识出特定个人.
6 结论与建议
6.1法律法规与标准的制订应该考虑技术进步及其应用场景
去标识化是一种通过对标识符处理来达到不可辨识具体个人疗效的技术,较少考虑数据在具体场景应用上的问题,也忽视了技术进步在法律法规中的融合实践.因为信息技术的快速发展,如果对相关法令的运用解释过度制式化、僵化,亦可能导致产业创新的制约.应当考虑具体化、匿名化与加工信息流程的关系,并保持弹性以应对各类可能场景的个案问题.
6.2对于匿名化的“合理保证”与“重新被辨识”的标准
匿名化应该是一种“合理保证”而不是“绝对保证”,法律法规与标准的制订应该考虑可操作性,以在实践中更好地应用.应适当考虑“重新被辨识”的标准是一种合理的可能性,并构建数据责任人自证其管理完备且已尽到合理可能范围内最大努力的机制.目前对于匿名化的疗效未有相应的标准,分级评估规范完善了去标识化后的数据集的评价机制,但对应级别是什么样类型的数据却未有明示.
6.3关于数据处理的全流程活动与重新辨识的主体
目前所有去标识化的技术都是“单方”“本地处理”,新的技术应用形式“多方融合”与数据处理的全流程活动却没有被考虑.去标识化与匿名化考虑的是单方采集、享有、处理的数据,要对外发送时,用消除可辨识出特定自然人标识符的形式来保障个人信息不被泄漏,是一种静态的、基于数据接收方取得的是明文数据集的思路.采用类似MPC的技术早已可以对数据中存在的个人信息保护贯串数据处理的全流程活动,通过对数据使用的限制做到数据接收方不能滥用个人信息.同时,可由6.2节对数据交易所的场景示例得悉,在数据交易的关键节点,数据符合“匿名化”相关规定;有被“重新辨识”可能性的数据交易节点,被严格监管.
6.4管理机制对于个人信息保护的重要性
匿名化不能只考虑技术,随着法律法规的逐渐建立,数据处理的管理机制对于个人信息保护至关重要.借鉴国外的规定,认识管理手段对个人信息保护的重要性,制定技术保护举措与管理规定,禁止重新辨识到特定自然人.需充分认识到:1)数据泄漏或滥用导致风险的本质是数据控制者对数据的“用途”与“用量”失去控制,而在基于MPC的数据交易平台是对数据“用途”与“用量”的交易,是一种从源头上控制风险的手段.2)在基于MPC的数据交易平台的数据交易中,应当防范的是借助多次估算重新辨识出特定个人及其相关信息的行为.因此对数据的监管应重点关注对估算用途的监管,而不能仅逗留在对数据集标识符去标识化处理的疗效及其测度本身.在基于MPC的数据交易平台中,平台监督数据交易的全过程、审核估算合约中的算法、对交易过程进行存证,是一种事前初审+事中存证+事后审计的管理模式.
6.5保障畅通的维权渠道保护个人信息
去标识化与匿名化的规定是一种风险防范的思维,为了更好地保障个人信息主体的各项权益,还应该建立侵权责任的相关规定,并且通畅个人维护自身权益的渠道.以数据交易所的场景为例,参与数据交易的主体与交易所应积极地、谨慎地采取有效举措确保信息安全,防止个人信息窃取与滥用.除了数据安全法中对数据交易中介所需遵守的相关规定外,若数据交易导致有关个人信息外泄、滥用等问题,应当采取过失责任推定,即参与数据交易的主体、交易所不能自证无过失的情况下,推定其对个人信息的泄漏、滥用有过失,应承担赔付损害的民事责任,以更好地保护个人的权益,平衡数据交易参与各方的权益.
6.6对于特定行业应用的考虑
日本的次世代医疗基盘法立法移除了现行个人信息保护法对借助医疗大数据引起的障碍,让各诊所、医疗机关的个人医疗信息互相串联流通,有助于医疗领域能更灵活借助医疗数据作多目的研究与创新.我国刑法修正案九提出非法转让和提供个人信息罪,绝对严禁个人信息的交易行为.但必须明晰,排除一切个人信息有关数据的商业化应用,对于数字经济而言将会是毁灭性的严打.同样以数据交易为例,交易的“价值”所在是数据“用途”与“用量”,并不是富含个人隐私的“个人信息”本身,出于推动数据流通的考虑,建议阐述对特定行业应用个人信息制订相关豁免条款的可行性.
6.7结语
2021年8月20日个保法即将通过,其中匿名化处理后的信息不再是个人信息,此概念饱受数据相关从业人士关注.从个保法条文看来,可理解为匿名信息由数据控制者(企业)原始取得,但处理后的疗效与边界仍有待进一步明晰,以更好地界定数据流通过程中的“权责利”.当前基于大数据剖析、人工智能的发展,推动了海量数据的凝聚融合,考虑到法律落地与未来执法的可操作性,“匿名化”的实现路径应该是法律、标准、技术、管理与疗效评估的结合.本文借鉴欧美匿名化相关规定、技术可操作性,结合基于多方估算的数据交易所的场景,旨在提出一种可行的匿名化认定方法,对个保法中匿名化落地提出相关建议.
参考文献
[1] National Institute of Standards and Technology. De-Identification of Personal Information [R]. 2015. [2] 金涛,谢安明,陈星,等. GB/T 37964-2019信息安全技术 个人信息去标识化手册[S].北京:中国标准出版社,2019[3] 金涛,王建民,周晨炜,等.信息安全技术 个人信息去标识化疗效分级评估规范(征求意见稿)[S/OL]. 2021. 国家标准计划 - 全国标准信息公共服务平台 (samr.gov.cn) [4] JR/T 0196-2020多方安全估算金融应用技术规范 [S/OL]. 2020. [5] Yao, Andrew C. Protocols for Secure Computations [C]. Proceedings of the 23rd Annual Association for Computing Machinery Symposium on Theory of Computing,1982:160-164.[6] 李黎. 个人信息概念的反省:以“识别”要件为中心[J]. 信息安全研究, 2021, 7(8): 754-762.[7] 谷勇浩 郭振洋 刘威歆. 匿名化隐私保护技术性能评估方式研究[J]. 信息安全研究, 2019, 5(4): 293-297.[8] 李俊 柴海新. 生物特点辨识隐私保护研究[J]. 信息安全研究, 2020, 6(7): 589-601