发表在第八卷第九期(2022年):9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/34472,首次出版
开放获取健康和人口监测系统数据研究参与者的隐私:数据匿名化的需求分析

开放获取健康和人口监测系统数据研究参与者的隐私:数据匿名化的需求分析

开放获取健康和人口监测系统数据研究参与者的隐私:数据匿名化的需求分析

原始论文

1苏黎世应用科学大学数据分析与过程设计研究所,瑞士温特图尔

2马拉维利隆圭伦敦卫生和热带医学院人口健康系

3.特里尔大学经济和社会统计,特里尔,德国

*所有作者贡献相同

通讯作者:

马蒂亚斯·坦普尔博士

数据分析与工艺设计研究所“,

苏黎世应用科学大学

Rosenstrasse 3

温特图尔,8404

瑞士

电话:41 793221578

电子邮件:matthias.templ@zhaw.ch


背景:数据匿名化和数据共享已成为全球个人、组织和国家的热门话题。只要可以保留数据的效用,并且可以将泄露的风险控制在可接受的水平以下,对包含个人敏感信息的匿名数据进行开放访问共享是最有意义的。在这种情况下,研究人员可以不受访问限制地使用数据。

摘要目的:本研究旨在强调共享健康监视事件历史数据的要求和可能的解决方案。挑战在于对多个事件日期和时变变量进行匿名化。

方法:提出了一种将噪声添加到事件日期的顺序方法。这种方法维护事件顺序并保留事件之间的平均时间。此外,提出了一种基于噪声邻居距离的匹配方法来估计风险。对于随时间变化的关键变量,如教育水平或职业,我们提出了两个建议:一个是基于限制个人的中间状态,另一个是在数据子集中实现k-匿名。所提出的方法应用于Karonga健康和人口监测系统(HDSS)核心居住数据集,该数据集包含1995年至2016年底的纵向数据,包括280,381个具有时变社会经济变量和人口信息的事件。

结果:一个匿名版本的事件历史数据,包括个人随时间的纵向信息,具有很高的数据效用。

结论:应用于HDSS数据的由静态变量和时变变量组成的事件历史数据的拟议匿名化导致了可接受的披露风险、保留效用和可作为公共使用数据共享。结果发现,即使在核心事件日期中添加了最高水平的噪音,也能实现很高的效用。细节对于确保一致性或可信度很重要。重要的是,本文提出的序列噪声加法方法不仅保持了原始数据中记录的事件顺序,而且保持了事件之间的时间。我们提出了一种方法,它很好地保留了数据效用,但限制了时变变量的响应类别的数量。此外,使用基于距离的邻居匹配,我们模拟了在吵闹的邻居情况下的攻击,并使用最坏的情况,其中攻击者拥有原始数据的全部信息。我们表明,即使假设攻击者的数据库和信息是最优的,泄露风险也非常低。在低收入和中等收入国家环境中的HDSS和医学科学研究界将是本文提出的结果和方法的主要受益者;然而,这些结果对于任何研究匿名纵向事件历史数据的人来说都是有用的,这些数据具有时变变量,用于共享。

JMIR公共卫生监测2022;8(9):e34472

doi: 10.2196/34472

关键字



背景

虽然卫生研究数据共享有许多好处和巨大价值[12,其中一个主要问题是保护研究参与者的隐私。数据共享和隐私保护的基本原理得到了广泛认可。在医学研究领域,隐私问题是良好道德实践的核心。数据匿名化提供了一个机会,可以缓解共享数据和保护数据共享者隐私之间的紧张关系。然而,通常不清楚如何在不损害数据集中包含的个人隐私的情况下共享数据。

个人数据披露的一个基本问题是,如果提供了数据或分析结果或做出了预测,攻击者是否可以了解到有关个人的任何信息。一方面,人们可以询问攻击者是否能够成功地将个人与他们所支配的数据匹配起来。此外,攻击者的努力(和相关成本)是否高于披露信息的收益?另一方面,数据用户的需求具有很高的实用性,可以进行高质量的分析。数据提供者希望在不披露数据中个人身份的情况下提供此类信息。

与所有其他卫生研究领域类似,低收入和中等收入国家(LMIC)的纵向人口研究,如卫生和人口监测系统(HDSS) [3.],面对如何在数据共享和隐私保护之间找到平衡的挑战。

HDSS必须采取一种立场,允许研究资助者和期刊出版商所要求的共享[24]同时最大限度地降低泄露个人数据供研究之用的隐私的风险。

然而,健康数据隐私这一重要问题在中低收入和中等收入国家中普遍没有得到充分探讨,在高传染性疾病国家中更是如此。hdss目前在大多数情况下共享数据,除了屏蔽直接标识符之外,没有对数据进行匿名化[5].攻击者可能会使用间接标识符,如教育水平、性别和年龄——在这些信息是共享的情况下[6-确定参与者的身份,从而确定他们的健康状况,他们不打算在他们参与的研究范围之外分享这些信息。这种风险的程度在HDSS数据集中没有得到充分探讨,因此,没有采取任何措施来减轻这些风险;也就是说,据我们所知,在关于健康、统计和隐私的文献中还没有提到这一点。

请注意,对于某些选定的数据集和一般的匿名化问题,世界银行集团、PARIS21和经济合作与发展组织以及国际家庭调查网络支持了匿名化软件sdcMicro的开发[7],他们都推荐[8].sdcMicro被许多组织积极使用,包括统计机构[9]以及社会和政治科学[10]致联合国难民事务高级专员[11]和健康[12-14].然而,有必要证明使用该软件是为了满足中低收入国家纵向人口健康数据产生的特定需求。

纵向数据包括同一参与者在多个时间点观察和测量的不同属性的记录。现有的理论和软件只适用于匿名化和评估横截面数据的披露风险。为了量化和控制纵向数据的披露风险,需要对这一理论进行扩展。

Karonga hds

HDSS是在纵向基础上从确定的地理区域内的确定人口中收集人口、健康风险、暴露和结果数据的实地和计算程序的组合[3.15].建立HDSSs是为了监测开放或动态的人群队列,建立该人群随时间变化的纵向数据库[15].大量文献研究了HDSS的各个方面,包括在LMIC建立HDSS的理由[3.15]、HDSS核心概念和过程的定义[516],以及参考数据模型[17等等。用于说明的数据集来自马拉维的一个HDSS, Karonga HDSS。此HDSS已在其他地方详细描述[18].简而言之,它的监测点位于马拉维北部农村,从2002年首次人口普查到2004年一直在运行。Karonga HDSS包含来自研究人群的纵向关联健康数据。

Karonga HDSS是马拉维流行病学和干预研究单位合作研究项目的一部分[19].

HDSS核心驻留数据

我们基于此数据匿名化需求分析的通用数据集结构采用核心居住数据格式。该标准数据集广泛应用于HDSS中,用于数据共享和分析[19].此数据集的扩展版本足够全面,可以涵盖在匿名化HDSS事件历史数据时需要考虑的事项。该数据集主要包括受监视的每个个体的核心HDSS事件以及与该个体和核心事件相关的属性。事件以特定的顺序发生,该顺序定义了研究人群的进入或退出。任何个人的第一个事件是以下之一:基线人口普查、出生或移民。最后一个事件是下列事件之一:外迁、死亡或观察(审查)的结束。对任何个体观察到的中间事件都必须是合乎逻辑的;例如,在监视区域内出生的个体不能将“迁入”作为下一个事件。核心事件改变个人的居住状态,从而改变数据集的名称,即核心居住数据[20.].

核心驻地数据的基本形式包括以下变量:个人标识符、出生日期、性别、核心事件和事件日期。此表格包含了计算高密度脊髓炎人群的人口比率和进行事件历史分析所需的分子和人年监测(暴露)的所有数据。

这个基本形式可以扩展到捕捉HDSS总体内的其他观测。这些措施可能包括通过区分监测区内的移徙(内部)和移徙到或从监测区外移徙(外部)来分解移徙事件,以及列入随时间变化的属性,如教育水平、职业和特定疾病状况(如艾滋病毒和结核病)。

为了详细说明匿名化要求,我们区分了可以进入这些HDSS核心驻留数据的三个变量组:

  1. 静态变量:对个体的观察不随时间变化的变量,如性别和出生日期。
  2. 状态(时变)变量:这些变量是对个体的观察随时间而变化的变量,如职业或教育水平。
  3. 核心事件变量:在这些变量中,观察结果是特定于事件的。观测到的事件和事件日期属于这一类。

我们的方法调查了这3组变量的匿名化要求。

Karonga居住数据

该数据集中的变量与iSHARE数据存储库中公开的Karonga HDSS核心居住数据集中的变量有很大的重叠[21].本研究中使用的扩展版本除了在Karonga核心居住文件中发现的状态变量外,还有关于职业和教育水平的状态变量。

该数据集包含从1995年10月到2016年底记录的信息,包括14个变量,280,381行(事件),以及自HDSS成立以来观测到的72,935个个体。

本研究数据集的主要变量如下:

  • 静态变量:性别
  • 状态变量:职业类别不工作,学生,非熟练手工,农民,渔民,熟练手工,非手工,小商贩或企业,非熟练手工,熟练手工,非手工,专业;无类别教育,1至3年小学,4至7年小学,完成小学,完成初级教育证书,完成马拉维学校教育证书,和高等教育
  • 核心事件变量:基线日期、出生日期、迁入、迁出和死亡日期的事件代码
  • 家庭身份证,母亲身份证,父亲身份证,一夫多妻身份证

客观的

为了填补这一空白,我们提出了一组匿名化HDSS纵向数据的要求。我们的建议定制并应用了传统的方法,这些方法在保持数据质量尽可能高的前提下工作,同时稍微改变数据,直到披露风险低于固定阈值。本研究的主要贡献如下:

  • 我们定义了纵向事件历史数据特有的匿名化要求。
  • 我们建议采取措施来满足这些要求,包括评估和控制静态变量和时变变量以及核心事件日期的披露风险。
  • 我们实施了建议的步骤并展示了结果。
  • 我们将我们的建议放在数据匿名化方法的大背景下,概述了我们的选择方法与LMIC HDSS背景下的替代方法的对比。

在本节中,我们将概述匿名化HDSS核心驻留数据的方法和过程。

不同的概念,不同的需求

我们通过稍微修改数据,直到披露风险低于某个阈值,从而尽可能保持高数据质量的方法不是单独的,而是更广泛的数据匿名化方法生态系统的一部分。我们简要回顾了这个生态系统,并强调匿名化方法的选择在很大程度上取决于用户组的需求和实现解决方案的成本。在讨论它们对共享HDSS数据的适用性之前,我们简要地概述了4个重要的匿名化概念。它们按数据分析潜力的升序排列如下:隐私保护计算、合成数据、安全实验室和本研究中使用的方法(使用统计披露控制方法的匿名个人级数据[SDC])。使用隐私保护计算,数据保留在数据所有者一方。这可以扩展到具有多个客户端(数据持有者)的安全多方计算。两种常用的隐私保护计算方法是差分隐私[22]和使用教师集体私有聚合的联邦学习[23].然而,正如Domingo-Ferrer等人的研究所强调的那样,存在一些局限性[24],弗朗西斯等[25],班鲍尔等[26].此外,用户必须相信预测,而不评估模型和模型背后的数据。提供匿名数据的另一种方法是生成与原始数据具有相同特征的合成数据[27],通常使用机器学习和统计建模方法。合成数据通常披露性很低,但当原始数据具有复杂结构时,其数据效用也相对较低[6].合成数据还可以在远程执行环境中使用,在这种环境中,注册的研究人员对合成数据进行处理,以开发分析代码,数据持有者的工作人员最终在原始数据上运行代码。最终分析结果由实验室工作人员进行隐私检查,因为这种检查很难完全自动化[28-30.].

使用替代概念的困难

对于HDSS数据,使用保护隐私的计算意味着首先建立一个框架来计算隐私,对于已知用户(测试数据),基于机器学习预测方法为有意义的信息(例如,迁移日期或人的健康状况)提供一个预测值。很明显,这些方法在为复杂的纵向数据集提供良好的预测方面存在一些困难。保护隐私的计算方法也不是LMIC健康和生存数据的可持续选择,因为成本高,用户需要详细的数据,而不是简单地接收敏感信息的预测或处理汇总数据。合成的、接近现实的数据有可能成为一种可行的方法;然而,来自HDSS的纵向事件历史数据的复杂性使得它难以充分地建模和表示所有关系和逻辑条件。对安全实验室的远程访问提供了处理真实数据的优势,但只能提供对少数可信研究人员的访问,并且需要长期工作人员执行输出检查,以确保服务器上的软件是最新的,服务器和访问是安全的。

SDC方法

基于这些原因,SDC方法是最合适的。SDC的核心概念包括转换数据,以减少数据中所代表的人员的再识别风险。更准确地说,SDC的目标是一方面将风险降低到预定义阈值以下的水平,另一方面保持数据质量、分析潜力和研究问题。这是一项复杂的任务,需要应用和开发复杂的方法,在我们的具体情况下,还需要了解特定的健康人口数据集。

数据发布类型:公共使用与科学使用文件

根据资助者的鼓励,降低数据获取的障碍[2],并为推行可持续的数据共享模式,透过共享所谓的公用文件,公开数据[31将是共享HDSS数据的典型机制。公共使用文件要求潜在用户同意使用条款,然后在不寻求数据保管人批准的情况下访问数据。这样做的一个原因是节约资源的数据发布和分发。一旦分发,就不需要像远程执行和远程访问解决方案那样,进行进一步的劳动密集型步骤。下一个级别将是科学使用文件[31].这需要潜在用户通过数据访问团队的审查过程,以确认他们是来自信誉良好的机构的真正研究人员。这种共享要求保管人留出工作人员的时间来审查数据访问应用程序,准备共享数据,定制共享数据以适应要求,并与研究人员沟通和监督。这些对工作人员时间的要求是次优的,因为它们将占用工作人员的日常工作,而且在低收入和中等收入国家的医学科学研究项目中很少得到足够的资助。

Pseudoanonymization

在伪匿名化中,一个字符串——一个人的确切姓名或任何其他直接识别特征(例如,社会安全号码)——被一个假名所取代,通常是一个256位的哈希码,由加密哈希函数从一个加盐的字符串[3233].iSHARE数据存储库上HDSS核心驻留数据的伪匿名化是以一种简化的方式执行的。为每个人分配一个升序ID,而不是列出动态HDSS数据库中使用的姓名或标识符。请注意,随着越来越多具有复杂相互关系的数据通过平台共享,例如来自研究实体的共享人口信息实施网络(INSPIRE)数据,更精细的伪匿名化将变得必要。然而,伪匿名化并不能解决数据保护问题,因为它只能防止对直接标识符的攻击。

识别关键变量——披露场景

这里的关键问题是,攻击者可以访问哪些信息,以便与将要发布的数据相匹配,从而识别个人?在识别关键变量(通常也称为准标识符)之前,要检查潜在攻击者可以访问哪些其他现有数据,并使用它们链接到当前数据并识别个人。这被称为(存档)披露场景[34].现有数据可能包括人口普查、选民名册、人口调查或政府部门和国家统计局持有的行政数据。在大多数中低收入国家,可供广泛访问的数据集不多,因此,这应该不是一个大问题。

最大的挑战可能是攻击者对正在发布的数据中有关个人的一些信息有额外的了解。这在文献中通常被称为多管闲事的邻居场景[34].攻击者可能会使用这些信息来识别个人。

一般来说,定义这些场景需要使用正在发布的数据的主题专家的输入,这些专家也知道其他常见数据。

静态变量和状态变量的匿名化方法

传统的人口数据匿名化使用唯一性的概念。通过组合几个变量(类标识符)识别关键变量——披露场景节),可以在数据中唯一地标识个人。如果一个密钥的频率为1,那么它就是唯一的,因此,只有一个人拥有该密钥定义的特征的组合。例如,关键邮政编码8404、国籍奥地利、性男性,年龄45在瑞士的人口统计数据集中是独一无二的。度量唯一性和“几乎唯一性”的一个常用概念是k-匿名性。如果每个键(即键变量的组合)至少属于一个数据集,则该数据集是k-匿名的k观察。另一种计算关键变量子集的方法被称为特殊唯一检测算法[3536].这种方法允许对关键变量子集中的唯一性进行更详细的分析和评估。

为了实现k-匿名性和较低的特殊唯一检测算法分数,第一步通常涉及对类别关键变量进行特定情况的重新编码,使其进入更广泛的类别[6].通过重新编码,可以显著降低风险。如果一些个体的风险仍然增加,进一步的重新编码将导致数据质量的过度损失,那么通常会考虑局部抑制[6].这抑制了某些值以保证,例如k-匿名。目的是在分类关键变量中找到特定的模式,并用缺失的值替换这些模式。(启发式)优化方法必须应用于寻找最小抑制模式[7].

如果分类键变量的数量很大,或者其中许多变量具有许多类别,则数据集中的键的数量很大,并且许多键将是唯一的。在这种情况下,重新编码和局部抑制将显著改变数据,以实现k-匿名。应用后随机化方法[37将是一个很好的替代方法,以重新编码和抑制所有关键变量。在PRAM中,值在具有一定转换概率的变量类别之间交换。攻击者永远无法确定一个值是真还是被交换了。

处理静态和状态变量随时间变化的人的状态

横断面数据集通常包含单个时间点的观察结果,并且匿名化方法的应用通常很简单(例如,使用tempel等人提出的指南[6])。

在以下段落中,延伸到纵向信息,特别是状态变量(例如,占领教育),对其观测值(可以)随时间变化进行了讨论。表1以简化的方式展示了使用2个人的玩具数据集的问题。可以很容易地看到,对于人1来说,随着时间的推移,教育水平和职业都有所提高。如果只考虑2010年的基线状况,两个人的教育水平和职业类别是相同的;因此,它们在数据集中不是唯一的。如果只考虑2015年,这两个人就不是唯一的。如果只考虑一个人的最新状态,考虑到职业和教育水平这两个关键变量,这两个个体在这个玩具数据集中都是唯一的。此外,如果每年都报告每种状态,那么这2个人也将是唯一的。

可以使用许多替代表示来匿名化状态变量,每种表示都有自己的优点和缺点。

如果只报告一个人的初始状态,该变量将不再被视为随时间变化的状态变量,这简化了匿名化。缺点是我们不能再看到进步,例如,一个人的职业和教育水平随着时间的推移。

如果只报告记录中某个人的第一个和最后一个状态,则必须删除两者之间的所有事件,或者用第一个阶段或最后一个状态替换。

另一个非常严格的选择是删除一个人从一年到另一年的联系;也就是说,对于每个人,每年都会提供另一个ID。然而,这使得纵向分析变得困难;因此,数据效用将受到严重影响。

后随机化可能是一种选择,尽管教育和职业水平的顺序和一致性要么丢失了,要么偏向于更高的水平。例如,随着时间的推移降低一个人的教育水平是没有道理的;因此,在PRAM中,在现实交换概率的情况下,受教育程度会随机增加而不会降低。

另一种方法是将传统的匿名化方法应用于数据的模式或子集,其中具有相同事件发生模式的个体被视为要匿名化的子集。例如,2个人在表1不要有相同的模式,因为他们有不同数量的事件。这种方法会导致潜在的过度压制,但极大地降低了披露风险。旨在分析个人随时间变化的教育和职业的研究是可能的,特别是当数据分析师将被抑制的信息归因时。

在决定其中一种或其他替代方法之前,必须考虑披露场景。攻击者将其数据库与提供的匿名数据集合并以匹配和识别个人的可能性有多大?邻居多管闲事的可能性有多大?有多大?

对于存档场景,对攻击者的知识做以下假设:

  • 攻击者只知道一个人最近的教育状态,假设攻击者的数据库或多或少是一个最新的档案,包含用于匹配的人的当前教育水平。这里忽略了攻击者可以获取个人的历史社会人口状况数据。
  • 攻击者只知道最后的职业状态,前提是攻击者的数据库或多或少是一个包含用于匹配的人的当前职业的最新存档。
  • 攻击者知道性别和出生日期等静态变量。
  • 攻击者不知道迁移的原因,但知道出生日期、开始日期和停止日期。

对于一个爱管闲事的邻居场景,我们对攻击者的知识做了以下假设:

  • 随着时间的推移,攻击者知道一个人的教育(不断变化的状态),假设攻击者对少数人的教育和职业水平的历史发展有个人知识。
  • 攻击者知道性别和出生日期等静态变量。
  • 攻击者可能知道某些个体迁入和迁出的原因和相应的事件时间,也可能知道某些个体的出生日期。

随着数据作为开放访问数据集公开,可能会出现吵闹的邻居场景,因此成为关注的焦点。因此,我们使用只报告一个人的第一次和最后一次观察到的状态的方法。这是一种解决方案,在报告一个人的状态变化时,没有他们的中间改善,而局部抑制导致低数量的抑制,因为没有报告所有阶段。

表1。玩具数据集支持对问题的简单解释,以处理状态变量上的时变信息。
人身份证 (事件) 占领 教育水平
1 2010 2 2
1 2011 2 2
1 2012 3. 2
1 2013 3. 2
1 2014 3. 2
1 2015 3. 3.
1 2016 4 3.
2 2010 2 2
2 2015 3. 3.
2 2016 3. 3.

处理事件历史记录日期

一般考虑

为了防止(精确的)记录链接和基于最近距离的邻域匹配,我们建议向事件日期添加随机噪声。一个足够明显的选择是随机增加大约100天。这将阻止攻击者成功应用记录链接,并可能阻止基于距离的匹配。

但是,必须注意确保事件的顺序得到维护。例如,如果一个人的出生日期是2009年5月15日,我们假设这个人是2009年6月5日迁出,7月6日迁入,2009年8月1日死亡,那么+40或-40天到+60或-60天的随机噪声将完全打乱事件顺序。

因此,我们需要通过添加或减去足够多的天数来修改事件数据,以便无法识别个人,尽管数据的数据效用和事件顺序被保留。更具体地说,噪声的添加必须在以下约束条件下进行:(1)必须保持事件的顺序;(2)事件之间的时间跨度应尽可能保持相同,自然地通过添加噪声来实现;(3)具有记录链接的攻击不应该成功;(4)每个人参加的活动数量应保持不变。

这导致了一种连续的方法,在一定的限制下,一个事件一个事件地为每个人添加噪声,下面的段落将更详细地解释。当然,主要参数——噪声级别——必须在特定于用例和数据集的基础上确定。

给一个事件日期添加噪音

为简单起见,公式1显示了3个事件的情况,其中为事件2的1人添加了噪声。图1显示了3个事件日期t的情况1t2, t3.,事件1和事件2之间的时间跨度(∆2、1事件2和事件3(∆3、2).

应该注意的是,扩展到每个人的任意数量的事件都是可能的,而且实现起来很简单,尽管符号变得更加复杂。

年代,一个伯努利随机值∈{- 1,1}P=.50for random addition or subtraction of the event date, and u ~ U[ɛ最小值;ɛ马克斯],它控制噪声的数量(以天为单位),一个新的(匿名的)事件日期t2用以下公式计算:

t2 = t2+ u·s,如果∆2、1马克斯∧∆3、2马克斯t2 = t2+ u,如果∆2、1≤ɛ马克斯∧∆3、2马克斯t2 = t2- u,如果∆2、1马克斯∧∆3、2≤ɛ马克斯t2 = t2- u -(∆2、1- 1),如果∆2、1马克斯∧∆3、2≤ɛ马克斯∧min(∆2、1,∆3、2) =∆2、1

这确保为t保留事件顺序1t2, t3..除第一种情况外,当事件数据之间的距离小于指定的最小噪声范围时,应用了限制。

另一种噪声加法方法是绘制u ~ N(µ,σ)2),四舍五入到下一个整数值。

图1。一个人的3个事件历史日期和事件之间相应时间跨度的概述示意图。
查看此图
按事件顺序添加噪声

将方程1扩展到一个人的所有事件是通过对一个人的每个事件连续应用噪声来实现的。首先,存储一个人的所有记录数据,记录这个人的事件数量,以及所有事件之间的距离。对于第一个事件,日期为t1随机地减去或增加噪声;更准确地说,它是没有任何限制地减去,并添加小于到第二个事件的距离。随后,对于记录的所有其他事件,在考虑当时某个事件日期的附加循环中,根据预定义的噪声级别(见信息披露风险而且数据工具节中关于噪声级别的进一步讨论)。因此,首先,对于t1,加噪声得到t1,然后对t加噪声2,考虑t可能的限制3.和t1不更改事件顺序。随后,对t添加噪声3.考虑t2和t4,...,until the last event date. Using this sequential approach, preservation of the event order is guaranteed.

如果3个连续事件彼此非常接近,可能会出现限制。如果各自噪声级的最大噪声大于t2和t3.和t3.和t4,其过程如下。若事件差值的最小值为min(∆2、1;∆3、2)大于预定义的最小噪声,则取最小噪声=最小噪声,最大噪声=∆2、1和∆3、2,分别为随机抽样。若事件差值最小值为min(∆2、1;∆3、2)小于最小噪声,则从单变量分布中采样U(0;∆2、1);∆也一样3、2在各自的采样方向上为最大或最小噪声。当(噪声<∆2、1∧噪声>∆3、2),从中绘制一个新值N(μ= 0;σ=50),直到获得有效的噪声。

此外,我们想简要地指出,有必要考虑特殊的数据结构。前面已经提到,事件历史日期不能理想地用列表示,因为每个人有不同数量的事件和不同的事件。因此,数据集中每个事件的单独行用于存储某个人的事件代码和日期;也就是说,个体在多行中表示。如果一个人是在观察期间出生的,他或她除了实际出生日期之外,还有一个事件条目。因此,如果在事件日期下没有登记出生日期,因为这个人是在数据收集之前出生的,那么在这个人的所有行中,只有一个数字被随机添加到他的出生日期。如果出生也表示为事件日期信息,则必须对包含该人出生日期的列采取相同的噪声(用于对出生时的事件日期进行噪声);也就是说,出生日期和事件出生日期的信息是联系在一起的,必须充分和一致地考虑。

结果部分,提出了为HDSS核心数据集选择的噪声级,并提供了对噪声级选择的进一步见解。

把它们放在一起

事件数据尤其重要,因为如果攻击者拥有精确的事件数据数据库,则它们是可以用于记录链接的数字信息。但是,攻击者可能只知道出生和死亡年份,然后使用此信息进行匹配。除了事件历史日期之外,还必须考虑随时间变化状态的变量。因此,教育和职业水平的变化仅限于表明第一和最后一种状态(文本框1).

对于某些研究,例如按教育水平对生育率进行的研究,需要事件日期和教育水平变化的全部历史。这也适用于各种关于个人职业水平随时间变化的研究(例如,回答受过良好教育的人是否会更快地改变职业水平的问题)。在这种情况下,可能需要事件数据的整个历史,并且必须对前面的过程进行调整,例如,如前面概述的那样,对模式进行匿名化。

把它组合在一起的步骤。

步骤1

  • 为每个人的事件日期依次添加随机噪声,如中所述处理事件历史记录日期部分。这可以防止与包含准确事件日期的外部数据库进行记录链接和最近邻居匹配,并保留事件的顺序。

步骤2

  • 聚合数据(即,从长到宽表示,其中每一行代表一个人),以便每行包含一个人的静态变量(如性别和出生日期)、最初和最近的教育程度以及最初和最近的职业信息,并构建包含一个人的出生年份、死亡年份和事件数量的新变量。

步骤3

  • 使用sdcMicro中实现的方法,使用本地抑制执行k-匿名[7]使用步骤2中提到的变量来避免唯一性,防止成功匹配。如果事件发生最早或最晚的年份或出生年份被抑制,则噪声年份和噪声事件日期也应被抑制。应该指出的是,情况并非如此,因为重要性的确定是这样的:一个人的出生年份、死亡年份和经历的事件数量是最重要的变量;因此,抑制算法使用剩余变量进行局部抑制。

步骤4

  • 分解匿名聚合数据(从宽表示到长表示,其中每一行表示一个事件)。数据集现在只包括匿名的性别信息,以及一个人最早和最新的职业和教育代码。
文本框1。把它组合在一起的步骤。

披露风险的估计

在横断面数据集中估计披露风险的理论得到了很好的实现,例如,在R包sdcMicro [67].事实上,对于调查样本数据,Franconi等的方法[38]或,例如Skinner et al [2739]可以使用,或者对于总体数据,k-匿名的概念[4041]或样本唯一性[3536].我们引入了这一理论的扩展,为量化事件历史数据的披露风险提供了一个实用的工具。

通常在匿名化中,对连续信息或分类信息匿名化的方法不同[6].此外,我们还区分了两种场景——事件日期匹配(连续测量)和对分类关键变量的攻击。

事件数据被认为是连续测量,因为在时间尺度上每个人都有多个记录。

由于已经确保了k-匿名性(步骤3),并且使用了总体数据,因此不需要量化分类关键变量的披露风险。

对于连续事件日期,提出了一种基于邻域距离的方法。邻域匹配,正如这里所介绍的,并进一步介绍和应用结果节中,假设攻击者拥有一个具有准确事件日期的数据库,该数据库表示最坏的情况。对于匿名数据集中的每个个体,使用原始文件和匿名文件中事件日期之间的欧几里得距离确定原始非匿名数据中最近的3个个体。这是通过替换来执行的,这意味着最近的邻居可以用于匹配数据集中的另一个个体。如果3个最近的邻居中有1个是正确匹配的,我们认为这个观察结果是高风险的。报告了危险观测的数量。的结果部分显示了应用程序的特定设置。


Karonga HDSS核心居住数据集的匿名化

首先,应该注意的是,数据集显然不能被分散到事件列中,因为迁移和其他事件代码可能有>1项,并且事件的数量在个体之间是不同的。这使得数据难以匿名化,因为每个人都有不同的事件,并且在不同的时间有不同数量的相同事件。

关键(识别)变量列在表2

对HDSS核心居住数据集的实验表明,一个额外的识别变量,孩子母亲的ID,父亲和家庭的ID,以及迁入和迁出的原因(原因是结婚、离婚、开始或结束工作或教育等),可能会将可能的匹配扩大到原始可能匹配或个人的大约10%。这项研究没有考虑到一夫多妻的标识。例如,Templ等人描述了处理集群信息(例如,家庭中的人)以进行(扩大的)风险估计的通常方法[6并在sdcMicro中以分层风险估计的方式实现。但是,由于在这个数据集中没有更多的家庭信息,这种方法可以忽略。这是因为家庭信息可以用来更容易地识别个人;然而,这些额外的家庭信息在我们的数据集中是不可用的。

其他社会经济或敏感变量(如健康状况)不包括在开放获取数据集中。

表2。卫生和人口监测系统核心居住数据集的关键(识别)变量。
关键变量 种类
生理性别 静态变量
出生年份 静态变量
死亡年份 静态变量
确切的活动日期 核心事件日期一个
教育 状态变量
占领 状态变量
每个人的活动数量 静态变量

一个包含所观察到的核心事件发生的日期(出生、死亡、迁入或迁出)。

事件日期的匿名化(与步骤1相关的详细信息)

根据随机原则,在出生、死亡、迁入和迁出的事件日期上随机加减抽取的天数(式1;给一个事件日期添加噪音部分)。

我们考虑了四个级别的噪声。在三种情况下,根据噪声级别,以等概率从以下间隔中为一个人的每个事件(E是一个人的事件数)绘制整数(以天为单位的噪声表示)。此外,考虑了第四种正态分布随机噪声的情况:

  1. 噪声等级1:ε最小值= 46;ε马克斯= 62
  2. 噪声等级2:ε最小值= 76;ε马克斯= 93
  3. 噪声等级3:ε最小值= 106;ε马克斯= 124
  4. 噪声4级:u ~ N(µ=0;σ= 50)

如前所述,随机噪声依次添加到出生日期、迁入和迁出日期和死亡日期,以防止记录链接和最近邻匹配,外部数据库包含确切的事件日期和性别、事件数量、出生年份、死亡年份、职业状况和教育水平等信息。

静态和状态关键变量的匿名化(详情见步骤2至3)

为了防止成功匹配,我们使用R包sdcMicro中实现的启发式方法,通过全局重新编码和局部抑制实现了3-匿名性[67].

根据出生年份、死亡年份、教育和职业状况首次发生变化的年份建立了新的变量,并与一个人的性别和事件数量一起用作关键变量。教育和职业水平的中间变化下降。然后通过使用sdcMicro中实现的方法进行局部抑制来实现k匿名性[7].如果最近事件发生的年份或出生年份被抑制,那么噪声年份和噪声事件日期也会被抑制。事件数量和出生和死亡年份被设置为最高重要性,以便tempel等中实现的(加权)局部抑制算法[7]可能不包括这些变量中缺失的值。请注意,对一个高重要性变量的一次抑制将增加对一个低重要性变量的>1抑制的效用损失(函数)(见Templ等人[7]查阅详情)。

在事件日期匿名化和状态变量匿名化之后,再次匹配数据,将其转换为原始形状。

信息披露风险

为了评估数据集是否被成功匿名化,我们量化了披露风险。它必须只报告事件日期,因为对于分类关键变量,实现了k-匿名,这满足了我们防止成功匹配的需要。

泄露风险是通过使用基于距离的匹配将原始数据集的每个个体与匿名数据的3个最近邻居进行匹配进行替换来计算的。此外,个体将与出生、死亡或迁移的年份与真实匹配年份正负同一年的个体进行匹配,这些个体分别具有相同(最终)教育、相同(最终)职业和相同性别。如果一个人由于局部抑制而缺少其中一个变量的值,那么如果其他变量满足要求,那么这个人仍然被认为是可能匹配的。

如果匹配是正确的,我们就认为攻击是成功的,可以重新识别出一个人。这意味着,如果一个人在距离最近的三个距离内,我们认为它是不安全的。假阳性匹配不被考虑在内。

表3报告所有4种情况下匿名Karonga数据集的绝对和相对披露风险(百分比),只考虑在真实匹配的出生、死亡或迁移日期的+1年或-1年范围内出生或死亡或迁移的个人作为可能的匹配。我们可以观察到,风险非常低,攻击者很难重新识别个人。请注意,泄漏风险已经基于有3个邻居的最坏情况,并假设攻击者使用原始的非匿名数据进行匹配。低风险也可以用我们选择ε来解释最小值较大:相对较大;例如,对于噪声级别1,它是46,这意味着对于每个事件,日期至少在46天内更改。然而,对于死亡和出生来说,风险会增加,因为死亡比任何其他变量都更独特。风险最高的是正常噪音。

本文提出的基于邻域的风险度量的计算时间很高,使用并行计算的实现更可取。目前,匿名化在2.60 GHz的单核Intel(R)酷睿i7-6700HQ中央处理单元(CPU)上运行了4个小时,并使用32个CPU (Intel Xeon(R) Gold 5218 CPU, 2.30 GHz)对HDSS核心驻留数据集上的所有4个噪声级别进行了8天的风险评估。

表3。计算成功匹配的个人和相对披露风险(百分比;风险个体数量除以个体数量乘以100)的匿名化Karonga数据集,基于匹配场景的所有4级噪声。
场景 出生(配对成功次数) 死亡(成功匹配的数量) IMG一个(匹配成功次数) 我的天啊b(匹配成功次数)
绝对风险

U(46, 62) 1669 177 220 394

U(76; 93) 1452 154 222 388

U(106; 124) 1271 151 178 383

N(μ= 0;σ= 50) 1513 619 197 242
相对风险(%)

U (46, 62) 2.3 5.0 0.5 0.8

U (76; 93) 2.0 4.3 0.5 0.8

U (106; 124) 1.7 4.2 0.4 0.8

N(μ= 0;σ= 50) 2.1 17.3 0.4 0.5

一个IMG:迁入。

bOMG:外迁。

实用程序

专用于某一特定领域的效用度量应始终优先于一般度量([42];例如,在sdcMicro中实现)。为了检查匿名化后的数据效用,显示了原始非匿名化和匿名化数据集的可视化比较,以及比较从原始数据和匿名化数据获得的列联表的卡方检验。

图2显示出生日期的分布从原始数据和噪声数据集。原始数据显示了1925年、1937年和1945年的数据堆积,在修改后的数据集中仍然可见。这并不奇怪,因为噪音并不太大。

2005年和2015年的两个年中人口金字塔如图所示图3.我们区分原始非匿名数据的总体金字塔和噪声水平为1到4的匿名数据。几乎没有观察到差异。

我们没有明确地进一步展示死亡、迁入和迁出日期的分布图表,因为结果与前面的数字非常相似;也就是说,在分布上没有显著差异。

表4显示个人迁入和随后迁出之间的时间跨度的汇总统计数据。它只显示出极小的差异;也就是说,所有的统计数据都保存完好。在噪声场景4(正态分布噪声)下得到了最好的结果。迁出到迁入的结果是类似的,除了迁出到迁入之间的时间。这可以通过可视化更详细地显示。

图4通过箱形图可视化迁移和后续迁移之间的时间跨度,以及迁移和迁移之间的时间跨度。x轴在对数上表示10缩放,以便更好地看到原始非匿名数据和匿名数据之间时间跨度分布的最小差异(在原始缩放中几乎看不到差异)。在迁入和迁出的时间跨度上几乎没有发现差异。

对于一个人的迁出和迁入之间的天数,在情景4(正态分布噪声)下得到了最差的结果。造成迁入和迁出差异的原因是,人们迁出后返回的时间往往比迁入后离开的时间早得多。正常噪声往往会增加连续事件的天数,如果事件之间的距离很近。

表5介绍统计检验的结果。年龄class×event code×sex×event时间类别(2000-2004年、2005-2009年、2010-2014年和2015-2020年)的交叉表是根据原始非匿名数据和匿名数据计算的。相应的细胞计数通过卡方检验相互比较。卡方检验结果(表5)表明,匿名化数据与原始数据相等的零假设永远不能被拒绝。

自然,原始数据和匿名数据之间的差异会随着噪声水平的增加而增加,这可以从所提供的所有数据效用的表格和可视化中看到。加入正态噪声(表5).然而,即使在噪声等级为3的情况下,结构也得到了很好的保存,并且在调查的所有4个噪声等级下,数据的效用都非常高。

在性别、事件数、出生年份、死亡年份等教育和职业状态变量的匿名化中,对一些值进行了抑制以达到3-匿名(表6).最高数量的抑制出现在可变教育结束(一个人的最后教育状态),大约0.64%(3735/583,480)的抑制。总体而言,0.14%(808/583,480)的值被抑制。

对于静态变量和状态变量,最重要的信息之一可能是职业和教育的最后状态。图5显示相应列联表的频率。差异很小,通过视觉比较无法检测到。对于其他表格更是如此。

图2。原始数据集和匿名数据集的出生日期的分布,根据噪声级别1、2、3和4。
查看此图
图3。根据男性(左柱)和女性(右柱)的噪声水平1、2、3和4,2005年和2015年年中原始和匿名数据的人口和年龄结构的金字塔。
查看此图
表4。在噪音等级为1至4的情况下,一个人在迁入和随后迁出之间的天数统计摘要。
场景 值(最小最大) 值,平均值(SD) <100天(%)
(0, 0)(原始) (0 - 5909) 862.05 (714) 2.2
U (46, 62) (0 - 5805) 846.67 (716) 3.4
U (76; 93) (0 - 5832) 839.25 (717) 4.4
U (106; 124) (0 - 5906) 831.30 (720) 5.5
N(μ= 0;σ= 50) (0 - 5859) 862.58 (716) 2.9
图4。原始数据集的入迁和随后的出迁以及出迁到随后的入迁之间的时间跨度(以log10为单位),对于匿名数据集,按噪声级别1、2、3和4划分。关于向外移徙和向外移徙向内移徙,只分别考虑向内移徙或向外移徙的个人。
查看此图
表5所示。使用卡方检验比较匿名数据和原始数据的4维列联表。
统计数据 U (46, 62) U (76; 93) U (106; 124) N(μ= 0;σ= 50)
检验统计量 46.08 73.58 121.39 37.52
临界值 237.24 237.24 237.24 237.24
P价值 获得 获得 获得 获得
表6所示。每个变量的抑制百分比和每个变量的总抑制数。
抑制 基础教育 基本的职业 结束教育 结束占领 事件数量 出生年份 死亡年份
一种(%) 0.03 0.22 0.07 0.64 0.13 0.02 0 0
总方案 23 160 53 465 94 13 0 0
图5。原始数据集和匿名数据集中个人最新教育程度和最新职业状况的相对频率。
查看此图

主要研究结果

提供公开数据(公共使用文件)是HDSS数据共享的典型机制,这与出资方的[2]呼吁降低数据访问障碍,并有利于实施可持续的数据共享模式。然而,与用于科学目的的访问限制和合同文件相比,需要更严格的匿名化。

匿名化HDSS数据是一项挑战,而且没有易于应用的解决方案。细节是确保一致性或可信度的关键,背景知识是成功实施的关键。本文提出的方法在几个方面都是新颖的。这是第一次采用系统方法来确定LMIC HDSS研究的居住数据或在这些环境中产生的任何其他纵向数据的匿名化要求。以前,HDSS数据的匿名化是在临时的基础上执行的。我们将变量分为静态变量、状态(时变)变量和特定于核心事件的变量,并处理了与这些组中的变量相关的匿名化。

我们实现了一个匿名数据集,具有非常低的披露风险和很高的效用,可以作为公共使用的数据文件共享。

使用基于距离的邻居匹配,我们模拟了在吵闹邻居情况下的攻击,并使用了最坏的情况,其中攻击者拥有原始数据的全部信息。我们表明,即使假设最坏的情况,披露的风险也非常低。

我们明确定义了一个匿名化核心事件日期的过程,作为HDSS事件历史数据匿名化的主要部分。不同级别的噪声添加到事件历史日期评估披露风险和数据效用。研究发现,即使噪音达到最高水平,也能保持较高的效用。与原始数据相比,保留了事件数据的顺序、时间跨度和事件数量等基本属性。从事件历史日期的应用程序和匿名化可以看出,噪声水平和数据效用的损失可能会相互平衡。因此,建议使用中等水平的噪声来保持数据的属性和有用性。此外,保留事件之间的时间间隔对于成功实现这种匿名化方法很重要。如果间隔过小,算法也会自动降低增加的噪声。

此外,我们的工作还探讨了可以在何种程度上使用sdcMicro等方法或工具,以及纵向数据的哪些方面。这些工具的指南侧重于横断面数据,因此不会自然地对每个人的多个记录进行匿名化,而我们使用的Karonga HDSS核心居住数据就是这种情况。在这方面,我们转换了教育水平和职业、死亡年份、出生年份和个人活动次数等时变变量,然后将它们放入sdcMicro R包中。这种转换包括限制个体在时变变量中随时间变化的转换次数。这种策略很好地保留了数据效用,尽管提供的细节少于原始数据。

在中低收入国家环境下的HDSS和医学科学研究界将是本文提出的结果和方法的主要受益者;然而,这些结果对于任何研究匿名纵向数据集的人都是有用的,可能包括时变信息和具有时变变量的事件历史数据,以用于共享。如果添加了更敏感的变量,如医疗条件,也应该检查l-多样性。另外,PRAM [37]应该适用于医疗条件。

未来的工作

提出的将状态变量的值范围合并为基线值和最终值的方法对于某些分析可能不是最优的。这是数据匿名化的现实之一;它几乎总是产生比原始数据效用更低的数据。需要进一步研究状态变量的替代处理方法,以确定时变变量中转换的最佳处理方法。

泄露风险是基于3个基于最近邻居距离的匹配来计算的。这种匹配策略已经相当复杂,包括前面描述的一些约束,以及处理缺失值。然而,其他匹配策略是可能的,专门的记录链接软件[43也可以考虑。

还需要进一步的工作来确定核心事件日期的适当偏移量。为了确定这一点,从参与者那里收集数据来估计需要什么才能充分抵消日期,以便潜在的爱管闲事的邻居即使在很少发生迁入等事件的情况下也无法做出猜测,这可能是很重要的。

当然,并非所有数据集都具有与这里使用的HDSS驻留数据集完全相同的结构。来自HDSS设置的其他纵向数据集,例如从结核病发作或性伙伴发作的观察中产生的数据集,可能包含我们在这里的方法没有完全满足的特征。这些问题需要进一步探讨。

致谢

CK和MT的工作得到了瑞士促进机构卫生伙伴关系网络的启动赠款的支持。关于这项资助的访谈和有关该项目的进一步细节可在德文、英文和法文中找到[44].作者特别感谢伯尔尼大学的Dörte Petit和Judith Safford对这个项目的支持。

马拉维流行病学和干预研究单位(MEIRU)和苏黎世应用科学大学(ZHAW)在这个项目上贡献了CK和MT的一些时间,使他们能够充分探索研究合作和用于匿名化的方法。

作者还感谢研究参与者和iSHARE团队提供了一个共享健康和人口监测系统数据的平台。

利益冲突

没有宣布。

  1. 李志强,李志强,张志强,等。在开放数据之外:实现数据共享的健康效益。英国医学杂志2016 10月10日;355:i5295 [免费全文] [CrossRef] [Medline
  2. 沃波特,布雷斯特,P.分享研究数据以改善公众健康。柳叶刀2011年2月12日;377(9765):537-539。[CrossRef] [Medline
  3. Sankoh O, Byass P. INDEPTH网络:填补全球流行病学的重要空白。国际流行病学杂志2012 Jun;41(3):579-588 [免费全文] [CrossRef] [Medline
  4. 费德勒LM, Belter CW, Joubert DJ, Livinski A, Lu YL, Snyders LN,等。PLOS ONE中的数据共享:数据可用性声明的分析。PLoS One 2018年5月2日;13(5):e0194768 [免费全文] [CrossRef] [Medline
  5. 赫伯斯特K,朱维卡S,巴塔查尔吉T,班哈M, Patharia N, Tei T,等。INDEPTH数据存储库:来自卫生和人口监测系统的纵向人口和健康数据的国际资源。[J Empir Res Hum Res Ethics 2015 july;10(3):324-333]免费全文] [CrossRef] [Medline
  6. 微数据的统计披露控制:方法和应用,瑞士:施普林格;2017.
  7. teml M, Kowarik A, Meindl B.基于R包sdcMicro的微数据统计披露控制。中国统计杂志,2015;36(4):1-36。[CrossRef
  8. 统计披露控制(sdcMicro)。国际家庭调查网。URL:http://www.ihsn.org/software/disclosure-control-toolbox,[2022-02-22]访问
  9. 坦普尔M,托多罗夫V.软件环境R官方统计和调查方法。德国统计2016年2月29日;45(1):97-124。[CrossRef
  10. Milliff A.从业者-学术伙伴关系中的数据安全:改进议程。SSRN J 2020 9月16日。[CrossRef
  11. 统计资料披露管制。人道主义数据中心,2019年。URL:https://centre.humdata.org/guidance-note- statistical-disclosure-control /[2021-10-20]访问
  12. 基因组数据的数据密集型计算。BiobankCloud。2013.URL:工程/ cnect / https://cordis.europa.eu/docs/pro 1/317871/080 /交付/ 001 - d52.pdf[2022-08-01]访问
  13. 宋欣,Waitman LR,胡勇,罗波,李峰,刘敏。医疗大数据匿名化对早期急性肾损伤风险预测的影响。AMIA Jt峰会2020 Transl science Proc 2020年5月30日:617-625 [免费全文] [Medline
  14. COVID-19病例隐私审查。GitHub。URL:https://github.com/CDCgov/covid_case_privacy_review/[2021-10-20]访问
  15. 深入的网络。发展中国家的人口与健康:INDEPTH站点的人口、健康与生存。加拿大安大略省渥太华:国际发展研究中心;2002.
  16. Ye Y, Wamukoya M, Ezeh A, Emina JB, Sankoh O.卫生和人口监测系统:撒哈拉以南非洲迈向全面民事登记和生命统计系统的一步?BMC Public Health 2012 Sep 05;12:741 [免费全文] [CrossRef] [Medline
  17. 王志刚,王志刚,王志刚。人口监测系统的数据模型。深度网络。1998。URL:http://www.indepth-network.org/Resource%20Kit/INDEPTH%20DSS%20Resource%20Kit/LinkedDocuments/HRS2%20DSS % 20参考% 20 % 20 paper.pdf % 20的数据模型[2021-10-20]访问
  18. Crampin AC, Dube A, Mboma S, Price A, Chihana M, Jahn A,等。简介:卡隆加卫生和人口监测系统。国际流行病学杂志2012 Jun;41(3):676-685 [免费全文] [CrossRef] [Medline
  19. Crampin AC, Kayuni N, Amberbir A, Musicha C, Koole O, Tafatatha T,等。非洲的高血压和糖尿病:在马拉维农村和城市设计和实施一项以人口为基础的负担和危险因素的大型研究。新兴主题流行病2016年2月1日;13:3 [免费全文] [CrossRef] [Medline
  20. 伯基耶P,金斯伯格C,赫布斯特K,桑科O,柯林森MA。使用健康和人口监测系统数据管理事件历史数据的培训手册。BMC Res Notes 2017 6月26日;10(1):224 [免费全文] [CrossRef] [Medline
  21. Dube A, Crampin AC. Malawi - Karonga HDSS INDEPTH Core Dataset 2003-2017 (Release 2019)。网络数据存储库。2019。URL:https://datacompass.lshtm.ac.uk/id/eprint/1738/[2021-10-20]访问
  22. 差异隐私:调查结果。第五届计算模型理论与应用国际会议论文集。2008年发表于:TAMC '08;2008年4月25日至29日;中国西安,p. 1-19。[CrossRef
  23. Abadi M, Erlingsson Ú, Goodfellow I, McMahan HB, Mironov I, Papernot N,等。关于机器学习系统中隐私信息的保护:最近的两种方法。见:IEEE第30届计算机安全基础研讨会论文集。2017年发表于:CSF '17;2017年8月21-25日;圣巴巴拉,加州,美国p. 1-6。[CrossRef
  24. Domingo-Ferrer J, Sánchez D, Blanco-Justicia A.差异隐私的局限性(及其在数据发布和机器学习中的滥用)。common ACM 2021七月;64(7):33-35 [免费全文] [CrossRef
  25. 亲爱的不同的隐私,要么说出来,要么闭嘴。马普软件系统研究所,2020年1月9日。URL:http://www.mpi-sws.org/tr/2020-005.pdf[2021-10-20]访问
  26. 班鲍尔J,穆拉利达尔K,萨拉蒂R.傻瓜的黄金:一个说明的批评差异隐私。中国科技大学学报(自然科学版),2020;16(4):701-755。
  27. 斯金纳CJ,福尔摩斯DJ。估计微数据中每条记录的再识别风险。中国工业大学学报(自然科学版),1998;14(4):361-372。
  28. Hochguertel T, Weiss E.事实上匿名的结果。fdz arbeitspapier Nr. 2012。URL:https://unece.org/fileadmin/DAM/stats/documents/ece/ces/ge.46/2011/50_Hochguertel-Weiss.pdf[2021-10-20]访问
  29. Bond S, Brandt M, de Wolf PP.基于微数据研究的输出检查指南。《数据无国界》,2013。URL:https://ec.europa.eu/eurostat/cros/system/files/dwb_standalone-document_output-checking-guidelines.pdf[2021-10-20]访问
  30. 葛菲思,葛蕾西,杨晓明,等。输出统计资料披露管制手册。figshare。2019.URL:https://figshare.com/articles/book/SDC_Handbook/9958520/1[2021-10-20]访问
  31. 杜普利兹O,博伊科E.传播微数据文件:原则,程序和实践。国际家庭调查网络。2010年8月。http://www.ihsn.org/sites/default/files/resources/IHSN-WP005.pdf[2021-10-20]访问
  32. Borde DS, Hebare PA, Dhanedhar PD。使用salt技术的Web密码哈希概述。国际测量工程技术,2017年11月;4(11):152-154。
  33. Sauermann S, Kanjala C, Templ M, Austin CC, RDA COVID-19工作组。在共享的COVID-19相关数据中保护个人隐私。SSRN J 2020 7月17日。[CrossRef
  34. 洪德尔普,J, Franconi L, Giessing S, Nordholt ES, Spicer K,等。统计资料披露管制。霍博肯,新泽西州,美国:Wiley;2012.
  35. 曼宁AM,哈格林DJ,基恩JA。统计信息公开评估的递归搜索算法。数据最小值光盘2007 7月10日;16(2):165-196。[CrossRef
  36. 曼宁AM,哈格林DJ。一种用于统计信息披露评估的最小样本唯一值的新算法。载于:第五届IEEE数据挖掘国际会议论文集,2005,ICDM '05;2005年11月27-30日;休斯顿,德克萨斯州,美国p. 290-297网址:http://dblp.uni-trier.de/db/conf/icdm/icdm2005.html%5C#ManningH05CrossRef
  37. 古威吕乌JM, Kooiman P, Willenborg LC, de Wolf PP.统计信息披露控制的后随机化:理论与实施。中国工业大学学报(自然科学版),1998;14(4):463-478。
  38. 张志刚,张志刚。基于μ argus的个体风险估计方法。载于:CASC项目统计数据库隐私国际研讨会论文集。2004年发表于:PSD '04;2004年6月9日至11日;西班牙巴塞罗那,第262-272页。[CrossRef
  39. 用对数线性模型评估调查微数据中的识别风险。中国统计杂志2008年9月;103(483):989-1001。[CrossRef
  40. 萨马拉提P, Sweeney L.披露信息时保护隐私:k-匿名及其通过泛化和抑制的实施。电子隐私信息中心,1998。URL:https://epic.org/wp-content/uploads/privacy/reidentification/Samarati_Sweeney_paper.pdf[2021-10-20]访问
  41. 在微数据发布中保护受访者身份。电子工程学报2001;13(6):1010-1027。[CrossRef
  42. 统计披露方法的质量指标:盈余调查结构的案例研究。J Off Stat 2015年12月16日;31(4):737-761。[CrossRef
  43. Sariyar M, Borg A. RecordLinkage包:检测数据中的错误。中华医学杂志,2010;2(2):61-67。[CrossRef
  44. 一个建立在马拉维卫生研究数据基础上的伙伴关系。瑞士埃斯特,2021年6月1日。URL:https://www.esther-switzerland.ch/a-partnership-building-on-health-research-data-from-malawi/[2022-08-02]访问


CPU:中央处理器
hds:卫生和人口监测系统
激励:研究机构人口信息共享实施网络
LMIC:低收入和中等收入国家
婴儿车:postrandomization方法
提交:统计资料披露管制


H Bradley编辑;提交25.10.21;M Sariyar, K Herbst同行评审;对作者23.02.22的评论;订正版本收到时间为19.04.22;接受10.05.22;发表02.09.22

版权

©Matthias Templ, Chifundo Kanjala, Inken Siems。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com), 02.09.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map