发表在25卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/42743,首次出版
患者生成健康数据的分散市场:设计科学方法

患者生成健康数据的分散市场:设计科学方法

患者生成健康数据的分散市场:设计科学方法

原始论文

美国佛罗里达州迈阿密市佛罗里达国际大学商学院信息系统与商业分析系

通讯作者:

Hemang Subramanian, BE, MS, EPBM,博士

信息系统和商业分析系“,

商学院

佛罗里达国际大学

11200

西南第八街

迈阿密,佛罗里达州,33199

美国

电话:1 3053482830

传真:1 3053482850

电子邮件:hemang.subramanian@fiu.edu


背景:可穿戴设备存储和处理此类数据的能力有限。目前,个人用户或数据聚合者无法将这些数据货币化或贡献给更广泛的分析用例。当与临床健康数据结合时,这些数据可以提高数据驱动分析的预测能力,并为提高护理质量提供许多好处。我们提议并提供一个市场机制,使这些数据可用,同时使数据提供者受益。

摘要目的:我们的目标是为患者生成的健康数据提出一个去中心化市场的概念,可以改善来源、数据准确性、安全性和隐私性。通过使用星际文件系统(IPFS)和以太坊智能合约的概念验证原型,我们的目标是用区块链演示去中心化的市场功能。我们还旨在说明和演示这样一个市场的好处。

方法:我们使用设计科学研究方法来定义和原型化我们的去中心化市场,并使用以太坊区块链、solidity智能合约编程语言、web3.js库和node.js以及MetaMask应用程序来原型化我们的系统。

结果:我们设计并实现了一个去中心化医疗保健市场的原型,以迎合健康数据。我们使用IPFS存储数据,为数据提供加密方案,并提供智能合约与以太坊区块链上的用户通信。我们达到了我们在这项研究中设定的设计目标。

结论:可以使用智能合约技术和基于ipfs的数据存储创建一个去中心化的市场,用于交易患者生成的健康数据。与集中式系统相比,这样的市场可以提高质量、可用性和来源,并满足数据隐私、访问、可审计性和安全性需求。

J medical Internet journal 2023;25:e42743

doi: 10.2196/42743

关键字



背景

普适设备和可穿戴设备创建的健康数据可以与电子健康记录数据相结合,以提高疾病的可预测性。除了管理人口健康外,这些数据还可用于创建以患者为中心的卫生系统[12].在临床环境中,患者生成健康数据(PGHD)的例子有限;然而,预测分析和健康信息学的最新进展发现了这些数据的许多用途。例如,移动数据可用于预测和提供高血压、糖尿病、癌症和其他心脏疾病等疾病的早期预警信号[3.].PGHD资产可以成为医疗保健相关业务的重要增值差异化因素,在整个医疗保健价值链中增加价值[4].然而,支持临床和转化研究的集中式仓库的设计面临着许多挑战,包括“数据组织”、“访问控制”、“监督和治理”、“数据共享”、“信息学和生物统计学家等不同机构之间的服务管理”以及“维护、升级和存储的技术挑战”[5].此外,Kruse和Goswamy [1]描述了数据结构组织、验证、安全性和隐私方面的各种挑战。可用于实时分析的PGHD可能具有挑战性,因为设备制造商通常控制所有数据供应,或者数据经常被删除,因为边缘设备(移动和普及)的设计不包括长期内存存储[6].

主流临床医疗储存库,例如研究患者数据储存库(RPDR)和健康信息交换(HIEs),是通常由财团管理的大型复杂数据仓库的示例。rpdr规定了成员之间数据收集和访问的规则,这些规则主要集中在临床数据领域[45].在RPDR中,医疗保健数据存储和分析在联盟成员之间分发,并为数据访问提供了经过严格审查的具体指导方针。Gagalova和Elizalde [5]描述了一个集成的数据存储库的创建,包括以下步骤:数据提取、去标识、ID分配、转换、本体映射、链接和加载到仓库,以及数据检索的各个阶段。基于web服务的应用程序编程接口(api)的最新创新和标准的演变提供了诸如快速医疗互操作性资源等标准,使第三方系统能够访问临床医疗保健数据[2].但是,这些机制依赖于独立数据存储、医院系统和数据中介来满足法律要求的能力。访问机制不能应用于由设备制造商或第三方供应商存储的患者生成的数据[6].

预先聚合的匿名健康数据集可通过Qiagen等Amazon Web服务进行销售和订阅[7]、IBM Watson [8], Medisafe [9]和注解-it [10].这些数据可用于心脏病学或病理学等多个领域的分析,以使用复杂的机器学习模型发现和预测疾病。集中式数据存储,如研究数据存储库和HIEs,是替代方案,但医院系统通常存储临床数据,而不是PGHD [3.].此外,PGHD数据集不需要提供必要的来源(例如,不能请求数据的源或传输记录,因为它们是基于订阅的)。同样,很难验证这些数据的真实性,因为它们已经从公开可用的信息或提供基于订阅的服务的公司中筛选出来。先前的研究建议标准化数据存储格式,以交换医疗保健数据(如health Level 7[临床和行政卫生数据传输的国际标准]),并创建api,如快速医疗保健互操作性资源,可以跨临床系统无缝操作;要实现这样的标准需要法律授权[11].

本文提出、设计并提供了一个基于安全公共区块链基础设施的PGHD市场的概念验证实现,该市场可以解决有关数据可靠性、隐私性、来源和可用性的几个问题。在本文中,我们提出了一种用户级加密模式,可以实现创建者对健康数据的无缝交换和货币化。用户被激励在这样一个市场的供应端生产高质量的数据集。在需求端,由于竞争和选择,用户的搜索成本降低了,可以以更低的价格找到高质量的数据提供商并与之进行交易。在本研究中,我们检查了以下研究问题:

  • 研究问题1:我们如何设计一个分散的PGHD市场?
  • 研究问题2:去中心化数据的好处是什么?

我们认为,市场方法可以成为许多健康数据质量问题的灵丹妙药,通过(1)分散市场中的市场诱导竞争,从而提高可用性,(2)支持隐私和加密模式,保护数据提供商的隐私和所有权,以及(3)数据集和市场参与者的声誉机制,同时(4)为参与者提供金钱激励。包括基础设施提供商或市场创建者。接下来,我们研究了数据存储和访问的挑战。

对PGHD市场的需求

概述

在健康数据市场中,不同的卖家、买家和(增值)服务提供商聚集在一起,共同为整个生态系统创造价值[12].拥有医疗记录数据的用户可指派代理人代表其进行操作,或通过能够出售此类数据而直接获得经济利益[13].数据聚合器、医疗保健数据存储库所有者或存储提供商可以通过启用增值服务(如对其数据应用智能数据分析和说明性或诊断性机器学习技术),使健康数据货币化[14].PGHD市场必须遵守隐私和数据访问的法律要求[6].然而,医疗保健技术的大量私人贸易、精心策划的数据集以及此类数据集的二次使用已经存在一段时间。拥有人力资源、财务和技术知识的私人实体,能够通过解决独特的预测问题,利用这种PGHD数据集的优势进行套利。

一方面,技术使自动驾驶具有了较高的精度[15];另一方面,如果没有专家的数据干预,目前还不可能实现自动化的疾病诊断或预测。PGHD数据缺乏自动化诊断增加了诊断成本,更不用说诊断的延迟了[10].此外,足智多勇的参与者和规模较小的医疗保健分析初创公司之间的这种不对称市场力量可以缩短新的数据驱动诊断模型的发现时间。16].通常,健康数据集非常昂贵,并且不能为创建者提供任何价值。例如,用于预测心脏病的健康数据集在Amazon Sage Maker上的使用费用为每小时500美元。

在卖方一方,数据提供者、聚合者或中介不能将创建的宝贵数据货币化。另一个问题是来源问题,在保密的情况下,分析师或其他人不可能真正验证或确定这些数据的创建者。同样,在买方方面,中小规模的企业和需要大数据集进行实验分析的研究项目,由于缺乏数据来源,面临进入壁垒[16].临床研究得到严格的数据披露和伦理审查的支持,这些审查在防止数据伪造和数据的不道德使用方面提供了价值。如果采用市场方式,用户分享自己的数据可获得补偿,则可以采用类似严格的数据披露标准来收集和访问PGHD [17],审核机制过滤掉捏造的数据。在医学和卫生保健的许多领域,如数字病理学,由于缺乏数据,缺乏大量的数据语料库来训练图像检测和模式分析中的算法,这是一个挑战。然而,在谷歌公司所做的研究中,可以看到最近在使用患者健康数据方面的改进[18]及苹果公司[19].缺乏自动化会增加医疗成本,在许多情况下,阻碍了技术上可行但缺乏数据可访问性、数据来源和数据质量的医疗保健改进[20.-22].接下来,我们将讨论PGHD市场的关键属性。

去中心化PGHD市场的属性

PGHD市场的独特属性包括其保护数据隐私、访问控制、数据存储和容错的能力。购买并使用这些数据来开发有用的分类算法的买家将数据货币化。此外,此类分析还可以实现各种辅助功能,例如用于诊断、疾病预测和医疗保健服务游戏化的分析[23].区块链是一种新的分布式和去中心化技术,用于解决数据标准化、系统互操作性、安全性、隐私性和可访问性的挑战[24].在区块链出现之前,为每个用户提供匿名、隐私控制的不同数据源单点访问是一个具有挑战性的问题[25].我们提出了一个去中心化的基于区块链的市场的设计和实现。去中心化的市场能够更快地匹配数据的买家和卖家,实现无缝的交易效率,以及机构基础设施功能,如来源、隐私、访问控制和长期存储[12].

市场范围

图1描述了这样一个市场的两个方面和市场中的参与者。

图1。分散的医疗保健数据市场。

市场是两面的,买家在一边,卖家在另一边。买家可以购买数据进行修改、分析和下游销售,或将其用于研究和其他目的。买方由服务提供商组成,例如数据聚合器、可以共享个人医疗保健数据的个体患者、为数据提供预测分析的公司,以及分析数据并增加价值的应用程序开发人员或研究人员或数据科学家。买方还可以包括转售数据的专家、数据聚合者、游戏开发者和研究机构。数据销售者的范围仅包括PGHD,其中患者负责使用个人设备创建此类数据。其他机构,如卫生研究机构、web服务提供商和数据聚合器,构成了患者授权它们进行干预的供应链的一部分。表S1多媒体附件1描述了我们设计中针对的集中式健康数据存储和分散PGHD数据市场之间的区别。

集中管理的卫生信息系统(如RPDR或HIEs)的数据存储成本负担通常落在患者或最终用户身上[23].在这样的数据架构中,市场是不可行的,因为HIEs专门迎合临床医疗数据,而不是PGHD数据。表S2多媒体附件1描述了分散式PGHD数据存储与HIEs和集成数据存储库之间的区别。

集中式数据存储通常不能满足PGHD的需求,PGHD可以来自患者自己的健康设备,也可以来自其他设备,比如杂货店里常见的公开的血压计。然而,通常情况下,这些数据可以为用户健康状况提供有价值的见解,以及何时将服务聚合到应用程序中,例如谷歌[18]或使用Sleep Tracker [26].

区块链已被证明可以在涉及用户数据时提供各种好处,允许用户存储大量数据[6].然而,这些好处并没有转移到普遍存在的设备和普遍存在的应用程序,这些设备和应用程序在设计时考虑了安全、访问、隐私和性能方面的考虑。先前关于医疗保健交易所数据、防篡改数据和保护数据的医疗保健研究已经证明了在医疗保健环境中的好处[21].在下一节中,我们将讨论与医疗保健数据相关的数据质量维度,以及去中心化市场如何解决质量问题。去中心化市场的数据质量主要有三个维度:(1)信息质量,(2)安全性,(3)通信。

信息质量是指以下7个特征:

  • 可用性:数据的可用性越高,这样的数据的买家就越多。由于数据集的数字性质,数据可以很容易地复制并出售给下游用户,要么原样复制,要么添加其他功能和分析(如标签)。
  • 及时性:卖方必须保证提交市场销售的数据的及时性。否则,他们将失去更多的最新数据。此外,区块链记录和时间戳已上传的每条记录,防止用户更改数据集中的实际事件。
  • 相关性:卖家只会在市场上分享或上传相关数据进行销售。不相关或伪造的数据记录将受到其他用户的惩罚,并可能影响用户在市场上的声誉。
  • 一致性:通过确保使用相似的数据格式,数据必须是一致的。市场运营商可以强制使用模板,或者买家可以以特定格式索取数据。因此,用户只会向市场上传一致的数据。
  • 完整性:数据必须是完整的,用户可以查找面板数据。数据提供者可以是个人用户,也可以是中介。
  • 准确性:可以在区块链上检查数据的准确性,因为交易规则可以写入智能合约。可以对这些数据进行基本的语法检查和基于分析的高级检查。
  • 访问权限管理:在钱包级别基于用户或公司的加密对数据进行加密。同样,只有那些拥有私钥的人才能访问它。

安全性是指以下4个特征:

  • 隐私:区块链在设计上确保只有拥有密钥的人才能访问数据(请参阅中的密钥管理)多媒体附件2).此外,该模块实现的加密机制使其他用户无法访问数据。防止去匿名化也可以确保隐私[27通过加密密钥固定访问权限,并只允许数据所有者访问数据。
  • 保密性:去中心化的市场应用程序可以用用户的私钥对数据进行加密或解密,以确保数据的保密性只对拥有访问权限的人开放。
  • 安全访问:只有通过用户维护的安全的公私密钥才能访问数据。用户加密的数据只能通过平台或用户离线向买家提供密钥时才能解密。
  • 数据治理:市场可以确保治理模型(例如基于联盟的去中心化自治组织)对所有主要治理决策负责。这样的机制已经在大型公共区块链项目中使用,比如创客基金会。

数据通信指的是以下3个特点:

  • 来源:区块链上的数字交易记录将使数据可以追溯到区块链上的来源。
  • 可解释性:网络链中的不同人必须通过协议以类似的方式解释数据。
  • 可传输性:数据可通过区块链传输给其他所有者。

概述

我们使用了设计科学研究方法[2829],通常用于信息系统和计算机科学,以设计和验证分散的市场。

设计科学的研究方法与我们的解决方法

概述

以下是设计科学研究方法的三个阶段:

  • 阶段1:发现阶段包括:(1)问题定义和问题的重要性;(2)确定解决方案的目标。
  • 第二阶段:解决方案实施阶段包括(1)原型设计和开发(2)演示。
  • 阶段3:评估阶段包括(1)根据需求对工件进行评估,以及(2)对结果和含义的讨论。
阶段1:问题定义和解决问题的重要性

Beinke和Fitte [28讨论区块链技术提供了通过去中心化网络验证交易的可能性,并确定了34个利益相关者特定的需求。虽然他们提出的基于区块链的架构满足电子健康记录,但在以下目标中提取和总结了支持PGHD市场的某些需求,并在随后的部分中进行了论证。

PGHD市场的设计目标如下:

  • 目标1:数据访问——不同的卖家和买家之间必须允许数据访问,即买家必须有权访问他们购买的数据,卖家应该有能力拥有和控制数据及其副本
    • 理由:买家和卖家可以创建和持有只有他们可以访问的数据。这就创建了一个市场,真正的所有权记录在区块链上,任何人都可以验证。
  • 目标2:市场工作流功能——应该启用数据的市场功能,也就是说,卖家应该为交易数据提供定价机制(固定的或类似拍卖的),而买家应该能够使用加密货币购买相同的数据
    • 理由:数据在系统中应该有价值(底价),数据所有者(创造者)应该访问该价值。购买数据的用户可以在平台上为数据付费。类似地,服务的支付和转移是完全自动化的,不需要中介来验证和转移交易。
  • 目标3:数据加密支持——支持数据加密,以确保只有所有者可以访问数据,其他用户不能看到数据
    • 理由:用于公共存储信息的数据加密模式是维护数据隐私的关键组件。
  • 目标4:健康保险携带与责任法案(HIPAA)的遵从性——通过为用户提供信息隐私和从市场产品中清除数据的能力来支持HIPAA的遵从性
    • 理由:该系统必须遵守hipaa规定的移动使用的不同标准。
  • 目标5:声誉模型——支持声誉模型和数据伪造防御
    • 理由:必须在市场上检查数据提供者(患者)或患者代表的有效性。同样,数据造假案件一经发现,必须予以处罚。
阶段2:设计和实现

我们提出了一种使用不可替代代币(NFT)标准的方法(以太坊征求意见[ERC]-721和ERC-1155),针对PGHD数据进行优化,并建议创建去中心化的医疗保健市场,其中有卖家、买家和增值服务提供商等(图1).市场中的每个参与者,即卖方、买方或增值服务提供商,都由他们的钱包地址(其在区块链上的公钥的修改版本)识别[30.].市场参与者遵守隐私、数据安全和法律要求的其他功能,如HIPAA和通用数据保护条例。萨勃拉曼尼亚及萨勃拉曼尼亚[31]描述了一个使用星际文件系统(IPFS)和以太坊的数字病理系统。我们在设计中使用了类似的策略,除了我们建立了一个基于智能合约的完整市场,其中包含用户加密数据,IPFS存储数据,以及web3接口以实现买家和卖家之间的交互。我们将运营公共区块链基础设施所需的交易费用降低到以太坊版本2的几美分(权益证明)[28].

使用NFT标准、IPFS和MongoDB的智能合约的去中心化PGHD数据市场

接下来的部分概述了用于创建基于nft的去中心化市场的关键技术。首先,我们研究了区块链网络如何实现去中心化市场。然后,我们研究了基于以太坊的智能合约的原理。最后,我们分析了由基于以太坊的智能合约驱动的去中心化市场如何使NFT市场发挥作用。以太坊区块链通过智能合约和可自我执行的图灵完备程序实现了广泛的交易,这些程序运行在以太坊虚拟机上,并在其存储中维护状态。以太坊虚拟机有一个基于堆栈的架构,可以将东西存储在堆栈上(例如,使用字节码操作),存储在内存中(例如,函数中的临时变量),或存储在存储中(例如,保存数据库条目的永久变量)。每个智能合约只能对其智能数据结构读写数据。网络共识机制决定了网络中的哪个用户将把交易作为一个新区块追加到链中。以太坊最近转向了权益证明机制,这大大降低了能源消耗[32].通过权益证明,网络算法根据节点的权益(包括其账户余额在内的参数组合)确定哪个节点将区块添加到链中。智能合约操作的交易费用,如铸造、传输数据和创建链上记录,在以太坊的权益证明上只是一分钱的零头。

PGHD作为nft在市场上上市

智能合约为在区块链网络中开发具有复杂功能的应用程序提供了机会。使用以太坊智能合约,我们实现了ERC-721标准,我们可以使用该标准存储、生成、列出、交易和销毁医疗保健数据。我们还为数据创造者和所有者实现了经常性收入,并为市场提供了服务质量范例。NFT的生命周期在网络上的令牌上下文中以列表的形式呈现。每个阶段的详情如下:

  • 存储:将数据上传到IPFS并保存在IPFS中。
  • Mint:将IPFS返回的CID (content identifier)返回给区块链。令牌被铸造。
  • List:铸造的令牌用于列出其他用户在区块链上购买的数据集。该清单将使用MongoDB存储和检索用户界面,并列出区块链上的数据。
  • 交易:购买代币的用户将能够使用他们钱包中的加密代币余额进行交易。然后,他们将能够将令牌ID的所有权(以及数据访问权)转移到自己身上。这样的数据访问将被记录在区块链上。
  • 刻录:最后,根据所有者的选择,可以刻录令牌,通过将令牌传输到NULL地址,可以从实际数据集中移除访问权限。

图2描述存储在区块链上的数据的不同变化。元数据将数据的所有权与用户上传到市场的数据分开。这些数据的买家可以使用这些数据进行分析,并为市场的最终用户提供增值服务。他们还可以将数据重新加载到市场或按原样重新列出数据。该市场为数据创造者和市场托管机构提供财务激励,以确保系统按照设计工作。类似地,每次数据所有者上传数据时,他们都可以对未来的每笔销售收取版税。同样,市场钱包可以获得固定数量的加密货币作为每笔销售的佣金,使其在财务上可行,以维持对平台的未来需求。

卖家可以为列出的数据集设定价格,一旦发生销售交易,在扣除智能合约中预设的平台费用和提成费后,加密货币将被转移给卖家。这样一个市场的架构说明在图3.PGHD数据存储在IPFS中,数据标识符CID存储在智能合约(ERC-721)中的以太坊上。市场通过IPFS和以太坊基础设施连接数据创造者和买家。数据在IPFS上按照多方和加密方案中讨论的协议进行加密[32]将在后续章节中讨论。

图2。血压数据,脑电图和脑电波数据收集在病人自己的个人设备。
图3。该图显示了数据创建者、买家、星际文件系统(IPFS)和区块链之间的交易。CID:内容标识符;NFT:不可替换的令牌。

PGHD将存储在IPFS上,相应的令牌ID将包含与数据所有者关联的元数据。类似地,每当记录或令牌转手时,令牌将被转移到新的所有者,而新所有者将访问数据。在数据传输之间,调用加密协议,生成一对新的密钥,并向新所有者提供解密数据的密钥。因此,区块链记录数据的所有者,而数据的所有者又指向IPFS上的CID。市场创建者可以使用数据库(如MongoDB)来存储用户钱包的映射、数据的cid和相应的价格变量,就像我们的例子一样。这个数据库不是绝对必需的,但可以用来补充存储在区块链上的数据,以便更快地查找和查询或搜索数据,为用户提供易用性。

用户可以将数据的多个副本上传到IPFS。数据的每个副本都必须经过铸造工作流。在铸造工作流中,数据被新上传到IPFS,并使用不同的密钥进行加密。稍后,这个新的IPFS CID将被铸造为单独的令牌用于上市。该平台不限制提供属于同一用户的多个数据集。然而,市场审核机制可以标记上传到系统的重复内容,或者可能会影响用户的声誉。

图4,我们列出了这样一个PGHD市场的原理图和用户流程。数据的创建者或数字数据的所有者,例如,患者和医院系统,可以使用易于使用的用户界面在市场上列出他们的数据。卖家通过“了解你的客户”和反洗钱机制在区块链上进行识别,他们的钱包地址也与他们的购买相关。预览图像说明了所使用的示例数据集。实际数据集构成JSON文本条目的一部分。数据存储在IPFS上,IPFS是一个分布式文件系统,承载点对点文件存储。如果公共IPFS性能不够好,市场创建者可以使用第二层解决方案,如Filecoin、ArWeave和Storj。当数据扩展到pb或exabytes时,将需要第2层解决方案,因为IPFS在下载数据的响应时间方面可能不够高性能,除非市场提供自己的托管和固定服务。

类似地,数据的买家从所有者那里购买数据。在此过程中,NFT的所有权转移给买方,并记录在区块链上。此外,我们还有第三方数据验证者和分析师,如“增值服务”提供商,他们将从市场购买数据,执行面向数据的模拟、数据挖掘或数据清理等操作,并将它们重新列出或转售给下游。

图4。设计去中心化市场原型的原理图和架构。CID:内容标识符;IPFS:星际文件系统;NFT:不可替换的令牌。

健康数据加密

概述

奥多诺霍等人[33]讨论了自适应管理以提高电子病历效用的各种权衡,并认为尽管这些权衡可以提高区块链的安全性,但其中一些功能可能会影响可伸缩性。库马尔和巴蒂[34]总结了10种使用各种加密方法加密IPFS数据记录的不同方法,并描述了不同的存储解决方案。此外,林和张最近的一项研究[35]提出了一种创建基于目录的文件系统的方法,并使用基于IPFS的位交换协议在用户之间传输加密记录。作为一种技术,我们可以应用这10种加密方法中的任何一种。我们选择了Battah等人建议的多方身份验证和重新加密甲骨文的修改版本[32,他们发布了完整的代码。简而言之,加密模式的活动图显示在图5.多重签名系统的主体包括多方认证服务器、重加密oracle、数据所有者和数据请求者。

数据所有者(卖方)上传数据,并同意多方认证方或多方认证服务器提出的访问要求。一旦多方身份验证服务器和加密oracle对数据进行加密,数据所有者通过在区块链上创建令牌来注册数据的地址(即数据的散列)。系统上的多方验证者和数据所有者之间总是有一个共享钱包,用于加密数据(一旦数据所有者将对称密钥加密的数据提交到IPFS)。第二阶段确保数据可以安全地解密并使用另一对密钥重新加密,而无需访问原始数据所有者。

图5。在买方和卖方的数据市场中,用于数据加密流的活动图。DR:数据请求者;IPFS:星际文件系统。

此外,数据所有者(卖方)创建一个智能合约,其中包含上述组件的散列,通过根据ERC-721协议创建NFT作为数据的地址。一旦销售完成(或购买行为发生),数据所有者将从数据请求者(买方)的公钥和自己的私钥创建一个重新加密密钥,并将其发送到重新加密oracle。然后,重新加密oracle使用这个对称密钥,并与买方共享。一旦从IPFS下载了数据,请求者就会下载加密的数据、加密的对称密钥和文件的散列。随后,它使用其私钥解密对称密钥和数据,并使用该对称密钥再次解密数据。然后,数据请求者(买方)可以选择重新列出这些数据,也可以将它们用于分析。

用户和数据集的信誉模型

信誉模型使买家和卖家能够相互评估,并对交易做出明智的决定:

  1. 评级和审查系统:在这个模型中,买家和卖家可以根据他们的交易经验对彼此进行评级和审查。这允许其他用户看到平均评分和阅读评论,以帮助他们衡量特定用户的声誉。然而,一种衡量专家和零售用户(买家或卖家)的权重机制可以防止欺骗性评论。这样的系统还需要人工审核和第三方审核来验证内容。
  2. 验证系统:市场可以采用验证系统来确认用户的身份和凭证。这有助于建立信任,并可能提高已验证用户的声誉。与社会保障网络或信用档案相关联的反洗钱或“了解你的客户”系统可以帮助验证真实用户或公司。
  3. 反馈系统:反馈系统允许用户提供关于他们在特定交易中的体验的详细反馈。此反馈可用于通知其他用户有关特定用户的声誉。
  4. 信任网络:信任网络是允许用户彼此建立关系并基于这些关系建立声誉的系统。在市场环境中,这种信任网络可以实现供应链活动,其中买家可以重复地与类似的卖家进行交易,卖家可以预先订购数据集以满足未来的分析需求。
  5. 社交媒体整合:市场可以与社交媒体平台整合,允许用户连接他们的账户,并基于他们在这些平台上的活动建立他们的声誉。在当前的市场设计中,我们已经将用户与社交媒体平台整合在一起。
  6. 惩罚欺诈性数据提交者:市场可以对参与欺诈性数据操作(例如提供伪造数据)的用户征收罚款或将其完全列入黑名单。
数据造假辩护

平台级数据正确性策略包括声誉机制设计、数据统计验证、通过第三方oracle对数据销售者进行入职验证,以及在第三方销售者发现欺诈行为时对销售者进行惩罚。在我们的设计中,我们启用了用户输入的数据描述元数据,第三方可以使用它来验证数据。

数据定价和版税机制

我们创建了2个智能合约,其中一个是在买方和卖方之间转移价值,另一个是在每笔交易中出售价格的一部分转移给数据的原始创造者(所有者)。这种机制为数据所有者提供了一种市场机制,并激励他们向市场提供数据。对上下游卖家的个人数据版税激励了市场上的所有参与者。

实现

用户注册

我们在市场中注册了每个用户以及用户的钱包ID和社交媒体配置文件,以便用户能够列出数据。每次列出的数据都可以通过第三方验证预言和统计分析技术的组合来验证虚构或模拟的数据,以检测欺诈模式。图1显示系统用户注册流程。多媒体提供了使用以太坊的平台的视频演示。

上市前的验证

当PGHD数据记录上传到IPFS时,在后端,区块链上的记录将指向IPFS上的唯一CID。如果web服务提供者或市场希望用户能够进行交易,提供者可以将记录固定在IPFS上的特定托管节点上。萨勃拉曼尼亚及萨勃拉曼尼亚[31]描述了IPFS的功能、数据存储和在数字病理学中的使用。我们对市场功能和数据存储使用了类似的机制,其中存储元数据,特别是指向IPFS上的实际数据。与元数据相关的CID将驻留在区块链记录中,并作为NFT (图6).

图7显示用户界面的截图,其中用户登录他们的钱包并识别自己后,可以看到所有铸造的代币。每个铸造的令牌都与一个IPFS记录相关联,该记录包含与上传的数据集相关的元数据。此外,图2显示了使用钱包余额和NFT转移购买数据的交互作用。在清单1中列出了这些元数据多媒体附件1.此外,当数据上传到IPFS时,由于网络连接、钱包余额不足或网络流量高等问题,令牌无法铸造。未铸造的代币以后可以通过向用户提供足够的余额来铸造,然后用于在去中心化市场上上市。

图8显示分散式市场的用户界面,显示列表。尽管这个用户界面是用HTML或级联样式表实现的,但负责创建清单的web3平台也可以为第三方提供具象化状态传输API来创建和显示清单。

图6。用户预注册社交媒体档案,以检查有效性。NFT:不可替换的令牌。
图7。描述数据上传和薄荷功能的用户流程。乙:Ethereum;NFT:不可替换的令牌。
图8。用户界面列出了网络上所有这些铸造的令牌。每个用户都会得到一个单独的列表,不包括他们自己拥有的可在市场上出售的代币。

数据类别

市场上有3类资产,每个钱包都是独一无二的。第一类是“铸造的”nft,所有者可以在市场上列出,供不同用户立即进行交易销售。类似地,第二类是“收集的nft”,这只是归因于用户的数字健康数据的收集,但目前尚未上市出售。第三类用户可访问的尚未铸造的数据被列为“未铸造”。这些记录还不能在区块链上用于交易。代码清单3多媒体附件1列出用于创建清单的关键函数。JavaScript与IPFS和web3智能合约的接口,使用户能够制造、列出和购买令牌。

HIPAA对PGHD市场的支持

HIPAA要求覆盖实体保护个人的健康记录和其他可识别的健康信息,要求采取适当的保障措施来保护隐私,并对此类信息的使用和披露设置限制和条件。在我们的设计中,个人设备生成的数据被上传到IPFS,并被加密并存储在网络上。区块链提供数据的基于web的交易历史。例如,上述令牌的铸造记录在区块链上,可以在以太坊区块链上查看。通过扫描网络上的合同地址,可以找到前面提到的6条以不同以太坊价格创建的记录。我们可以检查哪个钱包转移了新创建和铸造的NFT。此外,每次数据传输时,原始数据所有者都会获得版税,平台的钱包也会获得一部分收入。图9说明契约的创建和在同一契约上执行的事务集。

在随后的部分中,我们将提供HIPAA建议的各种指令的支持。图S1多媒体附件1显示支付必要费用后用于将令牌从一个地址转移到另一个地址的交易细节。注意,事务使用TransferNFT函数,该函数将所有权从钱包A转移到钱包B(图S1)多媒体附件1).

图9。合同地址和交易是根据不可替代的令牌创建完成的。

HIPAA关于设备生成数据的规定

我们的市场支持以下关于PGHD的要求:

  • 使用密码或其他用户身份验证:数据所有者使用他们的私钥访问市场。同样,卖家、买家和增值数据服务提供商都使用私钥访问市场。
  • 安装并启用加密:所有数据都可以按照加密设计进行加密。“健康数据加密”一节讨论如何对数据进行加密和重新加密。在存储层面,用户可以选择使用他们的公钥(或单独的密钥)加密和发送数据,他们的钱包软件可以在以后访问这些数据。类似地,用户可以列出市场级别的代表性图形,并加密实际数据以存储在IPFS中。
  • 安装并激活远程擦除或禁用:如前所述,所有者可以使用NFT的刻录功能在市场级别删除数据,该功能将删除列表。但是,数据永远不能从IPFS中完全删除,IPFS跨节点复制和存储数据。只有驻留在固定节点上的数据才能被删除并提交给垃圾收集。一旦标记被刻录,用于解密数据的密钥也会被多方身份验证删除,从而使这些数据不可访问。平台从不为令牌设置自动刻录,而所有者可以通过设计调用刻录。
  • 安装并启用防火墙:防火墙由主机提供商或应用程序提供商安装,如果他们选择通过应用程序公开市场。
  • 安装并启用安全软件:市场用户界面通过http secure和web应用程序运行。安全软件和防火墙安装在服务器上,服务器运行与后端区块链交互的市场的用户界面。此外,第三方智能合约安全机制有助于审计区块链的软件合约,使以太坊虚拟机能够确保兼容性(包括正向和反向)。
  • 保持安全软件的更新:当更新时,区块链软件或IPFS将自动更新所需的软件。例如,以太坊区块链自上次提交以来移动到版本2,IPFS发布了最新版本。然而,市场用户界面由那些启用用户界面的人控制,他们负责根据新的基础设施协议更新软件。
  • 保持物理控制:对数据的访问由拥有钱包私钥的用户控制,后者将数据上传到平台。web API或市场用户界面提供商不拥有或控制它。访问监视是一项额外的职责,区块链本身对通过其系统的所有数据执行该职责。
  • 使用足够的安全措施通过公共Wi-Fi网络发送或接收健康信息。
  • 没有数据传输到公共Wi-Fi网络,除非记录被上传到IPFS或由买家下载。无论何时上传数据,何时下载数据或加密以供以后解密,都会对其进行加密。加密模式也讨论了同样的问题。
  • 在丢弃或重用之前删除所有存储的健康信息:虽然令牌可以从市场中断开链接并摘牌,但IPFS上的实际数据永远不能完全删除。一旦令牌被摘牌,重新加密甲骨文将不允许任何人重新加密数据,因为智能合约将无法检测到令牌(请参阅健康数据加密部分)。此外,MPA服务可以删除加密密钥,因此很难删除数据。因此,尽管数据继续驻留在IPFS上,但它将不能用于解密或以后使用。

我们根据设计阶段设定的目标来评估我们的原型:

  • 目标1:数据访问——这是完全实现和演示的。不同的卖家和买家之间允许数据访问,即买家必须有权访问他们购买的数据,而卖家应该有能力拥有和控制数据及其副本。在市场上向数据的原始创造者支付版税,从而激励数据提交。用户可以选择是否列出他们拥有的数据。
  • 目标2:市场工作流功能——实现数据的市场功能。卖家提供一个固定的定价机制,买家可以使用他们的个人余额借记货币来购买代币。
  • 目标3:数据加密支持-我们实现了Battah等人研究的部分版本[32],以支持多方鉴权存取资料。它支持数据加密,以确保只有数据所有者可以访问数据,而其他用户不能看到数据。
  • 目标4:HIPAA遵从性——如前所述,我们部分支持HIPAA特性。由于IPFS的局限性,导致无法完全支持HIPAA功能。
  • 目标5:声誉模型——我们提出了在平台上创建声誉模型的各种选项,但实现了可以调节的用户注册部分。我们收集了所有的社交媒体信息,以评估平台上用户的可靠性并验证用户。

该市场解决了以公平和透明的方式实现卫生数据货币化的关键要求和目标。同样,它也满足了设定的目标。接下来,我们将讨论这种市场的局限性和未来的工作。


治理

去中心化的市场需要不受中央控制和管理的治理结构。治理结构提供监督、管理控制、对平台增强的批准、奖励机制,以及对法律负责的正式结构。建议采用基于联盟的方法,其中健康数据提供商、买家和增值服务提供商的代表参与基于投票的决策系统。惩罚合谋行为可以威慑任何阻挠去中心化治理的企图。在基于财团的治理方法中,所有利益相关者,包括法律界、公众、买方和卖方,都与平台的决策过程有利害关系。另一种方法是去中心化自治组织,可以向参与平台治理的用户发行治理令牌(使用智能合约)。尽管HS已经为这样的市场建立了一个基于令牌的治理模型原型,但是简单定义这样的模式的复杂性可能是未来研究的主题。

局限性和未来研究

首先,创建这样一个市场,在加速市场提供数据的同时,可以增加市场中可用的数据量。

但是,市场中列出的过多数据会增加最终用户的搜索成本,除非市场创建者实现本地搜索。其次,由于区块链、IPFS和其他技术的使用,用户可以以较低的成本上传和存储数据,许多用户可能会开始使用这样的平台作为数据存储设备。为了解决这些问题,平台运营商应该设计和运行推荐系统,与用户上传和交易数据协同工作,为数据集和数据提供商提供评级和评论。

第三,数据提供商的入职应该由运营平台的公司控制,而不是一个人人免费的服务,人们可以把它用于各种邪恶的目的。这为市场创建者、数据提供商或设备制造商提供了额外的盈利机会。“未铸造”数据和未列出的数据可以减少,以消除免费租用。第四,由于这种市场的去中心化性质,重要的是要意识到,由于区块链提供的匿名性,去中心化也会导致帐户完整性的挑战。第五,去中心化的市场对现有的行业结构构成威胁,苹果(Apple)和Fitbit等主要硬件制造商主导着可穿戴设备。因此,与这样一个市场生存的冲突可能会加剧。第六,在交易PGHD的同时产生二次增值服务(如诊断能力)的市场的法律和监管影响尚未在本文中进行调查,可能是未来研究的主题。第七,当数据大小超过pb时,解决方案的可伸缩性需要使用第二层解决方案(如Filecoin、ArWeave和Storj)进行研究。未来的研究可以突出更多基于IPFS的性能解决方案。

结论

在本文中,我们提出、设计并原型化了PGHD数据的去中心化市场。我们提出了一种机制,通过这种机制,不同的参与者(如数据创造者、卖家和增值服务提供商)可以透明地将数据货币化。同样,我们的设计试图支持HIPAA法规,为用户、平台创建者和生态系统中的其他利益相关者提供隐私、安全和法律保护。

这样的市场可以改善(1)市场中可用数据的质量,并将确保(2)更多高质量的数据可用于人工智能驱动的疾病分析和诊断。我们去中心化PGHD市场的显著特征如下:

  • 在医疗保健数据市场中,不仅数据提供者(如患者、数据聚合者或数据启用者)能够从他们创建和拥有的数据中获得价值,而且诊断实验室、数据聚合者和应用程序创建者等中介机构也能从中受益。
  • 数据来源问题得到了缓解,因为区块链支持所有权变更和数据来源的可跟踪性和历史审计。
  • 在PGHD市场中,该体系结构有助于不同的买家和卖家在市场上提供他们的数据,从而使市场在访问、价格和安全性方面更有效。
  • 在PGHD市场中,数据所有者和提交数据的人有能力在市场中赚取收入,并为他们提供的数据获得版税,从而将他们自己的健康数据货币化。

利益冲突

没有宣布。

多媒体附件1

重要的代码片段清单、元数据清单和直接来自公共区块链基础设施的区块链信息。

DOCX文件,569 KB

多媒体附件2

定义去中心化市场与其他形式的医疗交易所之间区别的表格,包括密钥管理的最佳做法。

DOCX文件,24kb

多媒体

去中心化市场的展示。

MOV文件,94702 KB

  1. Kruse CS, Goswamy R, Raval Y, Marawi S.大数据在医疗保健中的挑战和机遇:系统综述。JMIR Med Inform 2016年11月21日;4(4):e38 [免费全文] [CrossRef] [Medline
  2. Tiase VL, Hull W, McFarland MM, scarward KA, Del Fiol G, states C,等。患者生成的健康数据和电子健康记录集成:范围审查。JAMIA公开赛2020年12月3日(4):619-627 [免费全文] [CrossRef] [Medline
  3. Triantafyllidis A, Kondylakis H, Katehakis D, Kouroubali A, Koumakis L, Marias K,等。移动健康中的深度学习在心血管疾病、糖尿病和癌症中的应用:系统综述。JMIR Mhealth Uhealth 2022 04月04日;10(4):e32344 [免费全文] [CrossRef] [Medline
  4. 徐伟,刘勇。mHealthApps:移动健康应用程序的存储库和数据库。JMIR Mhealth Uhealth 2015年3月18日;3(1):e28 [免费全文] [CrossRef] [Medline
  5. 李国强,李国强,李国强。计算研究患者数据存储库的好处。AMIA年度诉讼程序2006;2006:1044 [免费全文] [Medline
  6. Sengupta A, Subramanian H.用户使用移动区块链应用程序控制个人移动健康数据:设计科学的视角。JMIR Mhealth Uhealth 2022年1月20日;10(1):e32104 [免费全文] [CrossRef] [Medline
  7. Bai J, Jhaney I, Wells J.使用亚马逊网络服务云为癌症研究小组开发可重复的微生物组数据分析管道:概念验证研究。JMIR Med Inform 2019 11月11日;7(4):e14667 [免费全文] [CrossRef] [Medline
  8. Hoyt RE, Snider D, Thompson C, Mantravadi S. IBM Watson分析:自动化可视化,描述性和预测性统计。JMIR公共卫生监测2016年10月11日;2(2):e157 [免费全文] [CrossRef] [Medline
  9. Santo K, Richtering SS, Chalmers J, Thiagalingam A, Chow CK, Redfern J.手机应用程序提高药物依从性:识别高质量应用程序的系统逐步过程。JMIR Mhealth Uhealth 2016年12月02日;4(4):e132 [免费全文] [CrossRef] [Medline
  10. Sifrim A, Van Houdt JK, Tranchevent LC, Nowakowska B, Sakai R, Pavlopoulos GA,等。注释:对人类疾病中单核苷酸变异的注释、分析和解释的瑞士刀方法。基因组医学2012 9月26日;4(9):73 [免费全文] [CrossRef] [Medline
  11. Frost JH, Massagli MP。在线患者社区PatientsLikeMe中个人健康信息的社交使用:当患者可以访问彼此的数据时会发生什么?J Med Internet Res 2008年5月27日;10(3):e15 [免费全文] [CrossRef] [Medline
  12. Subramanian H.基于区块链的去中心化电子市场。通讯ACM 2018年1月;61(1):78-84。[CrossRef
  13. 方海生,谭涛,谭永飞,谭佳杰。区块链个人健康记录:系统回顾。J medical Internet Res 2021 april 13;23(4):e25094 [免费全文] [CrossRef] [Medline
  14. Kumar R, Tripathi R.基于区块链的点对点数据存储框架,使用星际文件系统。在:Krishnan S, Balas VE, Julie EG, Robinson YH, Balaji S, Kumar R,编辑。区块链技术研究手册。美国剑桥:学术出版社;2020:35-59。
  15. 麦卡锡·n·自动驾驶汽车公司将继续前行。Statista》2021。URL:https://www.statista.com/chart/17144/test-miles-and-reportable-miles-per-disengagement/[2023-01-11]访问
  16. 刘淑娟,张杰,王玉玲。移动健康应用的可用性挑战:移动健康专家和消费者的混合方法研究。JMIR Mhealth Uhealth 2019 1月30日;7(1):e12160 [免费全文] [CrossRef] [Medline
  17. 张志辉,崔俊,卢华伟,孙世杰,洪超,金永勇,等。活动记录仪数据中缺失值的深度学习方法:算法开发研究。JMIR Mhealth Uhealth 2020年7月23日;8(7):e16113 [免费全文] [CrossRef] [Medline
  18. Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS,等。基于深度学习的视网膜眼底照片心血管危险因素预测。生物医学工程2018年3月2日(3):158-164。[CrossRef] [Medline
  19. Rolnick J, Ward R, Tait G, Patel N.大型学术医疗中心苹果健康记录的早期采用者:用户的横断面调查。J Med Internet Res 2022年1月25日;24(1):e29367 [免费全文] [CrossRef] [Medline
  20. Velmovitsky PE, Bublitz FM, Fadrique LX, Morita PP.区块链在卫生保健和公共卫生中的应用:增加透明度。JMIR Med Inform 2021年6月08日;9(6):e20713 [免费全文] [CrossRef] [Medline
  21. Ichikawa D, Kashiyama M, Ueno T.使用区块链技术的抗篡改移动健康。JMIR Mhealth Uhealth 2017年7月26日;5(7):e111 [免费全文] [CrossRef] [Medline
  22. 姜松,曹军,吴宏,杨勇,马明,何杰。Blochie:基于区块链的医疗信息交换平台。见:2018年IEEE智能计算国际会议论文集。2018年发表于:SMARTCOMP '18;2018年6月18日至20日;陶尔米纳,意大利,页49-56。[CrossRef
  23. Gagalova KK, Leon Elizalde MA, Portales-Casamar E, Görges M.在实施临床研究数据仓库之前需要知道的事情:卫生保健机构集成数据仓库的比较回顾。JMIR Form Res 2020年8月27日;4(8):e17687 [免费全文] [CrossRef] [Medline
  24. El-Gazzar R, Stendal K.区块链在医疗保健:希望还是炒作?J Med Internet Res 2020 july 10;22(7):e17199 [免费全文] [CrossRef] [Medline
  25. Khurshid A.应用区块链技术解决COVID-19大流行期间的信任危机。JMIR Med Inform 2020年9月22日;8(9):e20477 [免费全文] [CrossRef] [Medline
  26. 罗宾斯R,塞克萨斯A,马斯特斯LW,钱科N,迪亚比F,维埃拉D,等。睡眠追踪:使用商业可用技术对研究进行的系统回顾。高级睡眠医学报告2019;5(3):156-163 [免费全文] [CrossRef] [Medline
  27. Averin A, Samartsev A, Sachenko N.区块链中确保匿名和去匿名化方法的回顾。在:2020年质量管理、运输和信息安全、信息技术国际会议论文集,2020年发表于:ITQMIS '20;2020年9月7日至11日;俄罗斯雅罗斯拉夫尔,第82-87页。[CrossRef
  28. Beinke JH, Fitte C, Teuteberg F.面向利益相关者的基于区块链的电子健康记录架构:设计科学研究。J Med Internet Res 2019 10月07日;21(10):e13585 [免费全文] [CrossRef] [Medline
  29. 潘建伟,陈志伟,陈志伟。信息系统研究中的设计科学研究方法。中国机械工程学报,2007;24(3):45-77。[CrossRef
  30. Subramanian H, Liu R.区块链与智能合约:综述。J数据库管理201:7-26 [免费全文
  31. Subramanian H, Subramanian S.通过数字病理学改善诊断:使用智能合约和去中心化文件存储的概念验证实现。J Med Internet Res 2022年3月28日;24(3):e34207 [免费全文] [CrossRef] [Medline
  32. Battah AA, Madine MM, Alzaabi H, Yaqoob I, Salah K, Jayaraman R.访问IPFS加密数据的基于区块链的多方授权。IEEE Access 2020年10月27日;8:196813-196825[CrossRef
  33. O’donoghue O, Vazirani AA, Brindley D, Meinert E.卫生保健区块链实施中的设计选择和权衡:系统回顾。J Med Internet Res 2019年5月10日;21(5):e12426 [免费全文] [CrossRef
  34. Kumar S, Bharti AK, Amin R.使用区块链和IPFS的分散安全医疗记录存储:与未来方向的比较分析。安全Priv 2021 4月27日;4(5):e162。[CrossRef
  35. 林勇,张晨。IPFS中私有数据的一种保护方法。在:IEEE第24届计算机支持设计协同工作国际会议论文集。2021年发表于:CSCWD '21;2021年5月5日至7日;中国大连,p. 404-409。[CrossRef


API:应用程序编程接口
CID:内容标识符
伦理委员会:以太坊请求评论
催促:卫生信息交换
HIPAA:《健康保险携带和责任法案》
ipf:星际文件系统
非功能性测试:nonfungible令牌
PGHD:患者生成的健康数据
RPDR:研究患者数据存储库


编辑:G Eysenbach, T Leung;提交15.09.22;C Baxter, M Platt, T Smith的同行评审;对作者10.10.22的评论;订正版本收到14.01.23;接受22.01.23;发表27.02.23

版权

©Hemang萨勃拉曼尼亚。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2023年2月27日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map