JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v23i3e26997 33556034 10.2196/26997 原始论文 原始论文 COVID-19大流行前和期间人工智能临床医生的偏好:离散选择实验和倾向评分匹配研究 Basch 科里 Imeri Hyllore 萨普克塔 Binaya 陶然 二元同步通信 1 https://orcid.org/0000-0002-7806-1263 曾荫权 Winghei 黑带大师 2 https://orcid.org/0000-0003-4350-3559 Yifei 黑带大师 2 https://orcid.org/0000-0002-1466-329X 二元同步通信 3. https://orcid.org/0000-0002-8302-693X Fengqiu 英里每小时 1 https://orcid.org/0000-0002-3170-6773 Yanhui 黑带大师 2 https://orcid.org/0000-0002-0826-1788 Oiying 黑带大师 2 https://orcid.org/0000-0002-6393-9467 Guanrui 英里每小时 1 https://orcid.org/0000-0002-8862-2976 英里每小时 1 https://orcid.org/0000-0002-1567-1638 Bojia 学士,硕士 4 https://orcid.org/0000-0002-4942-837X 二元同步通信 3. https://orcid.org/0000-0002-9360-6532 俊杰 二元同步通信 5 https://orcid.org/0000-0002-4800-2545 翳明 BEcon 6 https://orcid.org/0000-0002-5936-7232 胡雪岩 BEcon 1 https://orcid.org/0000-0001-9611-0447 Akinwunmi Babatunde MD, MPH, MMSc 7 8 https://orcid.org/0000-0001-8316-1552 姜ydF4y2Ba 英里每小时,博士 9 https://orcid.org/0000-0002-3931-5013 卡斯珀 英里每小时,博士 10 https://orcid.org/0000-0003-1047-0287 Wai-Kit MD, PhD, MPH, MMSc 1
公共卫生和预防医学系 医学院 暨南大学 黄埔西街601号 天河区 广州,510632 中国 86 85228852 wkming@connect.hku.hk
https://orcid.org/0000-0002-8846-7515
公共卫生和预防医学系 医学院 暨南大学 广州 中国 国际学校 暨南大学 广州 中国 社会科学学院 南安普顿大学 南安普顿 联合王国 应用数学系“, 香港理工大学 香港 香港 计算机科学与技术学院 河南工业大学 河南 中国 应用数学学院 北京师范大学(珠海) 珠海 中国 妇产科 布莱根妇女医院 波士顿 美国 麻省总医院基因组医学中心 哈佛医学院 哈佛大学 波士顿 美国 流行病学与生物统计学系“, 公共卫生学院 伦敦帝国理工学院 伦敦 联合王国 公共卫生学院 香港大学 香港 香港 通讯作者:Wai-Kit Ming wkming@connect.hku.hk 3. 2021 2 3. 2021 23 3. e26997 7 1 2021 28 1 2021 28 1 2021 1 2 2021 ©刘陶然、曾文黑、谢艺菲、田康、黄凤秋、陈艳辉、刘艾英、冯冠瑞、杜建豪、褚伯嘉、史廷玉、赵俊杰、蔡一鸣、胡雪岩、巴巴通德·阿金武米、黄健、Casper J P Zhang、明伟杰。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.03.2021。 2021

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

人工智能(AI)方法有可能被用于缓解COVID-19大流行对公共卫生造成的压力。在疫情导致医疗资源短缺的情况下,人们对人工智能临床医生和传统临床医生偏好的变化值得探索。

客观的

我们旨在量化和比较人们在COVID-19大流行之前和期间对人工智能临床医生和传统临床医生的偏好,并评估人们的偏好是否受到大流行压力的影响。

方法

我们使用倾向得分匹配方法来匹配具有相似人口统计学特征的两组不同的受访者。受访者是在2017年和2020年招募的。共2048名受访者(2017年:n=1520;2020年:n=528)完成问卷调查并纳入分析。采用多项logit模型和潜在类别模型评估人们对不同诊断方法的偏好。

结果

总体而言,2017年组中84.7%(1115/1317)的受访者和2020年组中91.3%(482/528)的受访者相信,未来AI诊断方法将优于人类临床医生的诊断方法。两组匹配的受访者都认为诊断的最重要属性是准确性,他们更愿意接受人工智能和人类临床医生的联合诊断(2017:优势比[OR] 1.645, 95% CI 1.535-1.763; P<措施;2020年:或1.513,95% ci 1.413-1.621; P<措施;参考文献:临床诊断)。潜在类模型识别了三个具有不同属性优先级的类。在1类患者中,2017年和2020年对联合诊断和准确性的偏好保持不变,首选高准确性(例如,2017年100%准确性:OR 1.357, 95% CI 1.164-1.581)。在第2类中,2017年与2020年的匹配数据相似;人工智能和人类临床医生的联合诊断(2017年:OR 1.204, 95% CI 1.039-1.394; P= .011;2020:或2.009,95% ci 1.826-2.211; P<措施;参考文献:临床医生诊断)和门诊等待时间为20分钟(2017年:OR 1.349, 95% CI 1.065-1.708; P<措施;2020:或1.488,95% ci 1.287-1.721; P<措施;参考:0分钟)始终是首选。在第三类中,2017年组和2020年组的受访者偏好不同的诊断方法;2017年组的受访者更喜欢临床医生诊断,而2020年组的受访者更喜欢人工智能诊断。在按性别分层的潜在类别中,2017年和2020年组的所有男性和女性受访者都认为准确性是诊断的最重要属性。

结论

个人对接受人工智能和人类临床医生临床诊断的偏好通常不受大流行的影响。受访者认为,准确性和费用是诊断的最重要属性。这些发现可用于指导与基于人工智能的医疗保健发展相关的政策。

倾向得分匹配 离散潜在特征 病人的偏好 人工智能 新型冠状病毒肺炎 偏好 离散选择 选择 传统医学 公共卫生 资源 病人 诊断 精度
简介

人工智能(Artificial intelligence, AI)技术,又称机器智能技术,已被应用于自动化、语言、图像理解与分析、遗传算法研究等各个领域。在执行特定任务时,人工智能技术可以比人类表现得更好,而且这种技术有可能取代人类的一些传统职业。这是医学、神经科学、机器人和统计学不断进步的结果。在医疗保健领域[ 1],人工智能技术有许多广泛的应用,这种技术的使用为未来带来了广泛的机会。例如,机器学习技术已被用于分析医疗大数据和电子健康记录,进行计算机视觉研究,促进自然语言处理,以及开发智能机器人[ 2].此外,人工智能技术还帮助解决了群众对增加临床医生服务数量的需求[ 3.].

截至2020年11月13日,新型冠状病毒病已在超过217个国家蔓延[ 4和世界各地的领土。疫情也给全球公共卫生安全系统带来了巨大威胁和挑战。新冠肺炎疫情将许多国家的医疗体系和资源推向崩溃的边缘。包括诊断机器学习技术在内的诊断AI技术,已经开始在减轻大流行对公共卫生系统造成的负担和缓解医疗资源短缺方面发挥作用。在新冠肺炎疫情爆发之初,阿里巴巴发现、冒险、动力、展望研究院的医疗AI团队迅速开发了一套AI诊断技术,可以在20秒内解读疑似COVID-19患者(即新冠肺炎病例)的计算机断层扫描图像,准确率达96% [ 5].在防治这种流行病的斗争中[ 6],云计算、人工智能、区块链等数字技术发挥了重要作用。

人工智能技术与人类临床操作卷积神经网络的结合[ 7极大地提高了诊断方法的效率和准确性,大幅减少了诊断次数和门诊排队时间。2014年,来自世界各地的应用程序开发者通过销售人工智能医疗保健应用程序共赚取6.638亿美元,预计2021年他们的收入将达到6.662亿美元[ 8].然而,中国高收入地区和低收入地区患者(即男性和女性)对不同诊断方法的偏好存在各种不确定性。此外,目前还没有研究评估COVID-19大流行之前和期间患者对人工智能临床医生和人类临床医生的偏好,并分析不同时间段患者决策行为的各个方面。

这项研究旨在比较人们在COVID-19大流行之前和期间对人工智能诊断和传统诊断(即人类临床医生的诊断)的偏好。我们评估了两组具有相似人口统计学特征的受访者。我们在2017年招募了一组,在2020年招募了另一组,以了解人们对人工智能和传统人类临床医生的偏好是否受到COVID-19大流行压力的影响。我们进行倾向评分匹配(PSM)来匹配两组。我们还进行了离散选择实验(DCE),以量化和衡量人们对不同诊断方法的偏好,并确定破坏和影响人们决策行为的因素。

方法 概述

我们设计了一份基于网络的问卷来收集参与者的人口统计信息,并调查患者对不同诊断策略的偏好( 多媒体附件1).简而言之,调查问卷包括7个类似的假设场景。受访者被要求为每种情况选择首选的诊断策略。

我们使用PSM方法来匹配两组不同的受访者(即2017年组和2020年组),他们具有相似的人口统计特征。此外,我们使用多项logit (MNL)模型[ 9 10]和潜在类别模型[ 11]以评估和调查受访者对不同诊断策略的偏好。我们还比较了2017年组与2020年组匹配的受访者的偏好,以确定诊断属性偏好的异质性或同质性。

属性和级别的选择

个人可以为每个诊断属性选择不同级别的医疗保健服务。本研究随机选取暨南大学附属第一医院(广州华侨医院)和中山大学附属第一医院门诊队列的患者。每个患者都被提示假设哪些诊断方法或属性对他们的决定有很大的影响(即,对每个参与者来说最重要的方法/属性)。

在评估患者的假设及相关文献后[ 12- 14],我们在问卷实验中纳入了以下6个诊断属性及其各自的级别:(1)诊断方法(级别:临床医生诊断、AI与临床医生诊断、AI诊断);(2)诊断过程开始前的门诊等待时间(级别:0、20、40、60、80和100分钟);(3)诊断时间(级别:0、15、30分钟);(4)准确率(即诊断正确率;等级:60%、70%、80%、90%、100%);(5)诊断后的随访(即医生是否可以随时进行随访;等级:是或否);(6)诊断费用(级别:0元、50元、100元、150元、200元、250元;汇率为¥1=US $0.16)。属性及其各自的级别显示在 文本框1

在这个离散选择实验中,诊断属性及其各自的水平。

诊断方法

描述:患者喜欢的诊断方法

级别:临床诊断、人工智能与临床诊断、人工智能诊断

门诊等候时间

描述:患者在诊断过程前排队等待的时间

级别:0分钟、20分钟、40分钟、60分钟、80分钟和100分钟

诊断时间

描述:病人得到诊断前的时间

级别:0分钟、15分钟和30分钟

诊断准确性

描述:诊断正确率

级别:60%、70%、80%、90%、100%

诊断后随访

描述:病例跟踪和诊断后随访

级别:是和不是

诊断费用

说明:诊断费用

级别:¥0、¥50、¥100、¥150、¥200和¥250(适用的货币汇率为¥1= 0.16美元)

DCE仪器设计与问卷调查

在设计我们的DCE仪器时,我们采用了分数阶乘设计方法[ 15 16]以确定最佳的治疗方案数量。这个过程是使用Lighthouse Studio 9.8.1版(锯齿软件)进行的。在实践中,对于受访者来说,在所有可能的属性和水平组合中进行选择并不总是可行的(即全阶乘设计)。DCE仪器的全析因设计有3240种不同的组合(即3 × 6 × 3 × 5 × 2 × 6 = 3264),这是一个不合理的选项。因此,分数阶乘法在DCE仪器的设计中是必不可少的。此方法基于以下两个原则[ 15- 17:(1)正交性,就DCE而言,这意味着每个属性级别应该与其他属性级别几乎没有相关性;(2)平衡,这意味着每个属性应该出现相同的次数。在考虑这些原则后,我们在DCE中向每位受访者提供了6个随机问题和1个固定问题。

DCE问卷包含两个部分。第一部分要求受访者填写他们的人口统计信息,如年龄(即18-20岁,21-25岁,26-30岁,31-35岁,36-40岁,41-45岁,46-50岁,51-55岁,56-60岁,61-65岁,66-70岁,71-75岁,76-80岁,81-85岁),性别(即男性或女性),教育程度(即小学生,小学毕业生,初中生,初中生,高中生,高中毕业生,本科生,学士学位,研究生,硕士学位,研究生,博士学位)。第二部分要求受访者考虑七种不同的情况。对于每一种情况,受访者都要想象他们正在排队等待诊断。然后他们被要求选择一种首选的诊断策略。在问卷调查的最后,受访者被要求估计AI临床医生超过人类临床医生所需的年数(即5年、10年、15年、20年、30年、40年或从未)。为不同类型的临床医生提供的场景和选项 多媒体附件2

数据收集

2017年10月和2020年8月,我们通过微信(腾讯公司)和QQ(腾讯公司)等各种社交媒体平台向不同年龄段的人发送了我们的网站链接。人们可以使用该链接访问DCE问卷,问卷对每个参与者都是相同的。为了提高回复率,我们为填写问卷的人提供了激励措施(如摇号购买Fitbit手表和现金奖励)。

在问卷调查的开始,我们提供了关于AI在医学中的应用的简要背景。这包括关于人工智能临床医生和传统临床医生的潜在优势和劣势的信息,以及我们DCE的目的。问卷只需要5-10分钟即可完成。受访者必须点击“同意接受调查”按钮,开始填写调查问卷。一旦受访者点击“同意接受调查”按钮,他们就会被通知他们自愿选择参与这项研究。受访者还被告知,他们的隐私受到法律保护。

PSM

PSM是一种回归方法,用于识别治疗组和对照组患者的基本特征相似。这种方法普遍用于影响因素和因果效应的研究,如医疗、政策决定或案例研究。PSM包括以下五个步骤[ 18:(1)倾向得分估计;(2)选择匹配算法;(3)检查重叠/共同支撑;(4)估计匹配结果的质量和效果;(5)进行敏感性分析。PSM的数学理论主要基于罗伊-罗宾模型[ 19- 21].我们的目标是进行PSM分析,其中2017年招募的参与者被视为治疗组,2020年招募的参与者被视为对照组。中提供了参与者的PSM数据 多媒体 18].我们根据年龄、性别和教育水平等人口统计学特征对每组受访者进行了匹配。所有人口统计信息都被编码为虚拟变量;例如,男性受访者被编码为“1”,女性受访者被编码为“0”。

匹配算法

虽然有各种匹配算法[ 18],我们使用了最近的邻居[ 22算法,因为它适用于识别一个组中的个体与另一个组中的个体最匹配。最近邻算法的另一个优点是可以区分对照组中的个体和处理组中的个体,这保证了所有被处理的个体都被成功匹配。因此,最近邻算法能提供最多的实验组和对照组的信息。此外,我们进行了1:1的匹配分析,有效地降低了混杂偏倚[ 23提高研究效率和可信度。

统计分析 MNL模型

有多种分析模型可用于进行dce相关的统计分析,如随机效应二元probit和logit模型、MNL模型和混合logit模型[ 16 24].DCE的理论模型是基于随机实用新型( 多媒体附件4) [ 16].我们假设受访者的选择将最大化DCE问卷中每个问题的效用。决策者的整体效用基于固定效用和随机效用,两者是不可观察的。我们通过分析受访者的评论来评估他们的偏好。这使我们能够识别通过分析问题无法识别的随机实用程序。

我们使用MNL模型分析了人们对不同属性级别的偏好。我们的自变量只解释了与医疗保健计划相关的属性;它没有说明与参与者有关的任何信息。MNL模型用于分析受访者的医疗保健计划,这些计划是根据计划属性和“无”选项的相对重要性来选择的。每位参与者选择的医疗保健计划的编码值是根据参与者对排队时间、诊断时间和诊断成本等问题的编码回答计算出来的。我们使用极大似然方法分析MNL模型数据。

MNL模型的结果是由医疗保健计划的选项确定的,因为在分析之前对该属性的数据进行了分组。在MNL模型中,“效果”等同于“效用”。因此,正的MNL模型系数表明,对于同一属性,个体更喜欢某一层次的服务。本研究中的MNL模型基于相似的逻辑回归模型。基于MNL模型的观察结果与与同一个体对应的块中的观察结果相关联。与经典的logit模型中每个个体有一条水平线不同,MNL模型中每个感兴趣的属性水平(即每个个体)有一条水平线。例如,在本研究中,我们分析了三种类型的诊断(即临床医生诊断,AI和临床医生诊断,以及AI诊断),每种类型都有自己的特点。然而,个人只能选择三种诊断类型中的一种。根据MNL模型的特点,所有三个选项都呈现给每个受访者,所有受访者都可以选择自己喜欢的选项。我们报告了受访者对不同属性级别偏好的比值比(ORs)。

中国大陆

我们使用了LCM [ 11]为有相似偏好的个人创建不同的类别。LCM的目的是识别显式变量之间的相关性,创建最少数量的类,并实现局部独立性。LCM最初假设空模型是假设的模型,并且显式变量之间存在局部独立性。然后,LCM增加空模型中潜在类别的数量,并使用最大似然方法创建基于参数限制的各种模型。然后LCM测试假设模型和观测数据,将假设模型与其他模型进行比较,并确定最合适的模型。虽然有不同类型的模型信息评价标准,Akaike信息标准[ 25]和贝叶斯信息准则[ 26]是最常用的选择lcm的标准。模型建立后,观测数据被划分为适当的潜在类别。

支付意愿

支付意愿(WTP)是衡量个体愿意牺牲多少(即经济牺牲)来选择一个诊断属性级别而不是另一个诊断属性级别(即参考属性级别)的有效指标。我们分析了参与者的WTP,以确定参与者偏好的同质性和异质性。

软件

倾向评分匹配使用Stata 16 (StataCorp LLC)进行,MNL模型和lcm使用Lighthouse Studio version 9.8.1 (Sawtooth Software)创建。

结果 数据收集

在2017年访问我们的DCE网站的1520人中,1317人(86.6%)完成了问卷调查并被纳入分析。在这1317名受访者中,1317人(100%)年龄在18-85岁之间,731人(55.5%)是女性,1115人(84.7%)认为人工智能临床医生将超过或取代人类临床医生。

在2020年访问我们新的DCE网站的874人中,528人(60.4%)完成了问卷调查。在这528名参与者中,272名(51.5%)是女性,482名(91.3%)相信人工智能诊断优于传统诊断。

一般PSM和MNL模型结果

在2017年招募的1317名受访者中,528名(40.1%)与2020年招募的528名受访者匹配(即通过PSM)。PSM程序介绍在 图1,而受访者在PSM前后的人口学特征则呈现在 表1.2017年和2020年组的一般MNL模型结果显示在 表2,表示估计的平均偏好权重(即效果权重), P值、or值和95%置信区间。一般来说,2017年和2020年组的个体认为准确性是最重要的诊断属性( 图2).2017年组的加权准确度重要值为38.53%,2020年组的加权准确度重要值为40.55%。受访者认为诊断时间是最不重要的属性(2017年加权重要性:2.69%;2020年加权重要性:1.16%)。此外,2017年和2020年组中的个体更倾向于接受人工智能和人类临床医生的联合诊断,而不是仅接受人工智能诊断或仅接受人类临床医生诊断(2017:or 1.645, 95% CI 1.535-1.763;2020年:或1.513,95% ci 1.413-1.621;参考文献:临床诊断; 表2).此外,随着诊断准确度的提高,各诊断准确度水平的or值也随之增加,说明人们总是倾向于选择准确率高的诊断方法。例如,在2017年的组中,100%准确率的OR为5.043 (95% CI为4.534-5.609)。在2020年组中,100%准确率的OR为5.263 (95% CI 4.734, 5.852)。2017年组中匹配的受访者的偏好与2020年组中的受访者非常相似。

倾向得分匹配程序。

非匹配和倾向得分匹配受访者的人口统计学特征。

基线匹配特征 非匹配受访者 倾向得分匹配的受访者
2017组(n=1317), n (%) 2020组(n=528), n (%) P价值 2017年组(n=528), n (%) 2020组(n=528), n (%) P价值
<措施 .97点
男性 586 (44.5) 256 (48.48) 250 (47.35) 256 (48.48)
731 (55.5) 272 (51.52) 278 (52.65) 272 (51.52)
年龄(年) <措施 i =
< 35 1106 (83.98) 348 (65.91) 379 (71.78) 348 (65.91)
≥35 211 (16.02) 180 (34.09) 149 (28.22) 180 (34.09)
最高教育水平 <措施 13。
小学毕业到本科 1033 (78.44) 336 (63.64) 385 (72.92) 336 (63.64)
学士学位到博士学位 284 (21.56) 192 (36.36) 143 (27.08) 192 (36.36)

多项logit模型的一般结果。报告了2017年和2020年倾向得分匹配的受访者对诊断属性的偏好数据(N=528)。

属性和级别 2017年集团 2020年集团
影响系数 P价值 优势比(95% CI) 影响系数 P价值 优势比(95% CI)
诊断方法
临床医生 −0.15 <措施 参考 −0.05 参考
人工智能和临床医生 0.35 <措施 1.64 (1.535 - -1.763) 0.36 <措施 1.51 (1.413 - -1.621)
人工智能 −0.20 <措施 0.95 (0.885 - -1.016) −0.31 <措施 0.78 (0.725 - -0.833)
门诊等候时间(分钟)
0 0.31 <措施 参考 0.15 . 01 参考
20. 0.12 03 0.82 (0.741 - -0.914) 0.26 <措施 1.12 (1.013 - -1.245)
40 −0.03 .57 0.71 (0.639 - -0.789) −0.02 开市 0.85 (0.762 - -0.942)
60 −0.08 0.67 (0.606 - -0.748) −0.20 <措施 0.71 (0.640 - -0.788)
80 −0.31 <措施 0.54 (0.482 - -0.595) −0.20 <措施 0.71 (0.640 - -0.789)
诊断时间(分钟)
0 0.05 .19 参考 −0.02 .57 参考
15 −0.07 06 0.89 (0.834 - -0.957) −0.01 1.01 (0.946 - -1.084)
30. 0.02 53 0.98 (0.912 - -1.046) 0.03 1.05 (0.980 - -1.122)
诊断准确率(%准确率)
60 −0.83 <措施 参考 −0.83 <措施 参考
70 −0.35 <措施 1.62 (1.458 - -1.802) −0.41 <措施 1.52 (1.365 - -1.684)
80 0.07 16 2.47 (2.235 - -2.737) −0.02 开市 2.25 (2.033 - -2.487)
90 0.32 <措施 3.18 (2.867 - -3.526) 0.43 <措施 3.51 (3.169 - -3.891)
One hundred. 0.79 <措施 5.04 (4.534 - -5.609) 0.83 <措施 5.26 (4.734 - -5.852)
诊断后随访
是的 0.20 <措施 参考 0.19 <措施 参考
没有 −0.20 <措施 0.67 (0.620 - -0.698) −0.19 <措施 0.69 (0.656 - -0.715)
诊断费用(¥)一个
0 0.42 <措施 参考 0.36 <措施 参考
50 0.28 <措施 0.87 (0.769 - -0.976) 0.23 <措施 0.88 (0.782 - -0.989)
One hundred. −0.01 总共花掉 0.65 (0.576 - -0.730) 0.18 <措施 0.83 (0.738 - -0.935)
150 0.03 0.67 (0.599 - -0.760) −0.06 .30 0.65 (0.580 - -0.736)
200 −0.24 <措施 0.52 (0.459 - -0.585) −0.19 <措施 0.58 (0.510 - -0.648)
250 −0.47 <措施 0.41 (0.363 - -0.465) −0.52 <措施 0.41 (0.366 - -0.468)

一个货币汇率为¥1=US $0.16。

2017年和2020年诊断属性加权重要性的一般估计。

整体WTP

2017年,受访者愿意支付13.99元,接受人工智能和人类临床医生的联合诊断。此外,人们不愿意为更长的门诊等待时间付费,但他们愿意为更高的诊断准确性付费(即,准确性每增加1%,1.60元)。2020年,受访者愿意支付0.79元,接受人工智能和人类临床医生的联合诊断,而不是仅由临床医生进行诊断。与2017年受访者对某些诊断方法的WTP相比,2020年受访者的WTP更低。此外,与2017年组类似,2020年组的受访者也不愿意为更长的门诊等待时间付费。然而,他们愿意为更高的诊断准确性付费。

中国大陆的结果

在比较了各个潜在类别的赤池信息标准、贝叶斯信息标准和赤池/贝叶斯信息标准后,我们选择了三个最适合2017年和2020年组匹配的受访者的类别。2017年组匹配的受访者在三个类别中的比例分别为43.2%(第一类:228/528)、42.2%(第二类:223/528)和14.6%(第三类:77/528)。2020年组匹配的受访者在三个类别中的比例分别为44.8%(第一类:237/528)、48.2%(第二类:254/528)和7%(第三类:37/528)。

对于第1类(n=228), 图3显示2017年组匹配的受访者认为诊断方法是最重要的属性(加权重要度为32.95%),其次是诊断费用(加权重要度为18.14%)。在第2类中,2017组匹配的受访者认为诊断准确性(加权重要度:49.92%)和诊断费用(加权重要度:19.84%)是最重要的属性。在第3类中,2017年组匹配的受访者认为诊断准确性(加权重要性:25.66%)和诊断费用(加权重要性:23.21%)是最重要的属性。在第一类中,2020年组受访者认为诊断费用(加权重要度为29.99%)和诊断方法(加权重要度为28.99%)是最重要的属性。在第2类中,来自2020年组的受访者认为诊断准确性(加权重要性:52.34%)是最重要的属性,其次是诊断费用(加权重要性:14.44%)。在第三类中,2020年组的受访者认为诊断费用(加权重要性:36.21%)是最重要的属性,其次是诊断准确性(加权重要性:32.84%)。很明显,受访者认为最重要的三个因素是诊断准确性、诊断费用和诊断方法。在一些班级中,受访者认为诊断方法是最重要的属性。然而,受访者通常认为诊断准确性是最重要的属性,诊断费用是第二重要的属性。

2017年和2020年诊断属性的加权重要性,由潜在类别模型确定。

根据我们对第1类和第2类的or, 2017年组的受访者(表S1) 多媒体)首选联合诊断方法(class 1: OR 2.479, 95% CI 0.997 ~ 2.743;类2:OR 1.204, 95% CI 1.039-1.394)优于其他两种方法。对于第三类受访者来说,情况并非如此。第1类和第3类受访者倾向于门诊等待时间为0分钟,第1类和第2类受访者倾向于诊断时间为0分钟。所有阶层的受访者都倾向于诊断费用为0元。此外,2017年组的受访者(即所有类别的受访者)倾向于高诊断准确性(例如,3类100%的准确率:OR 4.899, 95% CI 3.631-6.611)。所有类别的受访者都认为诊断后的随访很重要。

在第1类和第2类中,来自2020年组的受访者(表S2) 多媒体)首选联合诊断方法(class 1: OR 1.135, 95% CI 0.997 ~ 1.293;类别2:OR 2.009, 95% CI 1.826-2.211)。但第三类就不是这样了。第2类受访者倾向于门诊等待时间为20分钟(OR 1.488, 95% CI 1.287-1.721)。此外,与2017年组类似,2020年组的受访者(即所有班级的受访者)更喜欢高精度。诊断后的随访对2020年组的受访者(即所有类别的受访者)很重要。受访者偏好的强度在 图4;通过计算每个属性级别的偏好权重(即系数)来量化偏好强度。

偏好权重按年份(即2017年和2020年)和类别(即类别1、2和3)分层,由潜在类别模型确定。

我们发现受访者的WTP与各属性对应的ORs高度一致。在第1类和第2类中,2017年组的受访者( 表3)愿意为联合诊断方法付费。但第三类就不是这样了。此外,在第三类中,2017年组的受访者是唯一愿意支付更长诊断时间的受访者。2017年组的受访者(即所有类别的受访者)愿意为更高的诊断准确性和诊断后的随访付费。

在第1类和第2类中,来自2020年组的受访者( 表4)愿意为联合诊断方法付费。第三类则不是这样,在第三类中,受访者愿意为AI诊断方法支付更多的费用。来自2020年组的受访者(即所有类别的受访者)愿意为更短的门诊等待时间、更高的诊断准确性和诊断后的随访付费。

受访者WTP一个在2017年。b

属性 总WTP (N=528),¥(US $) 1类WTP (n=228),¥(US $) 2类WTP (n=223),¥(US $) 第三类WTP (n=77),¥(US $)
诊断方法
人工智能和临床医生 −13.99(−2.24) −3.03(−0.48) −0.22(−0.04) 0.31 (0.05)
人工智能 1.50 (0.24) −0.52(−0.08) 0.25 (0.04) 1.22 (0.20)
门诊等候时间 8.92 (1.43) 0.62 (0.10) 0.96 (0.15) 0.53 (0.09)
诊断时间 −0.57(−0.09) 0.07 (0.01) 0.07 (0.01) −0.44(−0.07)
诊断准确性 −1.14(−0.18) −0.44(−0.07) −2.85(−0.46) −1.20(−0.19)
诊断后随访 11.32 (1.81) 1.22 (0.20) 0.95 (0.15) 0.62 (0.10)
诊断费用 参考 参考 参考 参考

一个WTP:支付意愿。

b负货币价值指的是受访者愿意为另一个级别支付的金额。

受访者WTP一个在2020年。b

属性  总WTP (N=528),¥(US $) 第一类WTP (n=237),¥(US $) 第2类WTP (n=254),¥(US $) 第三类WTP (n=37),¥(US $)
诊断方法
人工智能和临床医生 −0.79(−0.13) −0.17(−0.03) −1.33(−0.21) −1.31(−0.21)
人工智能 0.48 (0.07) 0.54 (0.09) 0.42 (0.07) −1.62(−0.26)
门诊等候时间 0.38 (0.06) 0.70 (0.11) 0.19 (0.03) 0.61 (0.10)
诊断时间 −0.05(−0.01) −0.04(−0.01) 0.004 (0.001) 0.06 (0.01)
诊断准确性 −1.60(−0.26) −3(−0.48) −0.44(−0.07) −5.65(−0.90)
诊断后随访 0.73 (0.12) 1.46 (0.23) 0.25 (0.04) 2.31 (0.37)
诊断费用 参考 参考 参考 参考

一个WTP:支付意愿。

b负货币价值指的是受访者愿意为另一个级别支付的金额。

根据根据性别对数据进行分层的LCM, 2017年组的男性受访者( 图5)认为最重要的属性是诊断准确性(加权重要度为39.14%),其次是诊断费用(加权重要度为21.39%)。2017年组的女性受访者还认为诊断准确性(加权重要性:37.41%)和诊断费用(加权重要性:20.74)是最重要的属性。2020年组的男性受访者认为诊断准确性(加权重要性:36.74%)是最重要的属性,其次是诊断费用(加权重要性:23.84%)。此外,2020年组的女性受访者认为诊断准确性(加权重要性:41.69%)是最重要的属性,其次是诊断费用(18.96%)。2017年组和2020年组的男性和女性受访者的LCM显示,这些受访者的偏好之间没有明显的异质性。

2017年和2020年诊断属性的加权重要性,由潜在类别模型确定,该模型根据性别(即男性和女性受访者)对数据进行分层。

讨论 主要结果

在这项研究中,我们通过分析2017年和2020年(即在COVID-19大流行之前和期间)招募的两组不同的个体,收集了人们对基于人工智能的诊断的偏好信息。我们使用PSM方法来匹配具有相似人口统计学特征(即年龄、性别和教育水平)的两组受访者。在比较了2017年和2020年人口统计学上相似的受访者后,我们没有发现受访者的偏好有任何实质性差异。诊断准确性和诊断费用是影响受访者偏好的最重要因素。

DCE问卷的成功与否总是取决于回复率。换句话说,积极点击网站链接并完成问卷的人对于扩大样本量和研究范围至关重要。通过使用PSM方法,我们能够轻松评估人们在正常时期的偏好是否在异常时期(即COVID-19大流行)发生变化。

在这项研究中,我们使用了两个不同的模型——MNL模型和LCM模型。这两种模型在量化受访者偏好方面都有各种优点和缺点。根据一般的PSM logit模型,两组受访者一致认为准确性是最重要的诊断属性,无论他们对诊断方法的偏好如何。此外,诊断费用在2017年和2020年都是影响受访者决策的重要因素。受访者认为这是第二重要的品质。在中国,医疗资源的可及性和可用性有限是一个大问题,特别是在中国的一些农村地区。这些问题都是医保分配不足的结果[ 27 28以及该国较低的人均收入。

我们发现,人们对不同诊断的偏好在很大程度上是相似的。这表明,人们对不同诊断的决定和偏好不受大流行相关因素的显著影响。然而,根据我们的LCM,不同群体的受访者(如男性和女性受访者)的偏好存在轻微的异质性。在logit模型中没有观察到这种异质性。尽管准确性的加权重要性在所有阶层中保持一致,但它可能不是影响人们决策的最重要因素。在第一类中,2017年和2020年组的受访者认为诊断费用是影响他们决策的最重要因素,其次是诊断方法。根据LCM结果,2017年和2020年组的男性受访者认为,诊断准确性是选择诊断策略时考虑的最重要属性。

关于属性水平,我们发现受访者通常更喜欢接受来自人工智能和人类临床医生的联合诊断,而不是来自单一来源的诊断(即人工智能诊断或人类临床医生的诊断)。这是可以理解的,因为受访者通常认为通过结合不同的诊断模式可以提高诊断的准确性。此外,应该指出的是,一些受访者更喜欢较长的诊断和门诊排队时间。虽然没有研究报告诊断时间和门诊时间与诊断准确性相关,但可能有些患者更喜欢等待医生,而不是接受更快的诊断,因为他们可能认为等待会导致更准确的诊断。人工智能服务的低可及性和高价格是一个重要问题,特别是在农村或低收入地区。因此,在对基于人工智能技术的服务定价之前,建议对居民进行调查并分析他们的可支配收入。对于农村居民,政府应考虑将人工智能诊断纳入医疗保险计划或相关补贴项目。另一个应该考虑的人工智能诊断因素是准确性,因为公司应该只推广和宣传具有高准确性的产品/服务。当基于AI技术的服务进入市场时,相关用户应在市场渗透初期考虑将AI技术与人类智慧结合起来。因此,未来AI诊断技术开发人员应注重提高诊断准确性和降低诊断成本,使这种技术惠及更广泛的患者。

限制

我们的研究有几个缺点和局限性,特别是关于我们的数据收集过程。很明显,我们的小样本量限制了我们分析的力量。此外,我们的样本可能不能代表整个中国人口。此外,基于人工智能技术的医疗服务的部署/分布有限,特别是在农村地区[ 29以及由未受教育居民组成的地区。因此,在人工智能技术普及之前,仍有许多障碍需要克服;为了推广概念项目,仍需要许多发展。

结论

我们的研究表明,2017年受访者对人工智能临床医生的偏好与2020年没有实质性差异。因此,人们对人工智能诊断和临床诊断的偏好没有受到COVID-19大流行的影响。然而,无论人们对诊断方法、等待时间和随访服务的偏好如何,对高诊断准确性和低诊断费用的偏好是明显的。

综上所述,在推广基于人工智能的医疗保健时,可负担性和准确性是应考虑的两个主要因素。随着人工智能技术的发展,人工智能与专业医疗的结合将更容易被大众接受。

调查的介绍。

补充问卷。

倾向得分匹配法。

随机实用新型。

补充表。

缩写 人工智能

人工智能

DCE

离散选择实验

中国大陆

潜在类模型

MNL

多项罗吉特机率

优势比

PSM

倾向得分匹配

WTP

支付意愿

没有宣布。

Y Z 年代 J F 医疗保健中的人工智能:文献计量分析 J医疗互联网服务 2020 07 29 22 7 e18228 10.2196/18228 32723713 v22i7e18228 PMC7424481 Vaira l Bochicchio 孔特 Casaluci 调频 Melpignano 一个 MamaBot:一个基于ML和NLP的系统,用于在怀孕期间支持妇女和家庭 IDEAS 2018:第22届国际数据库工程与应用研讨会论文集 2018 06 IDEAS 2018:第22届国际数据库工程与应用研讨会 2018年6月 圣乔瓦尼别墅,意大利 273 277 10.1145/3216122.3216173 F Y H 越南盾 Y H 年代 Y 越南盾 H Y 医疗保健领域的人工智能:过去、现在和未来 中风血管神经 2017 06 21 2 4 230 243 10.1136 / svn - 2017 - 000101 29507784 svn - 2017 - 000101 PMC5829945 世卫组织冠状病毒疾病(COVID-19)仪表盘 世界卫生组织 2021-02-09 https://covid19.who.int/table 人工智能新冠肺炎CT报告成为国家收藏 阿里巴巴达摩学院 2020 2021-02-09 https://damo.alibaba.com/events/67 Yassine 沙阿 Z 人工智能如何帮助对抗冠状病毒? 专家Rev抗感染Ther 2020 06 18 6 493 497 10.1080 / 14787210.2020.1744275 32223349 Zandieh 所以 Yoon-Flannery K 库珀曼 GJ Langsam DJ 海曼 D Kaushal R 电子与纸质办公实践中EHR实施的挑战 J Gen实习生 2008 06 23 6 755 761 10.1007 / s11606 - 008 - 0573 - 5 18369679 PMC2517887 从6亿美元到60亿美元,人工智能系统有望在医疗保健领域实现大幅市场扩张 Frost & Sullivan 2016 01 05 2021-02-09 https://ww2.frost.com/news/press-releases/600-m-6-billion-artificial- 麦克费登 D 多项logit模型基于回归的规范检验 J的经济 1987 34 1 - 2 63 82 10.1016 / 0304 - 4076 (87) 90067 - 4 阿拉斯 一个 离散选择理论,信息论,多项logit和重力模型 交通研究B部分:方法论 1983 2 17 1 13 23 10.1016 / 0191 - 2615 (83) 90023 - 1 格林 WH Hensher 离散选择分析的潜在类模型:与混合logit对比 交通研究B部分:方法论 2003 9 37 8 681 698 10.1016 / s0191 - 2615 (02) 00046 - 2 一个 Enquselassie F 在埃塞俄比亚北部阿姆哈拉地区,患者对医院卫生保健服务相关属性的偏好:一个离散选择实验 患者偏好坚持 2015 09 10 9 1293 1301 10.2147 / PPA.S87928 26396501 ppa - 9 - 1293 PMC4574886 Alizadeh AA Eftekhaari T 穆萨维 上海 Orouji 遗传算法 穆罕默 F Javidan 遗传算法 Kheir 党卫军 Dehbarez NT 使用2010-2011年离散选择实验,阿巴斯港患者对医院质量的偏好 生命科学J 2012 10 15 9 1882 1886 瑞安 使用联合分析来考虑患者的偏好,并超越健康结果:体外受精的应用 社会科学与医学 1999 02 48 4 535 546 10.1016 / s0277 - 9536 (98) 00374 - 8 10075178 S0277953698003748 Gunst 射频 梅森 RL 分数阶乘设计 威利交互式Rev计算统计 2009 08 19 1 2 234 244 10.1002 / wics.27 带有案例研究的用户指南:如何为偏远和农村地区的卫生人力招聘和保留进行离散选择实验 世界卫生组织 2021-02-09 https://www.who.int/hrh/resources/DCE_UserGuide_WEB.pdf?ua=1 贝利 类风湿性关节炎 析因设计中的平衡、正交性和效率因素 J R统计Soc系列B统计方法 1985 07 47 3. 453 458 10.1111 / j.2517-6161.1985.tb01374.x 经纪人卡利恩 Kopeinig 年代 为倾向分数匹配的实施提供了一些实用指导 经济调查 2008 01 31 22 1 31 72 10.1111 / j.1467-6419.2007.00527.x 鲁宾 DB 评估随机和非随机研究中治疗的因果效应 教育心理学 1974 66 5 688 701 10.1037 / h0037350 罗伊 广告 关于收入分配的一些思考 牛津经济学 1951 6 3. 2 135 146 10.1093 / oxfordjournals.oep.a041827 Castano-Munoz J Duart JM Sancho-Vinuesa T 面对面高等教育中的互联网:互动式学习能提高学术成就吗? Br J教育技术 2013 01 14 45 1 149 159 10.1111 / bjet.12007 成本 年代 扎尔茨贝格 年代 符号特征学习的加权最近邻算法 马赫学习 1993 1 10 57 78 10.1007 / bf00993481 奥斯丁 个人电脑 使用治疗加权反概率(IPTW)与生存分析时的方差估计 地中海统计 2016 12 30. 35 30. 5642 5655 10.1002 / sim.7084 27549016 PMC5157758 Hensher D 格林 W 混合logit模型:实践状态 交通运输(Amst) 2003 30. 133 176 10.1023 /: 1022558715350 坂本 Y 石黑浩 北川 G Reidel D 赤池信息标准统计 美国统计协会 1988 09 83 403 907 10.2307 / 2289329 Weakliem 戴斯。莱纳姆: 模型选择的贝叶斯信息准则的批判 社会学方法与研究 1999 02 01 27 3. 359 397 10.1177 / 0049124199027003002 R 越南盾 年代 Y H Z 中国农村卫生服务空间可达性评价——以东海县为例 国际J公平健康 2013 05 20. 12 35 10.1186 / 1475-9276-12-35 23688278 1475-9276-12-35 PMC3747861 X H Z J 中国初级卫生保健的空间可达性:以四川省为例 社会科学与医学 2018 07 209 14 24 10.1016 / j.socscimed.2018.05.023 29778934 s0277 - 9536 (18) 30258 - 2 J B 医疗人工智能技术在发展中国家农村地区的应用 卫生公平 2018 2 1 174 181 10.1089 / heq.2018.0037 30283865 10.1089 / heq.2018.0037 PMC6110188
Baidu
map