这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
人工智能(AI)方法有可能被用于缓解COVID-19大流行对公共卫生造成的压力。在疫情导致医疗资源短缺的情况下,人们对人工智能临床医生和传统临床医生偏好的变化值得探索。
我们旨在量化和比较人们在COVID-19大流行之前和期间对人工智能临床医生和传统临床医生的偏好,并评估人们的偏好是否受到大流行压力的影响。
我们使用倾向得分匹配方法来匹配具有相似人口统计学特征的两组不同的受访者。受访者是在2017年和2020年招募的。共2048名受访者(2017年:n=1520;2020年:n=528)完成问卷调查并纳入分析。采用多项logit模型和潜在类别模型评估人们对不同诊断方法的偏好。
总体而言,2017年组中84.7%(1115/1317)的受访者和2020年组中91.3%(482/528)的受访者相信,未来AI诊断方法将优于人类临床医生的诊断方法。两组匹配的受访者都认为诊断的最重要属性是准确性,他们更愿意接受人工智能和人类临床医生的联合诊断(2017:优势比[OR] 1.645, 95% CI 1.535-1.763;
个人对接受人工智能和人类临床医生临床诊断的偏好通常不受大流行的影响。受访者认为,准确性和费用是诊断的最重要属性。这些发现可用于指导与基于人工智能的医疗保健发展相关的政策。
人工智能(Artificial intelligence, AI)技术,又称机器智能技术,已被应用于自动化、语言、图像理解与分析、遗传算法研究等各个领域。在执行特定任务时,人工智能技术可以比人类表现得更好,而且这种技术有可能取代人类的一些传统职业。这是医学、神经科学、机器人和统计学不断进步的结果。在医疗保健领域[
截至2020年11月13日,新型冠状病毒病已在超过217个国家蔓延[
人工智能技术与人类临床操作卷积神经网络的结合[
这项研究旨在比较人们在COVID-19大流行之前和期间对人工智能诊断和传统诊断(即人类临床医生的诊断)的偏好。我们评估了两组具有相似人口统计学特征的受访者。我们在2017年招募了一组,在2020年招募了另一组,以了解人们对人工智能和传统人类临床医生的偏好是否受到COVID-19大流行压力的影响。我们进行倾向评分匹配(PSM)来匹配两组。我们还进行了离散选择实验(DCE),以量化和衡量人们对不同诊断方法的偏好,并确定破坏和影响人们决策行为的因素。
我们设计了一份基于网络的问卷来收集参与者的人口统计信息,并调查患者对不同诊断策略的偏好(
我们使用PSM方法来匹配两组不同的受访者(即2017年组和2020年组),他们具有相似的人口统计特征。此外,我们使用多项logit (MNL)模型[
个人可以为每个诊断属性选择不同级别的医疗保健服务。本研究随机选取暨南大学附属第一医院(广州华侨医院)和中山大学附属第一医院门诊队列的患者。每个患者都被提示假设哪些诊断方法或属性对他们的决定有很大的影响(即,对每个参与者来说最重要的方法/属性)。
在评估患者的假设及相关文献后[
描述:患者喜欢的诊断方法
级别:临床诊断、人工智能与临床诊断、人工智能诊断
描述:患者在诊断过程前排队等待的时间
级别:0分钟、20分钟、40分钟、60分钟、80分钟和100分钟
描述:病人得到诊断前的时间
级别:0分钟、15分钟和30分钟
描述:诊断正确率
级别:60%、70%、80%、90%、100%
描述:病例跟踪和诊断后随访
级别:是和不是
说明:诊断费用
级别:¥0、¥50、¥100、¥150、¥200和¥250(适用的货币汇率为¥1= 0.16美元)
在设计我们的DCE仪器时,我们采用了分数阶乘设计方法[
DCE问卷包含两个部分。第一部分要求受访者填写他们的人口统计信息,如年龄(即18-20岁,21-25岁,26-30岁,31-35岁,36-40岁,41-45岁,46-50岁,51-55岁,56-60岁,61-65岁,66-70岁,71-75岁,76-80岁,81-85岁),性别(即男性或女性),教育程度(即小学生,小学毕业生,初中生,初中生,高中生,高中毕业生,本科生,学士学位,研究生,硕士学位,研究生,博士学位)。第二部分要求受访者考虑七种不同的情况。对于每一种情况,受访者都要想象他们正在排队等待诊断。然后他们被要求选择一种首选的诊断策略。在问卷调查的最后,受访者被要求估计AI临床医生超过人类临床医生所需的年数(即5年、10年、15年、20年、30年、40年或从未)。为不同类型的临床医生提供的场景和选项
2017年10月和2020年8月,我们通过微信(腾讯公司)和QQ(腾讯公司)等各种社交媒体平台向不同年龄段的人发送了我们的网站链接。人们可以使用该链接访问DCE问卷,问卷对每个参与者都是相同的。为了提高回复率,我们为填写问卷的人提供了激励措施(如摇号购买Fitbit手表和现金奖励)。
在问卷调查的开始,我们提供了关于AI在医学中的应用的简要背景。这包括关于人工智能临床医生和传统临床医生的潜在优势和劣势的信息,以及我们DCE的目的。问卷只需要5-10分钟即可完成。受访者必须点击“同意接受调查”按钮,开始填写调查问卷。一旦受访者点击“同意接受调查”按钮,他们就会被通知他们自愿选择参与这项研究。受访者还被告知,他们的隐私受到法律保护。
PSM是一种回归方法,用于识别治疗组和对照组患者的基本特征相似。这种方法普遍用于影响因素和因果效应的研究,如医疗、政策决定或案例研究。PSM包括以下五个步骤[
虽然有各种匹配算法[
有多种分析模型可用于进行dce相关的统计分析,如随机效应二元probit和logit模型、MNL模型和混合logit模型[
我们使用MNL模型分析了人们对不同属性级别的偏好。我们的自变量只解释了与医疗保健计划相关的属性;它没有说明与参与者有关的任何信息。MNL模型用于分析受访者的医疗保健计划,这些计划是根据计划属性和“无”选项的相对重要性来选择的。每位参与者选择的医疗保健计划的编码值是根据参与者对排队时间、诊断时间和诊断成本等问题的编码回答计算出来的。我们使用极大似然方法分析MNL模型数据。
MNL模型的结果是由医疗保健计划的选项确定的,因为在分析之前对该属性的数据进行了分组。在MNL模型中,“效果”等同于“效用”。因此,正的MNL模型系数表明,对于同一属性,个体更喜欢某一层次的服务。本研究中的MNL模型基于相似的逻辑回归模型。基于MNL模型的观察结果与与同一个体对应的块中的观察结果相关联。与经典的logit模型中每个个体有一条水平线不同,MNL模型中每个感兴趣的属性水平(即每个个体)有一条水平线。例如,在本研究中,我们分析了三种类型的诊断(即临床医生诊断,AI和临床医生诊断,以及AI诊断),每种类型都有自己的特点。然而,个人只能选择三种诊断类型中的一种。根据MNL模型的特点,所有三个选项都呈现给每个受访者,所有受访者都可以选择自己喜欢的选项。我们报告了受访者对不同属性级别偏好的比值比(ORs)。
我们使用了LCM [
支付意愿(WTP)是衡量个体愿意牺牲多少(即经济牺牲)来选择一个诊断属性级别而不是另一个诊断属性级别(即参考属性级别)的有效指标。我们分析了参与者的WTP,以确定参与者偏好的同质性和异质性。
倾向评分匹配使用Stata 16 (StataCorp LLC)进行,MNL模型和lcm使用Lighthouse Studio version 9.8.1 (Sawtooth Software)创建。
在2017年访问我们的DCE网站的1520人中,1317人(86.6%)完成了问卷调查并被纳入分析。在这1317名受访者中,1317人(100%)年龄在18-85岁之间,731人(55.5%)是女性,1115人(84.7%)认为人工智能临床医生将超过或取代人类临床医生。
在2020年访问我们新的DCE网站的874人中,528人(60.4%)完成了问卷调查。在这528名参与者中,272名(51.5%)是女性,482名(91.3%)相信人工智能诊断优于传统诊断。
在2017年招募的1317名受访者中,528名(40.1%)与2020年招募的528名受访者匹配(即通过PSM)。PSM程序介绍在
倾向得分匹配程序。
非匹配和倾向得分匹配受访者的人口统计学特征。
基线匹配特征 | 非匹配受访者 | 倾向得分匹配的受访者 | |||||
|
2017组(n=1317), n (%) | 2020组(n=528), n (%) |
|
2017年组(n=528), n (%) | 2020组(n=528), n (%) |
|
|
|
<措施 |
|
|
.97点 | |||
|
男性 | 586 (44.5) | 256 (48.48) |
|
250 (47.35) | 256 (48.48) |
|
|
女 | 731 (55.5) | 272 (51.52) |
|
278 (52.65) | 272 (51.52) |
|
|
<措施 |
|
|
i = | |||
|
< 35 | 1106 (83.98) | 348 (65.91) |
|
379 (71.78) | 348 (65.91) |
|
|
≥35 | 211 (16.02) | 180 (34.09) |
|
149 (28.22) | 180 (34.09) |
|
|
<措施 |
|
|
13。 | |||
|
小学毕业到本科 | 1033 (78.44) | 336 (63.64) |
|
385 (72.92) | 336 (63.64) |
|
|
学士学位到博士学位 | 284 (21.56) | 192 (36.36) |
|
143 (27.08) | 192 (36.36) |
|
多项logit模型的一般结果。报告了2017年和2020年倾向得分匹配的受访者对诊断属性的偏好数据(N=528)。
属性和级别 | 2017年集团 | 2020年集团 | |||||||||||
|
影响系数 |
|
优势比(95% CI) | 影响系数 |
|
优势比(95% CI) | |||||||
|
|||||||||||||
|
临床医生 | −0.15 | <措施 | 参考 | −0.05 | 点 | 参考 | ||||||
|
人工智能和临床医生 | 0.35 | <措施 | 1.64 (1.535 - -1.763) | 0.36 | <措施 | 1.51 (1.413 - -1.621) | ||||||
|
人工智能 | −0.20 | <措施 | 0.95 (0.885 - -1.016) | −0.31 | <措施 | 0.78 (0.725 - -0.833) | ||||||
|
|||||||||||||
|
0 | 0.31 | <措施 | 参考 | 0.15 | . 01 | 参考 | ||||||
|
20. | 0.12 | 03 | 0.82 (0.741 - -0.914) | 0.26 | <措施 | 1.12 (1.013 - -1.245) | ||||||
|
40 | −0.03 | .57 | 0.71 (0.639 - -0.789) | −0.02 | 开市 | 0.85 (0.762 - -0.942) | ||||||
|
60 | −0.08 | 点 | 0.67 (0.606 - -0.748) | −0.20 | <措施 | 0.71 (0.640 - -0.788) | ||||||
|
80 | −0.31 | <措施 | 0.54 (0.482 - -0.595) | −0.20 | <措施 | 0.71 (0.640 - -0.789) | ||||||
|
|||||||||||||
|
0 | 0.05 | .19 | 参考 | −0.02 | .57 | 参考 | ||||||
|
15 | −0.07 | 06 | 0.89 (0.834 - -0.957) | −0.01 | 点 | 1.01 (0.946 - -1.084) | ||||||
|
30. | 0.02 | 53 | 0.98 (0.912 - -1.046) | 0.03 | 点 | 1.05 (0.980 - -1.122) | ||||||
|
|||||||||||||
|
60 | −0.83 | <措施 | 参考 | −0.83 | <措施 | 参考 | ||||||
|
70 | −0.35 | <措施 | 1.62 (1.458 - -1.802) | −0.41 | <措施 | 1.52 (1.365 - -1.684) | ||||||
|
80 | 0.07 | 16 | 2.47 (2.235 - -2.737) | −0.02 | 开市 | 2.25 (2.033 - -2.487) | ||||||
|
90 | 0.32 | <措施 | 3.18 (2.867 - -3.526) | 0.43 | <措施 | 3.51 (3.169 - -3.891) | ||||||
|
One hundred. | 0.79 | <措施 | 5.04 (4.534 - -5.609) | 0.83 | <措施 | 5.26 (4.734 - -5.852) | ||||||
|
|||||||||||||
|
是的 | 0.20 | <措施 | 参考 | 0.19 | <措施 | 参考 | ||||||
|
没有 | −0.20 | <措施 | 0.67 (0.620 - -0.698) | −0.19 | <措施 | 0.69 (0.656 - -0.715) | ||||||
|
|||||||||||||
|
0 | 0.42 | <措施 | 参考 | 0.36 | <措施 | 参考 | ||||||
|
50 | 0.28 | <措施 | 0.87 (0.769 - -0.976) | 0.23 | <措施 | 0.88 (0.782 - -0.989) | ||||||
|
One hundred. | −0.01 | 总共花掉 | 0.65 (0.576 - -0.730) | 0.18 | <措施 | 0.83 (0.738 - -0.935) | ||||||
|
150 | 0.03 | 点 | 0.67 (0.599 - -0.760) | −0.06 | .30 | 0.65 (0.580 - -0.736) | ||||||
|
200 | −0.24 | <措施 | 0.52 (0.459 - -0.585) | −0.19 | <措施 | 0.58 (0.510 - -0.648) | ||||||
|
250 | −0.47 | <措施 | 0.41 (0.363 - -0.465) | −0.52 | <措施 | 0.41 (0.366 - -0.468) |
一个货币汇率为¥1=US $0.16。
2017年和2020年诊断属性加权重要性的一般估计。
2017年,受访者愿意支付13.99元,接受人工智能和人类临床医生的联合诊断。此外,人们不愿意为更长的门诊等待时间付费,但他们愿意为更高的诊断准确性付费(即,准确性每增加1%,1.60元)。2020年,受访者愿意支付0.79元,接受人工智能和人类临床医生的联合诊断,而不是仅由临床医生进行诊断。与2017年受访者对某些诊断方法的WTP相比,2020年受访者的WTP更低。此外,与2017年组类似,2020年组的受访者也不愿意为更长的门诊等待时间付费。然而,他们愿意为更高的诊断准确性付费。
在比较了各个潜在类别的赤池信息标准、贝叶斯信息标准和赤池/贝叶斯信息标准后,我们选择了三个最适合2017年和2020年组匹配的受访者的类别。2017年组匹配的受访者在三个类别中的比例分别为43.2%(第一类:228/528)、42.2%(第二类:223/528)和14.6%(第三类:77/528)。2020年组匹配的受访者在三个类别中的比例分别为44.8%(第一类:237/528)、48.2%(第二类:254/528)和7%(第三类:37/528)。
对于第1类(n=228),
2017年和2020年诊断属性的加权重要性,由潜在类别模型确定。
根据我们对第1类和第2类的or, 2017年组的受访者(表S1)
在第1类和第2类中,来自2020年组的受访者(表S2)
偏好权重按年份(即2017年和2020年)和类别(即类别1、2和3)分层,由潜在类别模型确定。
我们发现受访者的WTP与各属性对应的ORs高度一致。在第1类和第2类中,2017年组的受访者(
在第1类和第2类中,来自2020年组的受访者(
受访者WTP一个在2017年。b
属性 | 总WTP (N=528),¥(US $) | 1类WTP (n=228),¥(US $) | 2类WTP (n=223),¥(US $) | 第三类WTP (n=77),¥(US $) | |
|
|||||
|
人工智能和临床医生 | −13.99(−2.24) | −3.03(−0.48) | −0.22(−0.04) | 0.31 (0.05) |
|
人工智能 | 1.50 (0.24) | −0.52(−0.08) | 0.25 (0.04) | 1.22 (0.20) |
门诊等候时间 | 8.92 (1.43) | 0.62 (0.10) | 0.96 (0.15) | 0.53 (0.09) | |
诊断时间 | −0.57(−0.09) | 0.07 (0.01) | 0.07 (0.01) | −0.44(−0.07) | |
诊断准确性 | −1.14(−0.18) | −0.44(−0.07) | −2.85(−0.46) | −1.20(−0.19) | |
诊断后随访 | 11.32 (1.81) | 1.22 (0.20) | 0.95 (0.15) | 0.62 (0.10) | |
诊断费用 | 参考 | 参考 | 参考 | 参考 |
一个WTP:支付意愿。
b负货币价值指的是受访者愿意为另一个级别支付的金额。
受访者WTP一个在2020年。b
属性 | 总WTP (N=528),¥(US $) | 第一类WTP (n=237),¥(US $) | 第2类WTP (n=254),¥(US $) | 第三类WTP (n=37),¥(US $) | |
|
|||||
|
人工智能和临床医生 | −0.79(−0.13) | −0.17(−0.03) | −1.33(−0.21) | −1.31(−0.21) |
|
人工智能 | 0.48 (0.07) | 0.54 (0.09) | 0.42 (0.07) | −1.62(−0.26) |
门诊等候时间 | 0.38 (0.06) | 0.70 (0.11) | 0.19 (0.03) | 0.61 (0.10) | |
诊断时间 | −0.05(−0.01) | −0.04(−0.01) | 0.004 (0.001) | 0.06 (0.01) | |
诊断准确性 | −1.60(−0.26) | −3(−0.48) | −0.44(−0.07) | −5.65(−0.90) | |
诊断后随访 | 0.73 (0.12) | 1.46 (0.23) | 0.25 (0.04) | 2.31 (0.37) | |
诊断费用 | 参考 | 参考 | 参考 | 参考 |
一个WTP:支付意愿。
b负货币价值指的是受访者愿意为另一个级别支付的金额。
根据根据性别对数据进行分层的LCM, 2017年组的男性受访者(
2017年和2020年诊断属性的加权重要性,由潜在类别模型确定,该模型根据性别(即男性和女性受访者)对数据进行分层。
在这项研究中,我们通过分析2017年和2020年(即在COVID-19大流行之前和期间)招募的两组不同的个体,收集了人们对基于人工智能的诊断的偏好信息。我们使用PSM方法来匹配具有相似人口统计学特征(即年龄、性别和教育水平)的两组受访者。在比较了2017年和2020年人口统计学上相似的受访者后,我们没有发现受访者的偏好有任何实质性差异。诊断准确性和诊断费用是影响受访者偏好的最重要因素。
DCE问卷的成功与否总是取决于回复率。换句话说,积极点击网站链接并完成问卷的人对于扩大样本量和研究范围至关重要。通过使用PSM方法,我们能够轻松评估人们在正常时期的偏好是否在异常时期(即COVID-19大流行)发生变化。
在这项研究中,我们使用了两个不同的模型——MNL模型和LCM模型。这两种模型在量化受访者偏好方面都有各种优点和缺点。根据一般的PSM logit模型,两组受访者一致认为准确性是最重要的诊断属性,无论他们对诊断方法的偏好如何。此外,诊断费用在2017年和2020年都是影响受访者决策的重要因素。受访者认为这是第二重要的品质。在中国,医疗资源的可及性和可用性有限是一个大问题,特别是在中国的一些农村地区。这些问题都是医保分配不足的结果[
我们发现,人们对不同诊断的偏好在很大程度上是相似的。这表明,人们对不同诊断的决定和偏好不受大流行相关因素的显著影响。然而,根据我们的LCM,不同群体的受访者(如男性和女性受访者)的偏好存在轻微的异质性。在logit模型中没有观察到这种异质性。尽管准确性的加权重要性在所有阶层中保持一致,但它可能不是影响人们决策的最重要因素。在第一类中,2017年和2020年组的受访者认为诊断费用是影响他们决策的最重要因素,其次是诊断方法。根据LCM结果,2017年和2020年组的男性受访者认为,诊断准确性是选择诊断策略时考虑的最重要属性。
关于属性水平,我们发现受访者通常更喜欢接受来自人工智能和人类临床医生的联合诊断,而不是来自单一来源的诊断(即人工智能诊断或人类临床医生的诊断)。这是可以理解的,因为受访者通常认为通过结合不同的诊断模式可以提高诊断的准确性。此外,应该指出的是,一些受访者更喜欢较长的诊断和门诊排队时间。虽然没有研究报告诊断时间和门诊时间与诊断准确性相关,但可能有些患者更喜欢等待医生,而不是接受更快的诊断,因为他们可能认为等待会导致更准确的诊断。人工智能服务的低可及性和高价格是一个重要问题,特别是在农村或低收入地区。因此,在对基于人工智能技术的服务定价之前,建议对居民进行调查并分析他们的可支配收入。对于农村居民,政府应考虑将人工智能诊断纳入医疗保险计划或相关补贴项目。另一个应该考虑的人工智能诊断因素是准确性,因为公司应该只推广和宣传具有高准确性的产品/服务。当基于AI技术的服务进入市场时,相关用户应在市场渗透初期考虑将AI技术与人类智慧结合起来。因此,未来AI诊断技术开发人员应注重提高诊断准确性和降低诊断成本,使这种技术惠及更广泛的患者。
我们的研究有几个缺点和局限性,特别是关于我们的数据收集过程。很明显,我们的小样本量限制了我们分析的力量。此外,我们的样本可能不能代表整个中国人口。此外,基于人工智能技术的医疗服务的部署/分布有限,特别是在农村地区[
我们的研究表明,2017年受访者对人工智能临床医生的偏好与2020年没有实质性差异。因此,人们对人工智能诊断和临床诊断的偏好没有受到COVID-19大流行的影响。然而,无论人们对诊断方法、等待时间和随访服务的偏好如何,对高诊断准确性和低诊断费用的偏好是明显的。
综上所述,在推广基于人工智能的医疗保健时,可负担性和准确性是应考虑的两个主要因素。随着人工智能技术的发展,人工智能与专业医疗的结合将更容易被大众接受。
调查的介绍。
补充问卷。
倾向得分匹配法。
随机实用新型。
补充表。
人工智能
离散选择实验
潜在类模型
多项罗吉特机率
优势比
倾向得分匹配
支付意愿
没有宣布。