中国SARS-CoV-2大流行期间患者对人工智能应用与临床医生疾病诊断的偏好:离散选择实验

原始论文

¹暨南大学医学院公共卫生与预防医学系，中国广州

²荷兰格罗宁根大学经济与商业学院

^3.上海师范大学金融与商业学院，中国上海

⁴美国马萨诸塞州波士顿布里格姆妇女医院妇产科

⁵基因组医学中心，麻省总医院，哈佛医学院，哈佛大学，波士顿，马萨诸塞州，美国

⁶香港大学公共卫生学院，中国香港(香港)

这些作者的贡献相同

通讯作者:

明伟杰，医学博士，公共卫生硕士，博士，理学硕士

公共卫生和预防医学系

医学院

暨南大学

黄埔西路601号

广州,510000

中国

电话:86 14715485116

电子邮件:wkming@connect.hku.hk

背景:误诊、任意收费、恼人的排队和诊所等待时间等是世界各地医疗行业长期存在的现象。这些因素可能导致患者对临床医生的误诊感到焦虑。然而，随着大数据在生物医学和卫生保健领域的应用越来越多，人工智能(Al)诊断技术的性能正在提高，可以帮助避免医疗实践错误，包括在当前COVID-19的情况下。

摘要目的:本研究旨在从中国新冠肺炎疫情背景下人工智能诊断与临床医生的不同角度，可视化和衡量患者的异质性偏好。我们还旨在说明离散选择实验(DCE)潜在类别的不同决策因素，以及人工智能技术在SARS-CoV-2大流行期间和未来判断和管理中的应用前景。

方法:DCE法是本文应用的主要分析方法。假设不同维度的属性:诊断方法、门诊候诊时间、诊断时间、准确性、诊断后随访、诊断费用。然后，形成一份调查问卷。利用从DCE问卷中收集的数据，我们利用Sawtooth软件构建了广义多项式logit (GMNL)模型、混合logit模型和潜在类模型。此外，我们还计算了变量的系数、标准误差、P值和比值比(OR)，并形成效用报告，以表示属性的重要性和加权百分比。

结果:767人中有428人(55.8%)不管临床医生的描述如何，都选择了人工智能诊断。在GMNL模型中，我们发现人们最喜欢100%准确率水平(OR 4.548, 95% CI 4.048-5.110，P<措施)。对于潜在类别模型，最可接受的模型由3个潜在类别的受访者组成。影响最大、权重百分比最高的属性是诊断准确性(一般为39.29%)和诊断费用(一般为21.69%)，尤其是对诊断“准确性”属性的偏好，这一属性在各个类别中都是恒定的。对于1类和3类，人们更喜欢人工智能+临床医生的方法(1类:OR 1.247, 95% CI 1.036-1.463，P<措施;3类:OR为1.958,95% CI为1.769-2.167;P<措施)。对于第2类，人们更喜欢AI方法(OR 1.546, 95% CI 0.883-2.707，P= .37点)。属性级别的OR随着所有类的准确性的提高而增加。

结论:潜在类别分析在量化诊断选择属性的偏好方面是突出和有用的。人们对“准确性”和“诊断费用”属性的偏好是显而易见的。人工智能将有一个潜在的市场。然而，准确性和诊断费用需要考虑。

[J] .中国医学信息学报，2013;23(2):e22841

doi: 10.2196/22841

关键字

离散选择实验；人工智能；病人的偏好；多项逻辑分析；问卷调查；潜在类条件logit；应用程序；人类的临床医生；诊断；新型冠状病毒肺炎；中国

随着现代医疗事业的发展，优质医生资源配置和分布不均衡的现象已经存在了几个世纪，这给农村地区带来了诊断准确性、速度、可及性等一系列问题。根据最近的一项研究，美国有超过1200万患者经历过一次或多次误诊，误诊率为5.08% [1]。一些发展中国家仍然面临医生短缺的问题。世界卫生组织(世卫组织)建议，每1000人需要2.5名医生才能保证初级卫生保健[2]。然而，据报道，2017年中国每1000人中只有1.9名医生，世界卫生组织45%的成员国每1000人中仍然有不到1名医生[3.]。因此，新的医疗技术，如人工智能(AI)技术，迫切需要改进。

最近爆发的由严重急性呼吸综合征冠状病毒2 (SARS-CoV-2)引起的流行病对公共卫生构成严重威胁。2019冠状病毒病大流行带来了封锁和前所未有的行动限制，为人工智能诊断的重要性带来了新的视角。随着生物医学和卫生保健领域大数据的增长，人工智能越来越多地应用于防疫医疗实践。

医疗人工智能可分为八个主要领域:医学影像与诊断、医学研究、医疗风险分析、药物挖掘、虚拟护士助理、预后与健康管理、心理健康和营养[4，5]。人工智能诊疗技术日趋成熟，有望成为主流。据我们所知，没有明确的证据表明健康结果或成本是如何相互依赖和相互关联的[6-8]，尽管从医学角度来看，人工智能诊断肯定被认为是性价比更高的选择。由于缺乏任何一种诊断方法具有明显优势的证据，因此突出了患者和医疗机构的偏好。因此，通过选择和调整诊断程序来迎合患者的偏好，可提高可接受性。

此外，中国工业和信息化部要求加大人工智能在疫情精准防控中的应用[9]。人工智能算法将胸部计算机断层成像报告与临床症状、病史和实验室检查相结合，快速诊断患者是否感染了SARS-CoV-2。人工智能系统略微减少了放射科医生的误诊[10]。COVID-19检测神经网络是一种深度学习模型，可以精确检测SARS-CoV-2并将其与其他肺炎区分开来。11]。美国SARS-CoV-2发病率的人工神经网络建模表明，单隐藏层多层感知器可以解释近65%的预测与真实情况的相关性[12]。

一些研究[13，14]研究了门诊候诊时间、诊断时间、诊断后随访等因素对患者决策的影响，得出这些因素在患者权衡和相关政策制定中起着至关重要的作用。然而，随着人工智能在医学领域的发展和人工智能诊断的兴起，患者开始将注意力转移到人工智能诊断的准确性和费用上。因此，我们的目标是填补存在的空白，因为几乎没有研究关注人工智能诊断的准确性或其他属性以及临床医生对患者选择的影响。

本文的目标是衡量中国患者对人工智能诊断方案的一系列特征的偏好程度，并确定哪些特征更具吸引力，使人工智能成为击败传统医疗方法的更好选择。一种常用的将偏好可视化的技术是离散选择实验(DCE)，在该实验中，以问卷的形式向被邀请进行选择的人提供具有不同属性的不同选项。本文将构建混合logit (MXL)模型、广义多项logit (GMNL)模型和潜在类模型(LCM)这三种模型并进行比较。此外，当人们考虑任何人工智能诊断服务时，必须比较和报告属性级别和偏好异质性的重要性。

概述

我们使用联合相关技术设计了由6种不同随机选择属性组成的不同场景的多重选择。问卷是由Sawtooth软件的Lighthouse Studio模块(9.8.1版)创建的，用于一般访谈和基于选择的联合(CBC)场景设计。受访者年龄在18岁到85岁之间。同时，在这个数据分析部分，我们的目标是通过选择的模型可视化和度量不同属性的权重百分比和重要性。从公共卫生的角度来看，麦克法登的条件logit [15]，也称为多项logit (MNL) [16]被广泛应用于组织、分析和预测我们所拥有的数据，并帮助进一步分析统计显著性。然而，使用这个模型的基础是，我们默认在被调查者中不存在未观察到的偏好异质性。因此，我们需要引入一个MXL模型[17]和GMNL模型[18]，两者都考虑了未观察到的偏好异质性。LCM [19]也可能是这里应用的合适模型，因为它将数据分成具有固定分段大小的不同组，并且潜在隶属度的明显概率[20.]。对于不同的潜在类别，我们可以清楚地区分出每个类别中最重要的属性或属性的级别，并用显著的百分比权重来总结这些属性。

DCE原理

随机效用理论[21]是DCE的基本原则。该原则假定所有选择器都有选择米不同的选择选项，每个选择选项对应一个实用程序W．该实用程序W与固定效用和随机效用相一致。固定效用U可以用一些可观察的元素来解释吗x，而随机因素ε表示未观察到的效用和可能的误差的影响和干扰。选择器的目标是选择具有最高效用的最佳组合;则每种组合方案被选择的概率可以表示为其固定效用的函数:P = f (u)．函数的具体形式取决于随机效应的分布。在大多数模型设置中，光学的效用，U_v，将表示为元素的线性组合x，也就是说，U_vx =β．β是一个系数，其值和显著性水平可以从观测数据中估计出来。

属性选择

根据相关文献[22-24]，我们假设患者对医疗选择的偏好或满意度主要取决于构成我们实验基本属性的一些特定特征。此外，我们进行了一个试点测试，以获得我们在研究中需要的属性和水平。对暨南大学第一附属医院(广州华侨医院)和中山大学第一附属医院门诊排队的患者进行访谈，邀请他们讨论患者最看重哪些属性。此外，我们在问卷中对可能的属性等级进行了假设，并按一定的顺序设置;例如，准确率从0%到100%。

因此，在我们的问卷中，我们的实验包含了六个属性:(1)诊断方法;(2)预约前门诊候诊时间;(3)诊断时间;(4)准确率(正确诊断的比率);(5)诊断后随访(门诊医生/AI医生是否可以随时随访);(6)诊断费用。中表示每个属性及其级别表1．

表1。离散选择实验问卷中所假设的6种不同属性及其水平。

诊断方法	水平
诊断方法	临床医生的诊断;人工智能诊断+临床医生确认;人工智能诊断
门诊候诊时间	0分钟;20分钟;40分钟;60分钟;80分钟;100分钟
诊断时间	0分钟;15分钟;30分钟
精度	60%;70%;80%;90%;100%
诊断后随访	是的,没有
诊断费用^一个	¥0;¥50;¥100;¥150;¥200;¥250

^一个货币汇率为¥1=US $0.15。

问卷调查与DCE设计

问卷包含两个部分。在第一部分，也被称为人口问题，我们的目标是分配受访者的基本信息:年龄，性别和最高教育程度。在第二部分中，我们使用锯齿软件中的CBC功能来创建各种场景组合供受访者选择。

当我们使用阶乘法[25]来分析属性以给出场景组合，我们遇到了几个障碍。因为我们有6个属性，提供3240种可能性(3×6×3×5×2×6)，我们假设我们有6个随机问题和100个集合，这也提供了600种不同的组合。难点在于如何从3240个组合中提取出600个具有代表性的组合，并遵循两个基本原则[26同时:(1)平衡(2)正交。平衡意味着每个属性级别在一个属性中出现的频率相同，属性1中的级别1等于属性2中的级别2。正交性意味着每对级别在所有属性对中出现的频率相同。然而，处理如此庞大的任务几乎是不现实的。因此，我们使用锯齿软件来帮助我们选择合适的组合。我们设置了六个随机任务，一个固定任务，每个任务两个概念(不包括“无选项”)。同时，我们设置样本量为500，假设5%的受访者会选择“None Option”，并最终设计测试。

几乎所有属性水平的标准误差均<0.05。由于费用是一个连续变量，其标准误差可能略高于0.05，所以我们的实验样本量为500就足够了。资料中提出了DCE问卷的CBC任务之一表2．

表2。问卷中基于选择的连词的示例场景。

属性	医生一个	医生B	没有一个
诊断方法	人工智能诊断	临床医生诊断\ '
门诊候诊时间(分钟)	0	20.
精度(%)	80	60
诊断后随访	没有	是的
诊断费用(￥)^一个	150	200
你会选择哪种方法?	选择A医生	选择B医生	没有选择

^一个货币汇率为¥1=US $0.15。

数据收集流程

我们通过Facebook和微信等社交媒体应用程序发送了包含DCE问卷的网站链接。此外，我们给受访者一些奖励，如小米手环或小额现金支付，如果受访者能完整地完成问卷。

统计分析

GMNL型和MXL型

根据收集到的数据，一些模型可以应用于我们的分析;首先是GMNL模型。我们没有使用MXL模型或S-MNL模型，因为GMNL模型是由Fiebig(2010)开发的[27]，嵌套了MXL模型和缩放多项式模型。同时，GMNL模型可以准确地描述消费者的偏好和异质性。根据Fiebig等人的理论，在选择情境t中，被调查者i选择方案j的概率为:

在这里,β_我是个体参数的向量，自变量的个体系数可表示为:

βi = σiβ + {γ + σi(1 - γ)}ηi

在哪里β是一个常数向量，“效应”σ_我在我们的模型中，是个体特定尺度的参数，和γ是决定如何操作的参数σ_我和η_我在某种程度上是不同的。有了这个方程，当σ_我= 1，我们的GMNL模型将变成MXL模型。同时，当方差为η_我为0时，我们的GMNL模型将变成S-MNL模型。当σ_我等于1，方差是η_我= 0时，GMNL模型将转化为MNL模型。锯齿将需要帮助运行所有属性的系数，标准误差，和t要计算的比率P值。在计算比值比时也需要属性之间的差异。我们使用以下公式计算优势比:

优势比= exp(当前效应-参考效应)

中国大陆

此外，LCM将被应用。LCM是一个潜在变量模型，因为潜在变量是离散的。根据Greene和Hensher (2003) [28]， LCM的原理是可观察属性和潜在异质性决定个体行为。异质性随未观察因子的变化而变化。该模型用于将个体划分为具有一定分段大小和规模的一组类，并估计每个类对不同属性的不同影响。此外，LCM将帮助我们衡量不同类别受访者偏好的差异和相似之处。属性的重要性和部分价值效用也将需要对属性进行可视化分析和比较，并从人们的角度决定哪个属性是最重要的。此外，平均最大成员概率将有助于预测被调查者被划分到的类别的确定性。

受访者

428名提供完整资料的参与者(18-85岁)被纳入分析。资料完整者中，男性206例(48.1%)，女性222例(51.9%)，其中孕妇2例。

属性级别和效用报告

所有属性水平的平均效用值采用零中心差的效用标度法测量。六个假设属性的最高效用水平分别为“人工智能诊断+临床医生确认”(诊断方法)、“门诊等待时间”“20分钟”、“诊断时间”“15分钟”、“准确率”“100%”、“随访”“是”、“诊断费用”“为0”。最重要的属性是“准确性”，这意味着大多数受访者认为该属性是最重要的。表3)。

表3。不同属性级别的效用报告。

属性和级别		实用程序
诊断方法
	临床医生	−11.51
	AI +临床医师	57.64
	人工智能	−46.13
门诊候诊时间(分钟)
	0	12.57
	20.	35.41
	40	4.41
	60	−27.99
	80	−24.40
诊断时间(分钟)
	0	−7.02
	15	4.14
	30.	2.88
精度(%)
	60	−116.31
	70	−60.65
	80	−2.24
	90	59.75
	One hundred.	119.44
诊断后随访
	是的	27.88
	没有	−27.88
诊断费用(￥)^一个
	0	47.91
	50	32.93
	One hundred.	32.25
	150	−5.92
	200	−24.91
	250	−82.25
没有一个
	N/A^b	−235.59

^一个货币汇率为¥1=US $0.15。

^b-不适用。

DCE与属性重要性百分比的Logit结果

总的来说，在面对诊断时，属性“准确性”显然是最重要的因素，也是最受青睐的因素。正如图1，属性“准确性”的重要性百分比为39.29%，这无疑说明了诊断准确性在人们心目中的地位。属性“诊断费用”和“诊断方法”分别排在第二和第三位。

各属性层次的逻辑分析结果见表4．对于诊断方法，“AI +临床医生”水平的系数为正，即“AI +临床医生”水平与人们的偏好和效用呈正相关。此外，“门诊候诊时间”的“0分钟”、“20分钟”、“40分钟”水平的系数为正，其他水平的系数为负。很明显，人们倾向于缩短门诊等待时间。对于其他属性级别，人们倾向于选择准确率更高、诊断后随访可能性更大、诊断费用更低的级别。然而，对于“诊断时间”属性，人们意外地选择了更长的诊断时间，而不是“0分钟”选项。

表4。一般偏好的logit分析结果(N=428)。

属性和级别		系数	标准错误	P价值	优势比	95%可信区间
诊断方法
	临床医生	−0.07226	0.03829	06	参考
	AI +临床医师	0.37192	0.0386	<措施	1.559	(1.446 - -1.682)
	人工智能	−0.29966	0.03926	<措施	0.797	(0.738 - -0.860)
门诊候诊时间(分钟)
	0	0.09507	0.05818	.10	参考
	20.	0.22298	0.05815	<措施	1.136	(1.014 - -1.274)
	40	0.03253	0.05965	.59	0.939	(0.836 - -1.056)
	60	−0.18624	0.0586	.002	0.755	(0.673 - -0.847)
	80	−0.16435	0.05915	.006	0.771	(0.687 - -0.866)
诊断时间(分钟)
	0	−0.04446	0.03857	二十五分	参考
	15	0.03001	0.03853	无误	1.077	(0.999 - -1.162)
	30.	0.01444	0.03831	点	1.061	(0.984 - -1.143)
精度(%)
	60	−0.74382	0.06294	<措施	参考
	70	−0.4016	0.05957	<措施	1.408	(1.253 - -1.582)
	80	−0.0097	0.057	.87点	2.084	(1.863 - -2.330)
	90	0.38431	0.05787	<措施	3.090	(2.759 - -3.461)
	One hundred.	0.77081	0.05943	<措施	4.548	(4.048 - -5.110)
诊断后随访
	是的	0.18169	0.02415	<措施
	没有	−0.18169	0.02415	<措施
诊断费用(￥)^一个
	0	0.30678	0.06632	<措施	参考
	50	0.22572	0.06606	<措施	0.922	(0.810 - -1.050)
	One hundred.	0.20776	0.06673	.002	0.906	(0.795 - -1.032)
	150	−0.04055	0.06692	55	0.707	(0.620 - -0.806)
	200	−0.16992	0.06693	. 01	0.621	(0.545 - -0.708)
	250	−0.52978	0.06916	<措施	0.433	(0.378 - -0.496)

^一个货币汇率为¥1=US $0.15。

为P的值，我们假设如果P某一水平值小于0.05，则该水平具有统计学显著性;当P如果某一水平的值小于0.001，则该水平具有极显著的统计学意义。我们发现“AI +临床医生”和“AI诊断”对于“诊断方法”具有极显著的统计学意义;门诊候诊时间“20分钟”极具统计学意义;“60 min”和“80 min”具有统计学意义;“准确率”的“60%”、“70%”、“90%”、“100%”具有极显著的统计学意义;“诊断后随访”两个属性水平均具有极显著的统计学意义。属性“诊断费用”的“¥0”具有极显著的统计学意义，其他各层次的诊断费用均具有显著的统计学意义。

优势比是病例对照流行病学研究中常用的指标。在我们的分析和计算结果中(表4)，我们发现一些属性水平与参考水平的比值比大于1，这意味着人们选择这些水平的概率高于前一个或参考水平。以属性“诊断方法”的“临床医师”水平为参照，“AI +临床医师”水平的优势比为1.559 (95% CI为1.446 ~ 1.682)。“门诊候诊时间”水平“20分钟”的优势比为1.136 (95% CI 1.014-1.274)，以“0分钟”水平为参照物。“诊断时间”水平“15分钟”和“30分钟”的优势比分别为1.077和1.067，以“0分钟”水平为参照物(95% CI 0.999-1.162和0.984-1.143)。属性“准确度”的所有级别都大于1，这意味着偏好权重随着准确度的增加而增加。同时，费用与参考文献的比值比均小于零，说明大多数人倾向于“免费诊断”。

潜在类分析结果

我们对这些潜在模型进行了比较，选择了最大接收者工作特征曲线下面积和最小赤池信息准则(Akaike information criterion, AIC)的模型[29，30.]和贝叶斯信息准则(BIC) [31来惩罚模型的复杂性。根据AIC, 5类应该是我们模型的最佳选择。然而，如果我们必须选择BIC，那么2级选项应该是最合适的，因为2级的BIC最低。在这种情况下，我们比较了ABIC，即样本调整后的BIC [32]，涉及样本大小值。经过比较，3类方案的ABIC值最低。因此，我们模型中最合适的潜在类别数为3 (表5和6)。首先，我们将所有428名受访者分为3类，片段规模分别为174(40.7%)、30(7.0%)和224(52.3%)。平均最大入会概率为0.87左右，确定率为35.30%，相对较低。从被调查者的分类来看，不确定性不大。

对于第一类，t属性“诊断费用”、“准确性”和“诊断后随访”的比率在所有治疗方式中都具有显著性。属性“准确性”是患者最重要的因素，占52.8%，其次是“诊断费用”和“诊断后随访”，重要性百分比分别为13.51%和13.10% (图1)。同时，“准确性”的百分比权重的跨度是明显的(图2)，取值范围为−2.33 ~ 2.52。同时，属性“诊断费用”的区间为- 0.819 ~ 0.423。“诊断费用”的偏好权重随着费用的增加而降低。“诊断后随访”属性的偏好权重为- 0.602 ~ 0.602。“无后续”为- 0.602，“后续”为0.602，这是对称的。此外，“AI +临床医生”水平的优势比为1.247 (95% CI 1.036-1.463)，这意味着大多数患者更喜欢持久治疗而不是单一治疗。参考等级为“0 min”的属性“诊断时间”各等级均大于1。同时，比值比(表7)，即人们的偏好权重随准确率的提高而增加。

表5所示。3个潜在类的条件logit分析结果。

属性和级别		第一类，n=174 (40.7%)			第2类，n=30 (7.0%)			第三类，n=224 (52.3%)
属性和级别		系数	SE	P价值	系数	SE	P价值	系数	SE	P价值
诊断方法
	临床医生	0.062	0.083	.046	−0.175	0.282	54	−0.153	0.050	.003
	AI +临床医师	0.282	0.082	<措施	−0.085	0.287	.77点	0.518	0.052	<措施
	人工智能	−0.344	0.085	<措施	0.260	0.286	.37点	−0.365	0.051	<措施
门诊候诊时间(分钟)
	0	0.530	0.128	<措施	−0.385	0.476	点	−0.028	0.077	开市
	20.	0.147	0.124	。	−0.128	0.422	.76	0.351	0.079	<措施
	40	−0.057	0.132	正	0.819	0.365	03	0.091	0.080	二十五分
	60	−0.095	0.127	。45	−0.330	0.455	的相关性	−0.314	0.079	<措施
	80	−0.526	0.122	<措施	0.023	0.414	.96点	−0.100	0.079	.20
诊断时间(分钟)
	0	−0.117	0.084	。	0.317	0．280	低位	−0.021	0.051	.68点
	15	0.089	0.082	陈霞	−0.481	0.345	。	0.018	0.051	开市
	30.	0.028	0.082	收	0.164	0．280	56	0．003	0.051	.95
精度(%)
	60	−2.337	0.166	<措施	−1.717	0.803	.04点	−0.209	0.080	. 01
	70	−1.170	0.131	<措施	−0.693	0.555	口径。	−0.129	0.078	.10
	80	−0.050	0.112	主板市场	0.353	0.457	。45	0.034	0.078	正
	90	1.036	0.122	<措施	0.577	0.406	。	0.135	0.079	.09点
	One hundred.	2.522	0.169	<措施	1.480	0.370	<措施	0.170	0.079	03
诊断后随访
	是的	0.603	0.059	.003	0.250	0.207	。	0.066	0.031	.04点
	没有	−0.603	0.059	03	−0.250	0.207	。	−0.066	0.031	.035
诊断费用(￥)^一个
	0	0.424	0.140	.003	0.313	0.492	53	0.398	0.090	<措施
	50	0.324	0.143	03	1.831	0.412	<措施	0.131	0.088	.14点
	One hundred.	0.289	0.142	.04点	−0.228	0.506	点	0.236	0.090	.009
	150	0.144	0.149	.33	0.284	0.460	54	−0.102	0.089	二十五分
	200	−0.361	0.146	. 01	−2.106	0.983	.04点	−0.123	0.089	。
	250	−0.819	0.144	<措施	−0.093	0.533	.86	−0.538	0.091	<措施

^一个货币汇率为¥1=US $0.15。

表6所示。具有3个潜在类别的模型的确定性百分比和信息标准。

特征	价值
确定(%)	35.307
赤池信息准则	3580.631
贝叶斯信息准则	3922.719
样本大小调整贝叶斯信息准则	3735.263

表7所示。3类属性水平的比值比和置信区间。

属性和级别		第一类，n=174 (40.7%)		第2类，n=30 (7.0%)		第三类，n=224 (52.3%)
属性和级别		或^一个	95%可信区间	或	95%可信区间	或	95%可信区间
诊断方法
	临床医生	参考	N/A^b	参考	N/A	参考	N/A
	AI +临床医师	1.247	(1.036 - -1.463)	1.094	(0.624 - -1.920)	1.958	(1.769 - -2.167)
	人工智能	0.666	(0.564 - -0.787)	1.546	(0.883 - -2.707)	0.809	(0.732 - -0.895)
门诊候诊时间(分钟)
	0	参考	N/A	参考	N/A	参考	N/A
	20.	0.681	(0.535 - -0.868)	1.293	(0.566 - -2.957)	1.460	(1.252 - -1.703)
	40	0.556	(0.429 - -0.720)	3.332	(1.628 - -6.821)	1.126	(0.963 - -1.316)
	60	0.535	(0.418 - -0.686)	1.057	(0.433 - -2.580)	0.751	(0.643 - -0.877)
	80	0.348	(0.274 - -0.442)	1.504	(0.688 - -3.388)	0.930	(0.797 - -1.085)
诊断时间(分钟)
	0	参考	N/A	参考	N/A	参考	N/A
	15	1.229	(1.047 - -1.444)	0.450	(2.229 - -0.885)	1.040	(0.942 - -1.149)
	30.	1.156	(0.986 - -1.357)	0.858	(0.469 - -1.485)	1.024	(0.927 - -1.132)
精度(%)
	60	参考	N/A	参考	N/A	参考	N/A
	70	3.214	(2.484 - -4.159)	2.785	(0.938 - -8.271)	1.084	(0.930 - -1.263)
	80	9.849	(7.912 - -12.258)	7.931	(3.240 - -19.417)	1.275	(1.095 - -1.485)
	90	29.173	(22.962 - -37.064)	9.920	(4.480 - -21.962)	1.411	(1.207 - -1.648)
诊断后随访
	是的	参考	N/A	参考	N/A	参考	N/A
	没有	0.300	(0.267 - -0.337)	0.607	(0.405 - -0.910)	0.876	(0.824 - -0.931)
诊断费用(￥)^c
	0	参考	N/A	参考	N/A	参考	N/A
	50	0.905	(0.683 - -1.199)	4.563	(2.037 - -10.222)	0.766	(0.644 - -0.911)
	One hundred.	0.847	(0.662 - -1.154)	0.583	(0.216 - -1.571)	0.851	(0.713 - -1.015)
	150	0.756	(0.565 - -1.102)	0.972	(0.394 - -2.394)	0.606	(0.509 - -0.722)
	200	0.456	(0.343 - -0.607)	0.089	(0.013 - -0.612)	0.594	(0.499 - -0.707)
	250	0.289	(0.217 - -0.383)	0.666	(0.234 - -1.895)	0.392	(0.328 - -0.469)

^一个OR:优势比。

^b-不适用。

^c货币汇率为¥1=US $0.15。

对于第2类，属性“准确性”和“诊断费用”相对重要。与此同时，“诊断费用”(令人惊讶)是受访者最重要的属性，权重为39.09%，其次是“准确性”，权重为31.75% (图1)。这两个属性的百分比权重的跨度已在图3．“准确性”属性的百分比权重为- 1.717至1.480，“诊断费用”属性的百分比权重为- 2.10至1.830 (图3)。从P值，我们发现除了“准确率”的“100%”水平和“诊断费用”的“¥50”水平外，几乎所有水平都不具有统计显著性。优势比(表7)表明人工智能方法是三种方法中最好的。“门诊候诊时间”各等级的比值比均大于1，且与第1类一样，患者的偏好权重仍随“准确率”的增加而增加。对于属性“诊断费用”，只有水平“¥50”的比值比大于1。

对于第3类，属性“诊断方法”和“门诊候诊时间”在所有属性中具有更显著的统计学意义。该类受访者对“诊断方法”和“门诊候诊时间”的重要性百分比分别为29.09%和30.83% (图1)。从图4，我们发现诊断方法的跨度从−0.364到0.518。诊断费用的区间为−0.538 ~ 0.397。此外，属性“诊断方法”水平“AI +临床医生”的比值比为1.985 (95% CI为1.769-2.167)，大于1，说明第3类受访者也倾向于持久诊断模式，而不是单一诊断模式，类似于第1类的情况。“门诊候诊时间”和“准确率”属性水平的比值比均大于1。同时，随着准确率的提高，赔率比继续增加，与前两类相同。

对于这3个潜在类别，属性“准确性”是两个类别(类别1和类别2)中最受欢迎的因素，而“诊断费用”是类别3中最受欢迎的因素。此外，属性“准确率”各层次的比值比总是随着准确率的增加而增加，即人们的偏好总是随着准确率的增加而增加，人们总是倾向于更高的准确率。

主要研究结果

我们使用了几种不同的模型来研究人们对不同属性的偏好，包括GMNL模型和LCM模型;两种模式各有优缺点。

对于GMNL分析和效用报告，我们发现“准确性”是受访者最重要的事情，并且属性“诊断方法”和“准确性”的大多数级别具有统计显著性。从优势比来看，大多数受访者更倾向于人工智能诊断+临床医生确认，门诊等待时间为20分钟，诊断时间为15分钟，准确率为100%。我们希望门诊等待时间为0分钟，诊断时间为0分钟。然而，首选不是0分钟。我们假设有些人相信较长的诊断时间可以给他们更多的可信度和安全感。此外，“人工智能诊断+临床医生确认”的比值比为1.559，明显高于仅“人工智能诊断”，这反映了目前绝大多数人由于人工智能的不确定性因素，仍然不能完全信任人工智能诊断。人工智能诊断与临床医生协同工作将大大保证准确性。AI诊断的另一个缺陷是患者在诊断后进行随访，这意味着无法接受随访的患者只能作为门诊患者前往临床医生，这间接导致错过了患者的最佳治疗时间。这也给患者和临床医生带来了巨大的不便。那些对人工智能诊断有明显偏好的人可能是因为人工智能方法的新鲜度和相对较高的诊断时间，而牺牲了他们的准确性。 Thus, we can still consider the clinicians’ diagnosis to remain irreplaceable, at least in the short term. The limitation of the GMNL model was also obvious; some respondents with preferences for other diagnostic methods and different diagnosis expenses cannot be reflected.

从LCM来看，我们的研究发现，被分为3类的受访者表现出不同的偏好和不同的患者概况。与GMNL模型相比，存在轻微的异质性。具体而言，第1类和第2类受访者仍然重视“准确性”;然而，第3类受访者最关注的是“诊断费用”。虽然医疗保险和可及性已经相当发达，但一些患者很难获得基本的医疗诊断和治疗，特别是在中国一些欠发达或偏远地区。一些老年人会依靠自身的自愈功能或免疫系统[33而不是去医院，因为他们的诊断和治疗费用已经过时了。因此，由于成本的概念，中国老年人对人工智能诊断甚至现代医疗技术的接受程度明显低于新一代。此外，我们假设偏远地区的医院数量无疑低于城市或先进地区，这导致生活在偏远地区的人们不得不承担交通时间和成本。漫长的运输时间和费用有时对这些人来说也是致命的，因为这也会迫使他们呆在家里，错过最合适的诊断和治疗时间。综上所述，AI诊断的推广和传播不能忽视需要根据患者的财富状况设定合适的诊断价格或给予一定的折扣和奖金。

先前的一些研究[13研究发现，面对医院和临床医生的各种选择，大多数患者认为门诊等待时间在他们的决策行为中起着至关重要的作用。此外，很少有研究[14]重视临床诊断后随访的质量和数量。然而，这些研究都忽略了诊断准确性和诊断费用在患者权衡中的影响。特别是在人工智能时代，很少有研究解决人工智能与人类临床医生的准确性，而不是门诊等待时间或其他因素。具有诊断准确性，在临床上，人工智能系统可以通过编程来探测和标记一些癌症适应症，如前列腺癌，并且比专家更准确[34]。临床应用可减轻本次疫情及今后临床工作的病理工作量。具有专家级别评分性能的人工智能系统可以提供第二意见，帮助标准化评分，并在卫生条件差的地区提供专家建议。随着云计算能力越来越接近生活，它克服了有限的内存和中央处理单元功率[35]。我们相信，越来越多的人会相信人工智能的快速诊断能力。已经开展了许多与sars - cov -2相关的科学研究，通过在疫苗和药物开发中部署新方法以及提高公众意识，利用人工智能来对抗这场大流行[36]。疫情期间，依托AI在医疗辅助诊断、图像分析、远程会诊等方面的优势，许多AI设备已在一线医学中得到应用。此外，人工智能正在减少交叉感染。它在治疗创新中发挥了重要作用。健康二维码是人工智能与大数据的融合，是一款面向所有人的手机app，采用红、黄、绿三种颜色，为“后疫情时代”中国的人员往来和经贸往来提供简单有效的智能服务。

人工智能将继续在控制公共卫生危机、拯救生命和经济复苏方面发挥越来越重要的作用。基于移动通信技术的AI接触追踪日趋成熟[37]。结合计算机断层扫描和临床症状的人工智能系统有助于快速诊断SARS-CoV-2患者[10]。基于深度学习神经网络的替代快速诊断技术可通过分析患者胸片视觉影像发现SARS-CoV-2。38]。

限制

我们的DCE的限制

理论上，样本量越大，我们发现DCE的变化越小;然而，由于与大流行相关的各种原因，我们在数据收集过程中采用了方便抽样。因此，我们的样本量相对较小，代表性不足。此外，我们的DCE数据的另一个明显的缺点是，由于我们的问卷传播有限，我们的统计数据不能代表中国所有人的观点，也不能代表全世界其他人的观点。我们没有将疾病分为急慢性，这是一个外生因素，会影响人们对等待时间的选择。

人工智能诊断宣传的局限性

随着人工智能诊断的出现，对药品的快速配送和物流提出了要求。此外，人工智能诊疗的概念宣传仍然不到位，特别是在一些农村地区和一些医疗观念相对传统的老年人中。对人工智能诊断方法的信心和信任还有很长的路要走。

结论

患者对这些诊断选择的偏好似乎是同质的和趋同的。在人工智能诊断技术的实施和广泛应用过程中，所有属性的假设和属性的层次显然是不可忽视的。人们对“准确性”的偏好在不同阶层都很明显。虽然“在线治疗”在今天已经变得越来越普遍，但为了换取所谓的方便，准确性已经被牺牲了，这是完全不明智的。此外，人工智能诊断技术的开发者和包括医院在内的技术销售者都应该考虑到诊断费用，并根据地区的经济发展和患者个人的财富状况，制定更灵活的定价规则。

人工智能肯定会有一个潜在的市场和光明的未来，特别是在正在进行的COVID-19大流行中，因为人工智能诊断技术可以减轻全球专业临床医生的要求，特别是在农村地区。

致谢

FH对引言和结论部分做出了贡献。BA和CJPZ对稿件提出了修改意见。WKM构思了最初的想法，设计了研究，并监督了该项目。所有作者都提供了重要的反馈，并帮助塑造了研究、分析和手稿。

利益冲突

没有宣布。

辛格H，迈耶和，托马斯EJ。门诊诊断错误的频率:来自三个涉及美国成年人的大型观察性研究的估计。中国医学杂志;2014;23(9):727-731 [j]免费全文] [CrossRef] [Medline］
世界卫生组织。《全民健康覆盖和可持续发展目标对卫生人力的要求:卫生人力资源观察》，第17期。2016.URL:https://apps.who.int/iris/bitstream/handle/10665/250330/9789241511407-eng.pdf[2021-01-20]访问
世界银行。医生(每1000人)。世界银行数据银行。世界银行网址:https://data.worldbank.org/indicator/SH.MED.PHYS.ZS
刘国强，刘国强，刘国强。澳大利亚妇女和卫生专业人员对唐氏综合症产前检测的偏好中华妇产科杂志;2006;46(3):205-211。［CrossRef] [Medline］
Bishop AJ, Marteau TM, Armstrong D, Chitty LS, Longworth L, Buxton MJ等。妇女和卫生保健专业人员对唐氏综合症筛查试验的偏好:一项联合分析研究。中国生物医学工程学报(英文版);2004;31(8):775-779。［CrossRef] [Medline］
格林J, Hibbard JH, Sacks R, Overton V, Parrotta CD.当患者激活水平发生变化时，健康结果和成本也会发生变化。卫生杂志，2015年3月;34(3):431-437。［CrossRef] [Medline］
Viswanathan M, Kraschnewski JL, Nishikawa B, Morgan LC, Honeycutt AA, Thieda P，等。社区卫生工作者干预措施的结果和成本:系统回顾。中国医学杂志;2010;48(9):792-808。［CrossRef] [Medline］
Kennedy ADM, Sculpher MJ, Coulter A, Dwyer N, Rees M, Abrams KR，等。月经过多的决策辅助对治疗选择、健康结果和费用的影响:一项随机对照试验。美国医学杂志2002年12月4日;288(21):2701-2708。［CrossRef] [Medline］
中国工业和信息化部。加大人工智能在疫情精准防控中的应用。2020.URL:http://www.gov.cn/xinwen/2020-02/19/content_5480997.htm[2021-01-20]访问
梅鑫，李宏，刁坤，黄敏，林斌，刘超，等。人工智能支持的COVID-19患者快速诊断。中华医学杂志，2020;26(8):1224-1228 [j]免费全文] [CrossRef] [Medline］
李磊，秦磊，徐志，尹勇，王旭，孔斌，等。基于肺部CT的人工智能检测COVID-19和社区获得性肺炎的诊断准确性评价中华放射学杂志;2009;29 (2):559 - 561 [j]免费全文] [CrossRef] [Medline］
Mollalo A, Rivera KM, Vahedi B.新型冠状病毒(COVID-19)在美国大陆发病率的人工神经网络建模。国际环境与卫生杂志，2020年6月12日;17(12):4204 [J]免费全文] [CrossRef] [Medline］
费特R，汤普森JD。门诊病人候诊时间和医生空闲时间。卫生服务，1966;1(1):66-90 [免费全文] [Medline］
De Stefano V, Leone G, Mastrangelo S, Tripodi A, Rodeghiero F, Castaman G，等。先天性抗凝血酶III、蛋白C、蛋白s缺乏238例的临床表现与治疗:回顾性分析与随访[j] .中国血科杂志1994;72(3):352-358。［Medline］
李建军，李建军。离散响应的混合MNL模型。应用经济学[J]; 2000;15(5):447-470。［CrossRef］
李建军，李建军，李建军，等。基于logistic回归模型的中国农业经济发展研究。市场营销科学2010;29(3):393-421。［CrossRef］
David A H, William H G.混合Logit模型:实践状态。交通运输;2003;30:133-176。
潘克拉斯J，戴德DK。用广义多项logit模型的一些扩展比较了研究消费者异质性的广义多项logit和潜在类方法。应用随机模型，2011,12,21;27(6):567-578。［CrossRef］
陈志强，陈志强。潜在分类模型诊断。生物识别技术[j] .中国生物医学工程学报;2009;26(4):1055-1067。［CrossRef] [Medline］
Roeder K, Lynch KG, Nagin DS。潜在阶级成员的不确定性建模:犯罪学案例研究。美国统计学会学报1999年9月;94(447):766-776。［CrossRef］
李建军，李建军。基于离散选择的出行需求分析。马萨诸塞州剑桥:麻省理工学院出版社;1985.
王志强，王志强，王志强，等。埃塞俄比亚北部阿姆哈拉地区医院患者对医疗服务相关属性的偏好:一个离散选择实验。患者偏好依从性2015;9:1293-1301 [j]免费全文] [CrossRef] [Medline］
Alizadeh A, Eftekhaari TE, Mousavi SH.基于离散选择实验的阿巴斯港患者对医院质量的偏好:2010-2011。生命科学学报，2012;9(4):1882-1886。
使用联合分析来考虑患者的偏好，并超越健康结果:在体外受精中的应用。社会科学与医学1999;48(4):535-546。［CrossRef] [Medline］
b张GW, Rensvold RB。跨组检验析因不变性:一个重新定义和提出的新方法。管理学报，2016;25(1):1-27。［CrossRef］
贝利RA。析因设计中的平衡、正交性和效率因素。英国皇家统计学会杂志:B辑(方法学)2018年12月5日;47(3):453-458。［CrossRef］
6卫生政策分析中的离散选择实验。2005，发表于:微观经济政策分析的量化工具;2004年11月17日至18日;堪培拉，澳大利亚，第119-136页。
Greene WH, Hensher DA。离散选择分析的潜在类模型:与混合logit的对比。交通运输研究(B):方法研究[j]; 2003;37(8):681-698。［CrossRef］
坂本Y，石黑M，北川G. In: Reidel D，编辑。赤池信息标准统计。荷兰多德雷赫特:D. Reidel;1986.
deeleeuw J.赤池(1973)信息论及极大似然原理的扩展。上:统计学上的突破。纽约，纽约:b施普林格;1992:599 - 609。
Weakliem DL。模型选择贝叶斯信息准则的批判。社会学方法与研究2016年6月30日;27(3):359-397。［CrossRef］
Sclove SL.模型选择准则在多变量分析问题中的应用。心理测量学1987;52(3):333-343。［CrossRef］
罗文D, Stevens K, Labeit A, Elliott J, Mulhern B, Carlton J，等。用一个涉及成本的离散选择实验来评估一个衡量糖尿病自我管理对生活质量影响的分类系统。价值健康2018年1月;21(1):69-77 [j]免费全文] [CrossRef] [Medline］
Ström P, Kartasalo K, Olsson H, Solorzano L, Delahunt B, Berney DM等。人工智能在前列腺癌活检中的诊断和分级:一项基于人群的诊断研究。Lancet Oncol 2020 Feb;21(2):222-232。［CrossRef] [Medline］
Tawalbeh LA, Mehmood R, Benkhlifa E, Song H.医疗应用的移动云计算模型和大数据分析。IEEE Access 2016;4:6171-6180。［CrossRef］
人工智能与COVID-19:多学科方法。综合医学杂志，2020;9(3):100434 [j]免费全文] [CrossRef] [Medline］
Kricka L, Polevikov S, Park J, Fortina P, Bernardini S, Satchkov D，等。抗击COVID-19的人工智能搜索工具和资源。农业工程学报，2020;31(2):106-116 [j]免费全文] [Medline］
Panwar H, Gupta P, Siddiqui MK, Morales-Menendez R, Singh V.基于nCOVnet的深度学习在x射线中快速检测COVID-19中的应用。数学学报(自然科学版);39 (5):1099 - 1099 [j]免费全文] [CrossRef] [Medline］

‎

ABIC:样品大小调整BIC

人工智能:人工智能

另类投资会议:赤池信息准则

BIC:贝叶斯信息准则

加拿大广播公司:选择聚合

DCE:离散选择实验

GMNL:广义多项式逻辑

中国大陆:潜在类别模型

MXL:组合logit

或者:优势比

S-MNL:scaled-multinomial分对数

人:世界卫生组织

G·艾森巴赫、R·库卡夫卡编辑;提交24.07.20;由A Al-Hasan同行评议;对作者03.09.20的评论;收到修订版本15.09.20;接受20.01.21;发表23.02.21

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

中国SARS-CoV-2大流行期间患者对人工智能应用与临床医生疾病诊断的偏好:离散选择实验