医疗互联网研究杂志-人工智能会话代理在医疗保健中的有效性:系统回顾

审查

¹数字预防健康研究小组，牛津大学儿科系，牛津，英国

²帝国学院保健国民保健制度信托基金，联合王国伦敦

^3.Ufonia Limited，牛津，英国

⁴日内瓦大学全球卫生研究所，日内瓦，瑞士

⁵英国牛津大学医院国民保健服务基金会信托

⁶英国伦敦帝国理工学院初级保健和公共卫生系

⁷普利茅斯大学卫生技术中心，普利茅斯，联合王国

通讯作者:

Edward Meinert，硕士，工商管理硕士，MPA，博士

卫生技术中心

普利茅斯大学

柯克比广场8号

房间2

普利茅斯，PL4 6DT

联合王国

电话:44 7824446808

电子邮件:edward.meinert@plymouth.ac.uk

背景:对医疗保健服务的高需求和人工智能能力的不断增长导致了会话代理的发展，旨在支持各种与健康相关的活动，包括行为改变、治疗支持、健康监测、培训、分诊和筛查支持。这些任务的自动化可以使临床医生专注于更复杂的工作，并增加公众获得医疗保健服务的可及性。需要对这些药物在卫生保健中的可接受性、可用性和有效性进行全面评估，以整理证据，以便未来的发展可以针对需要改进的领域和可持续采用的潜力。

摘要目的:本系统综述旨在评估会话代理在医疗保健中的有效性和可用性，并确定用户喜欢和不喜欢的元素，为这些代理的未来研究和开发提供信息。

方法:系统检索PubMed、Medline (Ovid)、EMBASE(摘录pta Medica数据库)、CINAHL(护理和相关健康文献累积索引)、Web of Science和计算机协会数字图书馆，以检索自2008年以来发表的评估医疗保健中使用的无约束自然语言处理会话代理的文章。使用EndNote(版本X9, Clarivate Analytics)文献管理软件进行初筛，全文筛选由1名审稿人进行。提取数据，由一名审稿人评估偏倚风险，并由另一名审稿人验证。

结果:总共选择了31项研究，包括各种会话代理，包括14个聊天机器人(其中2个是语音聊天机器人)，6个具体的会话代理(其中3个是交互式语音应答呼叫、虚拟患者和语音识别筛选系统)，1个上下文问答代理和1个语音识别分类系统。总的来说，报告的证据大多是积极的或喜忧参半的。可用性和满意度表现良好(27/30和26/31)，在四分之三的研究中发现了积极或混合的有效性(23/30)。然而，在具体的定性反馈中强调了代理的一些局限性。

结论:这些研究通常报告了被调查的会话代理的有效性、可用性和满意度的积极或混合证据，但定性的用户感知则更加混合。许多研究的质量有限，必须改进研究设计和报告，以更准确地评估药物在保健中的有用性，并确定需要改进的关键领域。进一步的研究还应分析代理的成本效益、隐私和安全性。

国际注册报告标识符(IRRID):rr2 - 10.2196/16934

中国医学杂志，2020;22(10):e20346

doi: 10.2196/20346

关键字

人工智能；《阿凡达》；聊天机器人；会话代理；数字医疗；智能助理；语音识别软件；虚拟助手；虚拟教练；虚拟医疗；虚拟的护理；语音识别软件

背景

对话代理是引入卫生部门的许多数字技术之一，以解决当前的卫生保健挑战，例如卫生保健提供者短缺，这降低了卫生保健服务的可用性和可获得性[1-3.］．会话代理使用人工智能(AI)，包括机器学习(一种用数据训练模型的统计方法，以便它们可以根据各种特征做出预测)和自然语言处理(NLP;识别和分析口头和书面语言的能力)在移动、基于网络或基于音频的平台上通过语音、文本或其他输入和输出与人类互动[1，4］．许多这样的代理被设计为使用NLP，以便用户可以像对人一样对代理说话或写东西。然后，代理可以分析输入，并以对话的方式作出适当的响应[5］．

1966年，随着虚拟心理治疗师(ELIZA)的开发，会话代理首次作为医疗保健工具出现，它可以为基于文本的用户输入提供预先确定的答案[6］．在此后的几十年里，NLP的能力有了显著的进步，并帮助开发了更先进的人工智能代理。使用NLP的许多不同类型的会话代理已经被开发出来，包括聊天机器人、具体的会话代理(eca)和虚拟患者，并且可以通过电话、移动电话、计算机和许多其他数字平台访问[7-10］．会话代理可以接收和解释的输入类型也得到了扩展，一些会话代理能够分析动作，如手势、面部表情和眼球运动[11，12］．

为卫生部门的许多不同方面开发了会话代理，以支持卫生保健专业人员和公众。具体用途包括健康状况筛查、分诊、咨询、家庭健康管理支持和卫生保健专业人员的培训[8，13-15］．随着电话、移动和在线平台的广泛使用，会话代理可以为获得医疗保健机会有限或健康素养较差的人群提供支持[16，17］．它们也有潜力以可负担的方式扩大规模，以覆盖大部分人口[3.］．由于这种可访问性，会话代理也是促进以患者为中心的护理的有前途的工具，并可以支持用户参与管理自己的健康[17，18］．个性化功能有进一步提高可用性和满意度的潜力，尽管需要更多的研究来评估其在实现其所述健康结果和降低成本方面的有效性，并确保对决策或隐私没有负面影响[10］．

尽管有大量关于会话代理在医疗保健中的应用的研究，但大多数综述都将其重点局限于特定的健康领域、代理类型或功能[10，19-22］．尽管最近有一些系统的评论已经研究了更全面的范围，但它们已经对知识体系进行了全面的综合。一篇综述开发了一种分类法，描述了医疗保健中的会话代理的体系结构和功能以及该领域的状态，但没有评估其有效性、可用性或对用户的影响[5］．另一项系统综述调查了会话代理研究的结果测量，但将纳入标准限制为使用自然语言输入并已在人类参与者中进行测试的代理[2］．此外，他们最初的数据库搜索只检索到1531篇文章，这引起了人们对一些相关文章可能被忽略的担忧[2］．他们的搜索在2018年2月进行了更新，但考虑到技术发展的快速步伐，有必要对之前的系统综述进行更新和扩展。

要使对话代理在医疗保健领域取得成功，了解当前代理在实现其预期结果方面的有效性至关重要。然而，了解用户对这些代理的感受和关系也同样重要，因为新健康技术的采用取决于用户的看法(例如，他们是否信任技术，是否觉得它易于使用，以及是否觉得隐私和数据安全得到尊重)[23］．如果会话代理要对医疗保健产生重大影响，就需要解决用户确定的问题，因为会话代理的影响取决于人们是否愿意使用它们，并更愿意使用它们而不是其他替代品。本综述中收集的信息确定了会话代理当前需要克服的问题，并可用于帮助确定代理的哪些元素最有可能在医疗保健的各个方面取得成功和有用。由于会话代理经常被吹捧为有可能减轻卫生保健资源的负担，还需要评估代理对改善卫生保健提供和减少资源需求的影响。

目标

本综述的主要目标是描述目前用于医疗保健活动(由患者、医疗保健提供者或普通公众)的会话代理的范围，检查用户对这些代理的看法，并评估其有效性。我们提出了3个主要的研究问题来解决这些目标。首先，调查的对话代理是否有效地实现了预期的健康相关结果，有效性是否取决于代理的类型?其次，用户如何评价会话代理的可用性和满意度，以及他们喜欢和不喜欢代理的哪些具体元素?最后，会话代理在医疗保健中的应用目前存在哪些限制和差距?这些目标建立在以前的系统综述的基础上，同时扩大了所包括研究的范围，以更新卫生保健中对话代理的知识体系，并为未来的研究和开发提供信息。

数据库搜索

本综述的全部方法已在系统综述方案中详细发表[24］．人群、干预、比较和结果框架[25]用于制定搜索策略，该策略是根据PRISMA-P(系统评价和元分析协议首选报告项目)清单实施的[26］．没有使用研究设计过滤器;任何类型的研究都符合纳入条件。在与医学图书馆员协商后，最终确定了搜索策略，并针对不同的数据库进行了调整。检索PubMed、Medline (Ovid)、EMBASE(摘录pta Medica数据库)、CINAHL(护理和相关健康文献累积索引)、Web of Science和计算机协会数字图书馆数据库。搜索词被分为3个主题(会话代理、健康应用和结果评估)，以捕获所有符合关键纳入标准的研究:评估在医疗保健中使用的会话代理。随后对这些主题进行结构搜索:会话代理(MeSH OR关键字)和健康应用(MeSH OR关键字)和结果评估(MeSH OR关键字)。完整的搜索策略可以在多媒体附件1．搜索工作于2019年11月29日完成。

纳入和排除标准

本系统综述旨在评估为医疗保健目的而设计的对话代理。评估至少一种对话代理的研究被纳入。包括针对任何人群、地理位置和心理或身体健康相关功能(如筛查、教育、培训和自我管理)的研究。建立这些广泛的纳入标准是为了对会话代理的广泛应用进行评估。研究类型没有限制，只要对对话代理进行评估，并包括干预和观察性研究，如横断面调查、队列研究和定性研究。干预研究不需要有特定的比较对象或任何比较对象。

在筛选过程中，无法通过无约束NLP与人类用户交互的会话代理的研究被排除在外。其中包括只允许用户从预定义选项中进行选择的会话代理，或者具有预先录制的响应的代理，这些响应不能适应后续的用户响应。这种排除的基础是，如果没有使用NLP的能力，计算方法和技术是基本的，并且不能推进人工智能的自主计算代理的目标。由于许多研究没有明确说明被调查agent是否具有NLP能力，因此论文中对允许自由文本或自由语言输入的会话agent的描述作为NLP的指标，并纳入了这些研究。未报告该制剂结构的研究被排除在外。

由于开发中的会话代理的数量和/或那些没有进展到开发的评估阶段，仅是描述性的研究被排除在外。此外，由于近几十年来对话代理的发展速度，研究仅限于2008年期间或之后发表的研究。2008年，第一部iPhone发布，它标志着数字技术的普及和能力的提高。为了确保作者的准确解释，只纳入了用英文发表的研究。会议出版物也被排除在同行评议文献的审查之外。

结果

本综述的主要目的是提供NLP会话代理在医疗保健中的使用概述。因此，评估的主要结果是对话代理在实现其预期的健康相关结果方面的有效性和用户对代理的看法(包括但不限于可接受性、可用性、满意度和具体的定性反馈)。次要结果包括卫生保健提供的改善和对卫生保健系统的资源影响。

筛选和研究选择

从数据库检索的所有研究都存储在参考文献管理软件EndNote(版本X9, Clarivate Analytics)中，该软件自动消除重复。由于时间限制，在2位独立审稿人根据纳入和排除标准筛选引文之前，使用EndNote搜索功能提取相关研究。如果发现同一研究的重复或出版物，则选择最近的出版物或最详细的出版物纳入综述。所有的不同意见都进行了讨论，如果没有达成一致意见，就会咨询第三位审稿人。完整的EndNote搜索细节显示在多媒体附件2．

符合纳入标准的文章全文由一名审稿人筛选。经筛选认为有资格列入的文章中，58篇是会议摘要，没有全文;因此，他们被排除在外。这突出了许多这些药物的早期发展阶段。

数据提取

数据由一名审稿人提取，研究方案中规定的并在进一步研究出版物时确定的关键数据点记录在电子表格中，并由另一名审稿人验证。数据提取表基于Cochrane系统评价手册推荐的最低要求[27］．从研究中提取的数据类型见表1．

表1。数据从研究中提取。

条信息	数据提取
研究概况	刊物名称 ‎
	出版年份 ‎
	作者 ‎
研究特点	研究设计 ‎
	学习国家 ‎
	研究人群 ‎
	分析样本量 ‎
	比较器 ‎
	研究持续时间 ‎
会话代理的特征	会话代理的名称 ‎
	体系结构 ‎
	访问代理的设备或平台 ‎
	预定的用户 ‎
	主要目的 ‎
会话代理的预期结果	健康目标(一般) ‎
	健康目标(具体) ‎
评价	达到预期目的的有效性 ‎
	健康知识 ‎
	改善保健服务 ‎
	卫生保健资源的影响 ‎
	可用性 ‎
	可接受性或满意度 ‎
	用户感知定性反馈 ‎
	结论 ‎
	对未来研究的启示 ‎

偏倚风险与质量评估

所有质量评估均由2名独立评审员进行，意见分歧以协商一致方式解决。如果不可能，就征求第三个审查员的意见。由于研究设计多种多样，研究类型由一名审稿人进行分类，并由第二名审稿人进行验证，如果有分歧，则由第三名审稿人讨论解决。由于广泛的纳入标准旨在涵盖所有相关研究，其中一些纳入的研究使用了超出经典公共卫生设计方法范围的人工智能研究实施模型。这导致一些研究设计被归类为其他．

采用Cochrane协作网偏倚风险工具评估随机对照试验(rct)的偏倚风险[28］．有关研究均使用了用于群组研究及定性研究的CASP(批判性评估技能计划)工具[29]，并使用横断面研究评估工具(AXIS)工具评估横断面调查研究的质量[30.］．研究被编码为其他还使用AXIS工具对设计类型进行了评估，该工具被认为是最严格和最合适的工具，因为它系统地评估了导论、方法、结果和讨论部分的要素，并且不限于偏倚风险工具中使用的rct特定问题。

使用RevMan 5.3对Cochrane协作偏倚风险工具的结果进行总结。CASP和AXIS评分的计算方法为yes=1, no=0，不能告诉或不知道=0。每个问题的分数被总结为每个研究的分数，根据研究类型平均，并在结果中显示。

数据分析与综合

由于人群、干预措施和结果的差异，研究设计和荟萃分析是不可能的。因此，我们报告了对研究结果的结构化分析，以得出关于会话代理在医疗保健中的有效性和用户感知的结论。为了本综述的目的，如果有统计学意义上的(P<.05)与比较者或对照者相比，或随着时间的推移，在给定结果上的改善。如果两组之间或随着时间的推移，没有显著性报告或差异不显著或显著恶化，则认为该制剂没有显著证据支持。总结了研究的局限性和未来的研究方向。

卫生信息技术评估综合框架(SF/HIT)被用于构建研究的评估，因为它包括了一整套结果变量[31］．这些因素包括有效性、满意度、感知的易用性或实用性等。根据框架，每个结果变量的证据被编码为积极或混合或中性或消极．如果研究没有解决问题的结果，它被编码为中性或消极．

最后，在研究报告了定性用户反馈的地方，通过提取原始文本中讨论定性感知的部分来提取共同主题，将其减少到关键主题，然后在不同的研究中比较这些关键主题。

包括研究

总的来说，从6个数据库中检索到9441项研究，其中2782项为重复研究。使用参考文献管理软件EndNote进行初步筛选，基于原始搜索类别的关键词用于排除不符合标准的研究。6次通过后，还剩下957篇引文进行摘要筛选。在筛选阶段被排除的主要原因是，该研究不包括交互式的、响应性的对话代理(n=470)，是一篇综述论文(n=65)，与健康无关(n=48)，或没有报告对对话代理的任何评估(n=46)。在这957篇文献中，选取了293篇进行全文综述。最终审稿共纳入31篇论文。全文审查后排除的原因详细列于图1，最常见的原因是会话代理没有使用NLP (n=81)，全文不可用(n=71)，或者研究中没有会话代理(n=51)。

研究特点

纳入的31项研究的特点总结在多媒体［8，9，12-15，32-56］．在这些研究中，45%(14/31)评估了具有某种类型的音频或语音元素的会话代理。在代理中，45%(14/31)是聊天机器人(包括2个语音聊天机器人和1个也使用向导的聊天机器人)，19%(6/31)是eca(包括1个虚拟医生)，10%(3/31)是交互式语音应答(IVR)电话、虚拟患者和语音识别筛选系统。最后两个包括上下文问答代理和语音识别分诊系统。在26项研究中，他们报告了使用对话代理的设备;35%(9/26)使用电脑，27%(7/26)使用网络应用，23%(6/26)使用手机应用，15%(4/26)使用电话;一项研究使用了平板电脑(百分比加起来不是100%，因为一种药物可以在电脑和电话上使用)。

纳入研究的对话代理人针对的保健领域广泛多样。其中最大比例(12/31,39%)涉及精神健康问题[13，32-42]， 19%(6/31)提供某种形式的临床决策或分诊支持[8，12，40，42-44]和治疗支持(包括鼓励使用者接受筛检)[9，45-49]， 10%(3/31)用于支持保健专业学生的培训[15，41，50]以及对使用者的筛选或诊断[14，38，51]， 7%(2/31)以身体健康为目标[52，53]及非专业医学教育[54，55];1 agent被设计来帮助监控用户的语音[56］．这些百分比加起来没有达到100%，因为一些涉及心理健康的研究也属于其他类别之一。

研究设计也有很大差异，29%(9/31)使用横断面设计，26%(8/31)使用随机对照试验，23%(7/31)使用定性方法，19%(6/31)使用队列研究，1例使用聚类交叉设计。完整的数据提取表可在多媒体附件4［8，9，12-15，32-56］．

会话代理的整体评价

总体而言，约四分之三的研究(22/ 30,73%)报告了大多数结果的阳性或混合结果。共有8项研究被编码为SF/HIT中指定的11个结果中的10个或更多报告阳性或混合证据;本综述的分析仅限于研究作者报告的影响解释，以反映评估结果。除一项仅为可接受性研究且未评估其他结果的研究外，结果的平均数量被编码为积极或混合为67% (7.4/11,SD 2.5)。然而，每项研究满足的结果数量从1/11到11/11不等(9-100%)。感知的易用性或有用性(27/ 30,90%)、服务交付或表现的过程(26/ 30,87%)、适当性(24/ 30,80%)和满意度(26/ 31,84%)是研究中得到最多支持的结果。超过四分之三(23/ 30,77%)的研究还报告了积极或混合的有效性证据。

然而，很少有研究讨论成本-效果(5/ 30,17%，编码为积极或混合)或安全、隐私和安全(14/ 30,47%，编码为积极或混合)被评估代理人的结果。大约四分之一的研究(8/ 30,27%)对超过一半的SF/HIT结果既没有积极的证据也没有混合的报告证据。SF/HIT结果的评估总结在表2［31］．

表2。基于卫生信息技术综合评估框架的评价结果的研究总结^一个．

第一作者(参考文献)	预防保健	依从性或出勤率	效率	易用性:可感知的易用性或实用性	有效性	性能	安全、隐私或安全	可接受性	成本效益	适当性	满意度	n (%)
亚当斯(9］	1	1	1	1	1	1	1	1	0	1	1	10 (91)
Bibault [46］	1	1	1	1	1	1	1	1	0	1	1	10 (91)
Borja-Harta [50］	0	1	1	1	1	1	1	0	0	1	0	7 (64)
卡梅伦(32］	0	0	1	1	0	1	0	1	0	0	1	5 (45)
Chaix [45］	1	0	1	1	1	1	1	0	0	1	1	8 (73)
张(8］	0	1	0	1	1	0	1	1	0	1	1	7 (64)
克鲁岑(54］	0	1	1	1	1	1	1	1	0	1	1	9 (82)
Dimeff [42］	1	0	1	1	1	1	1	1	1	1	1	10 (91)
Elmasri [33］	0	0	0	1	0	1	1	0	0	1	1	5 (45)
菲茨帕特里克(13］	1	1	1	1	1	1	1	1	0	1	1	10 (91)
Friederichs [53］	0	0	0	1	0	1	0	1	0	0	1	4 (36)
Fulmer [34］	1	1	0	0	1	1	1	0	0	0	1	6 (55)
Galescu [52］	0	0	1	1	0	1	0	0	0	0	0	3 (27)
Ghosh [44］	1	1	1	1	1	1	0	1	0	1	1	9 (82)
Havik [14］	1	1	1	1	1	1	0	1	1	1	1	10 (91)
Heyworth [47］	0	1	1	1	1	1	1	1	0	1	0	8 (73)
Hudlicka [35］	1	1	1	1	1	1	1	1	1	1	1	11 (100)
英克斯特(36］	1	1	1	1	1	1	0	1	0	1	1	9 (82)
爱尔兰(56］											1	1 (100)
伊萨扎-雷斯特雷波[15］	1	1	1	1	1	1	0	1	1	1	1	10 (91)
Ly (37］	0	1	0	1	0	1	0	0	0	1	1	5 (45)
中川(12］	1	0	1	1	1	1	0	0	0	1	1	7 (64)
菲利普(2014)[51］	1	1	1	1	1	1	1	1	0	1	1	10 (91)
菲利普(2017)[38］	1	1	1	1	1	1	0	1	0	1	1	9 (82)
Rhee [48］	1	1	1	1	1	1	0	1	0	1	1	9 (82)
西蒙(49］	0	1	0	1	0	1	1	1	0	1	1	7 (64)
Spanig [43］	0	0	1	0	1	1	0	1	0	1	1	6 (55)
沃什伯恩(41］	1	0	0	1	1	1	0	0	1	0	0	5 (45)
黄(55］	0	0	0	1	0	0	0	0	0	0	0	1 (9)
徐(40］	1	0	1	0	1	0	0	0	0	1	1	5 (45)
Yasavur [39］	0	1	1	1	1	0	0	1	0	1	1	7 (64)
n (%)	17 (57)	19 (63)	22日(73)	27 (90)	23 (77)	26日(87年)	14 (47)	20 (67)	5 (17)	24 (80)	26日(84年)

^一个阳性或混合结果被编码为1，中性或阴性结果被编码为0。

当按药剂的保健范围分组时，对某些类型药剂的研究似乎比其他类型的效果更好(表3)．研究筛查或诊断药物和治疗支持药物的阳性或混合结果的平均数量最高(平均10,SD 0.6和平均9,SD 1.2)。治疗支持代理人的主要功能包括使患者能够更充分地参与临床预约，鼓励参加保健状况筛查，并支持患者自我管理。相比之下，心理健康代理人专注于解决与抑郁、焦虑和酗酒等相关的挑战。然而，由于每一类药物的研究数量较少，这些比较应谨慎解释。

表3。按对话代理处理的卫生保健领域分列的评估结果摘要^一个．

代理的焦点	研究数量	结果编码的平均数量积极或混合， n (%)	得分范围(SD)
心理健康[13，32-42］	12	7 (66)	5-11 (2.4)
临床决策或分诊支持[8，12，40，42-44］	6	7 (67)	5 - 10 (1.9)
治疗支持[9，45-49］	6	9 (79)	7 - 10 (1.2)
保健训练(学生)[15，41，50］	3.	7 (67)	5 - 10 (2.5)
筛查或诊断[14，38，51］	3.	10 (88)	9 (0.6)
保健教育(非专业人士)[54，55］	2	5 (45)	1 - 9 (5.7)
身体健康[52，53］	2	4 (32)	3 - 4 (0.7)

^一个研究的数量加起来没有达到31项，因为一些研究分为两类，监测语音的研究没有包括在内，因为它只涉及11个结果中的1个。由于四舍五入的原因，与平均结果数相关的百分比略有不同。

定性用户感知

31项研究中有18项包含了更具体的用户反馈。会话代理(9项研究)最常提出的问题是由于有限的词汇量、语音识别精度或单词输入的错误管理而导致的理解能力差[13，32-37，41，52］．与这个问题相关的是，由于会话代理经常必须不止一次地提出问题才能处理响应，3项研究中的用户指出不喜欢与代理的重复对话[13，36，37］．这两个问题都是会话代理未来研究和开发需要改进的关键领域，因为它们代表了现实环境中代理可用性的局限性。

5项研究中的用户反馈表达了对互动性的偏好，其中一项研究中的用户指出，他们喜欢聊天机器人的互动性[35，37]，其他4项研究中的用户表达了对会话代理更强的交互性或关系技能的渴望[14，32，34，53］．同样，在4项研究中，用户报告说喜欢代理有个性和/或表现出同理心[13，32，34，42]，而其他研究中的用户则表示不喜欢缺乏个人联系，或难以与代理产生共情[35，37，50]或报告不喜欢有限的对话和回应[35，56］．

由于会话代理的种类繁多，它们的目标和医疗保健上下文，许多定性用户感知数据涉及代理的不同方面。然而，几项研究报告了关于定制或功能选项可用性的反馈，其中2项研究对其进行了积极评价(例如，拥有语音和触摸模式，以实现免提工作和护士在分诊系统上的快速数据输入)[8，35]， 3项研究要求更多的特征和更多的控制[33，37，48］．此外，两项研究中的用户建议将代理与电子健康记录(EHR)系统更好地集成(对于虚拟医生[42])或医疗保健提供者(用于哮喘自我管理聊天机器人[48)会很有用。

用户报告喜欢的代理的其他功能是提醒和帮助形成例行公事[37，48]而这些特工提供了问责机制[13，34，48]，方便学习[13，34，37]，而且易于学习和使用[8，15］．在纳入的研究中，3个对话代理是虚拟患者，所有3个研究中的用户都报告说，他们喜欢它提供了一个无风险学习的平台，因为他们没有在真实的患者身上练习[15，41，50］．

几项研究报告了用户反馈是针对对话代理的。这包括偏好电话IVR而不是基于网络的儿科护理指导[9]和一个由电脑生成声音的简单的化身，上面有一个更逼真的、有录音声音的代理人[42］．在一项研究中，用户报告说喜欢代理发起的对话[37］．在2项关于回复格式的研究中有相反的反馈，用户更喜欢一个聊天机器人的预格式化选项[36]，而一些用户更喜欢诊断聊天机器人的自由文本回复，因为它允许他们提供上下文信息。相比之下，其他人则发现很难知道如何做出反应，让代理能够理解[14］．

其他针对代理的负面反馈是，虚拟医生没有足够深入的能力，也没有提供获取其他材料的途径[42]，认为提供的资料太多[13，33]或互动时间过长[13]、化身使用非语言表达方式[35]，以及聊天机器人的目标不明确[37］．一些使用虚拟病人的学生也报告说很难产生共情。50]以及主体没有充分包含真实的情境复杂性[15］．各种特定的反馈报告说明了检查单个会话代理的可用性以及根据预期人群定制设计的重要性。尽管经常报告一些偏好和抱怨，但大部分反馈都依赖于代理。其中包括专题分析的摘要多媒体．

对卫生保健提供和资源的影响

不幸的是，只有少数研究讨论了保健服务的改善或对资源的影响;提出改善医疗保健服务的研究中，有两项是评估虚拟病人[41，50]，其中一项研究中的学生报告说，他们对自己的临床技能和与患者面谈的能力有了显著的信心。超过80%的使用者还报告说，药剂帮助他们更有效地进行治疗[45]，并为儿科就诊作好更多准备[9］．在一项关于ECA用于睡眠障碍筛查的研究中，65%的使用者报告认为该药物可以为医生提供重大帮助[51］．关于资源影响，对儿科就诊前的准备IVR电话的研究发现，与对照组相比，IVR组的就诊时间显著减少[9］．使用ECA筛查抑郁症[38]以及为急诊科有自杀倾向的病人提供服务的虚拟医生[42]的建议，以节省医生的时间，并减少与自杀意念急诊相关的费用，但这些结果没有进行评估。同样，另一项研究表明，通过虚拟教练进行更划算的训练，正念冥想可能会更有用。35］．

研究中经常提出这样的建议，即对话代理有可能改善医疗保健服务，节省医疗保健提供者的时间，并降低成本。然而，如上所述，很少有研究量化这些说法，更少用客观的测量方法来衡量这些结果。这是整个研究的局限性。尽管许多都处于测试的早期阶段，但就时间或金钱而言，关于其对医疗保健系统的潜在价值的说法应该得到证实。然而，从数量上看中性或消极在评估编码时，许多研究没有考虑整个系统的实施结果。对于会话代理的未来发展来说，从一开始就考虑这样的结果是很重要的，这样不仅可以接受和可用，而且还可以为医疗保健系统提供价值的代理可以建立起来。

偏倚风险和质量评估

这篇综述中包含了多种研究类型;因此使用了几种不同的质量评估工具来评估31项纳入研究的偏倚风险和质量。共有6项研究不能归类为随机对照试验、队列研究、定性研究或横断面研究，其研究设计编码为其他［12，39，40，44，52，55］．这些研究大多是描述会话代理的开发和初步评估的论文，其中一半没有参与者[40，44，55］．最初，没有明确设计的研究被归类为定性或解释性研究。然而，经过进一步分析，许多研究不符合定性研究的标准——评估主观、专题和非数值数据——因为它们评估的是词语错误率等绩效指标[52]，准确度[12，39，40，52，55]，精度[44]，以Likert量表量化用户体验[39］．因此，这些研究被编码为其他并使用横断面研究的AXIS工具进行评估，该工具被认为对研究的各个要素提供了最系统的评估[30.］．对这些研究的质量进行了尽可能好的评估;但是，应当在这些限制的范围内考虑这些判断。

总体而言，这些研究的质量从差到中等。平均而言，随机对照试验[9，13，34，37，46，47，49，53]和定性研究[41，48，56]的评估通常被确定为具有最高的质量和最低的偏倚风险，其他3种研究类型都没有满足超过一半的质量评估标准。8项rct的偏倚风险评估(图2)采用Cochrane协作网的偏倚风险工具[28]，采用RevMan 5.3软件(Cochrane)对结果进行汇总[57］．总体而言，rct在偏倚风险评估中表现良好(图3)．大约一半的研究被评估为具有低风险的选择偏倚，因为适当的随机序列生成(5/8)和分配隐藏(4/8)，以及低风险的报告偏倚(4/8)，因为报告的结果可以与先验方案或试验注册进行比较。大多数研究报告了结果评估者的盲法(7/8)和由于各组的低或相等的退出率或使用意向治疗分析(6/8)而导致的低磨损偏倚风险(6/8)。大多数研究(5/8)存在较高的表现偏倚风险，但这主要是因为考虑到干预的性质，盲法是不可能的。

使用CASP检查表评估的队列研究(n=9)和定性研究(n=3)分别平均满足5/12(范围1-10)和7/10(范围4-9)标准[29］．在队列研究中，表现最好的问题是，“该研究是否解决了一个明确的焦点问题?”(8/9是)，“跟进的时间够长吗?”(8/9是)，以及“这项研究的结果是否与其他现有证据相符?”(6/9是)。在队列招募(1/9是)、识别和解释混杂因素(1/9是)、准确暴露和结果测量(分别是2/9和3/9是)以及结果对当地人群的适用性(3/9是)等问题上，研究表现最差，要么没有达到标准，要么没有报告。另一方面，定性研究在定性方法是否合适、伦理问题的考虑、结果的明确陈述以及结果是否对当地有帮助等问题上表现最好(每项有3/3的肯定)。这3项研究中没有一项报告考虑了研究人员和参与者之间的关系。他们在关于样本招募、数据收集和数据分析的问题上也表现不佳(每个问题都有1/3是)。

图3。偏倚风险图:在所有纳入的研究中，回顾作者对每个偏倚风险项的判断以百分比表示。

横断面(n=5)和其他(n=6)使用AXIS工具评估的研究平均分别满足50%(26-80%范围)和42%(29-70%范围)的标准[30.］．报告的是百分比而不是标准的确切数量，因为有几个问题不适用于这些研究;因此，每项研究评估的标准总数并不相同(平均为19和16;范围分别为18-20和10-19)。总体而言，横断面研究在目标的清晰度(5/5是)、目标的适当结果变量(5/5是)、内部一致性(5/5是)和基本数据的充分描述(4/5是)等问题上表现最佳。他们在关于样本选择的问题上表现最差——是否从一个合适的基础上选取样本来代表总体(1/5是)，以及这个过程是否可能选择一个具有代表性的样本(0/5是)——使用适当的结果测量(事先评估过;0/5是)，方法是否被充分描述用于复制(1/5是)，以及利益冲突(1/5不是，大多数没有报告)。

的其他研究在研究设计是否适合目标和结论是否由结果证明这两个问题上表现最好(6/6是)。总体而言，他们在结果变量的适当选择和内部一致性方面也表现良好(5/6都是)。然而，所有的其他适用问题的研究在以下问题上表现不佳:样本量的合理性(0/5是)，选择过程是否可能获得具有代表性的样本(0/5是)，处理无应答者(0/2是)，基本数据的充分描述(0/4是)，对无应答偏差的关注(0/3不是)，方法中描述的所有分析结果的呈现(0/6是，尽管这主要是因为分析在方法中没有充分描述)，以及利益冲突(0/6没有，再次因为没有报道)。此外，只有一项研究充分解决了使用先前评估的结果测量的问题(1/5是)，充分描述了复制方法(1/6是)，并讨论了研究的局限性(1/6是)。需要注意的是，AXIS工具用于评估其他研究是为横断面研究而设计的，并不完全符合这些研究的设计。因此，当使用特定于其研究类型的工具进行评估时，这些研究可能会表现得更好。描述对CASP队列的每个问题的判断的表格和定性检查表以及横断面和AXIS工具其他研究包括在多媒体附件6-9［8，12，14，15，32，33，35，36，38-45，48，50-52，54-56］．

主要研究结果

在本系统综述中，我们审查了31项评估对话代理在医疗保健中的有效性和可用性的研究。总的来说，研究报告了适量的证据支持代理的有效性、可用性和积极的用户感知。平均而言，三分之二的研究(67%)报告了每种评价结果的阳性或混合证据。然而，这一差异显著，可用性、代理性能和满意度在整个研究中获得了最多的支持，而成本效益几乎没有得到任何支持。还应注意到的定义有效性差异很大，并且质量评估中确定的方法局限性证明，很少以医疗器械预期的严格审查进行评估。虽然报告的结果很有希望在医疗保健中使用对话代理，但在分析的研究和本综述的结构中都存在一些局限性，对这一发现的有效性提出了质疑。

关于用户对代理的定性看法，具体的反馈非常复杂。用户强调了代理的许多积极因素，特别是他们的个性和提供同理心和情感支持的能力，他们支持学习，他们易于使用和访问，他们帮助他们负责，所有这些都支持对可用性和满意度结果的普遍积极评价。然而，在报告定性反馈的研究中，这些制剂存在许多局限性。这些问题包括:代理难以理解它们，代理重复且交互不足，用户难以与代理建立个人联系。这表明，尽管研究报告了普遍积极的可用性，但在医疗保健中成功使用会话代理还有许多障碍，在它们实现最大影响之前需要解决这些障碍。值得注意的是，这篇综述只包括了使用NLP的对话代理的研究，而自由文本输入可能会给理解带来更大的困难。

本系统综述的结果在很大程度上与文献一致，特别是先前评估医疗保健中的对话代理的系统综述[2］．他们还发现纳入研究的设计和证据质量有限，研究方法的报告不一致(包括选择方法、减量方法和缺乏有效的结果测量)和利益冲突[2］．先前的系统综述发现，有效性和患者安全性的高质量证据有限，本综述也观察到这一点。同样，研究报告指出，总体满意度普遍较高，但会话代理最常见的问题与语言理解或糟糕的对话管理有关，这与我们的发现是一致的[2］．结果的一些相似性可能是因为纳入研究的重叠;他们纳入的17项研究中有7项也纳入了我们的综述[2］．

证据的质量

如先前的系统检讨所述[2]，许多纳入研究的质量存在显著问题。其中一个一致的问题是选择偏差的高风险。大部分研究都依赖于志愿者，其中许多人是通过传单和电子邮件等自我选择的方式招募的，或者是通过下载被研究的应用程序招募的。自我选择招募的风险在于，选择参与研究的参与者已经比不参与的参与者更积极地倾向于新技术，并且倾向于更积极地评价技术。更糟糕的是，有几项研究也没有充分报告它们的招聘策略，因此无法准确评估它们潜在的选择偏差。在这样的研究中，用户感知是一个主要的结果，这是一个严重的问题。未来的研究应注意实施招聘策略，尽量减少这种选择偏差的风险，或通过积极招聘不太倾向于新技术的参与者来平衡评估中的潜在偏差。

许多研究的另一个局限性是样本量小。近三分之二的研究(19/31)使用了少于100名参与者或分析项目(如语音片段和临床场景)的样本，所有研究的中位数样本量为48。许多国家也没有充分报告人口数据，或者他们的样本是否能代表目标人口。虽然这些研究中有许多是早期的可行性和可用性试验，但这是一个重要的问题，需要在未来的研究中解决，测试这些药物，以确定一种药物是否会被其目标人群有效使用。

限制

从纳入的研究中提取的证据的有效性也受到本综述结构的局限性的影响。SF/HIT用于提供一组结构化的整个系统实现结果，以评估会话代理[31］．然而，在分析过程中发现，该框架的使用存在一个问题，即许多纳入的研究描述的是制度创新。因此，他们没有针对SF/HIT所描述的许多结果进行处理或提供证据。此外，由于纳入的数据表明在有效性研究中存在自我报告的影响，因此研究有效性倾向于作者报告的影响。

这篇综述中框架使用的局限性也突出了许多此类研究的局限性，即，它们没有从代理设计、开发和测试的早期阶段考虑整个系统实现。缺乏对代理对医疗保健提供和资源的影响的评估可能是因为强调技术开发和评估，而不是系统集成。这在技术创新中是一个普遍存在的问题，以至于它推动了不采用、放弃、扩大、传播和可持续性框架的发展，作为预测和评估新卫生技术成功的手段[58以及开发和评估新的对话代理，以确保从创新的早期阶段就充分考虑到这些后期对医疗保健提供、成本效益、隐私和安全的影响。它们还必须用大量用户样本进行适当的评估，而不是简单地作为未经证实的声明提出，即代理将降低成本并节省医疗保健提供者的时间。

此外，根据SF/HIT框架，结果对每个结果的影响被编码为积极或混合或中性或消极．然而，这种积极和混合结果的组合降低了结果的粒度。在编码过程中，几个结果被明确编码为积极或混合，并将2个结果影响整理为1个，降低了呈现给读者的信息的准确性。此外，未评估相关结果的研究被标记为中性或消极因为他们确实为结果提供了明确的支持。在分析中，结果最初分别编码为阳性、混合、阳性或混合(用于报告阳性结果但未提供足够统计证据的研究)，以及中性或阴性。该表在多媒体附录10．积极的和混合的结果被结合在一起，以最终呈现符合框架的数据。然而，区分那些试图为某一结果寻找重要证据但没有找到的研究和那些没有试图找到该结果的研究可能更有用。这将更清楚地说明哪些结果没有得到证据的支持，应该针对哪些结果进行改进，哪些结果仍需要审查。今后，值得评估是否应调整编码系统，以提供更详细和翔实的证据摘要。

本综述的进一步局限性是，我们将重点局限于只包括无约束的NLP和交互。之所以选择这一点作为重点，是因为NLP为模拟人与人之间的交互提供了优势。然而，它可能排除了对相关对话代理的研究，这些研究在解决当前的卫生保健挑战方面可能是令人满意的、有用的和有效的。此外，没有使用蜘蛛搜索来识别在初始搜索中遗漏的纳入研究的参考文献中的潜在相关研究。排除会议摘要也可能导致被列为摘要的相关论文被遗漏;然而，在之前的一次系统回顾中，他们在搜索中包含了会议摘要，但最终选择中只包含了1篇[2］．只纳入用英语发表的研究也可能排除在其他国家进行的关于会话代理的相关研究。这些局限性应在未来的研究中加以解决，以确保全面检查相关文献。

未来的发展方向

未来对医疗保健中的会话代理的回顾可以扩展到包括受约束的NLP和非NLP会话代理。综合这里确定的证据与医疗保健中的其他类型的对话代理，可能是根据黑山等人建议的分类法构建的[5，可以用来检查总体趋势，并提供一个更好的图像，什么正在被使用，什么有效，什么无效，以进一步指导最有可能成功的对话代理的开发。

未来的研究还应该包括对用户喜欢和不喜欢的功能进行更多的定性评估。在这篇综述中，只有一半(18/31)的研究报告了具体的用户反馈，尽管事实上，剩下的13项研究中有7项包括了可用性或用户感知的一些测量。如果会话代理要实现其改善医疗保健提供和减少医疗保健资源压力的潜力，那么确定使用的所有结构、物理和心理障碍将是重要的。为此，在未来的研究中，围绕行为变化框架(如行为变化轮框架[59])。这不仅在评估以行为改变为中心的对话代理的有效性时很重要，而且在确定新的对话代理技术的采用是否以及如何成功时也很重要。

对于未来的会话代理研究来说，注意正确地组织和报告他们的研究以提高证据的质量是很重要的。没有高质量的证据，很难评估卫生保健中对话代理的现状——哪些是有效的，哪些需要改进以使它们成为更有用的工具。同样，关于这些药剂的卫生经济学的证据也存在差距。在这篇综述中，很少有研究讨论了相关药剂的成本分析，更不用说提供关于其成本效益的实质性证据了。对新技术及其隐私性、安全性和互操作性的成本和结果进行评估对于推进基于价值的医疗保健是必要的[60］．然而，很少有证据表明本综述中研究的对话代理考虑或解决了这些问题。用户对其中两项研究的反馈甚至指出，代理与电子病历或医疗保健提供者之间更好的互操作性将提高其有效性。

结论

本系统综述的目的是综合会话代理在医疗保健中的可用性、有效性和满意度的证据。尽管这些研究通常报告了与药物可用性和有效性相关的积极结果，但证据的质量不足以提供强有力的证据来支持这些主张。本研究通过扩展其总结来扩展文献，以检查整个系统的评估结果，包括成本效益、隐私和安全性，这些在以前的综述中没有系统地检查过。此外，通过对用户对代理的定性感知进行专题分析，它提供了独特的贡献。需要进一步的研究，以审查这些药物在医疗保健中的成本效益和价值，包括其当前和潜在状态。我们还需要更高质量的研究——对设计方法进行更一致的报告和更好的样本选择——来更准确地评估有用性，并确定当前对话代理需要改进的关键领域。对会话代理的设计、开发和评估采取更全面的方法将有助于推动创新并提高其在医疗保健中的价值。

致谢

作者要感谢外展图书馆员Liz Callow(牛津大学)和Kirsten Elliot(伦敦帝国理工学院)，感谢他们在开发搜索词和审查搜索策略方面的帮助。这项工作尚未获得具体的资金。EM在数字健康解决方案方面的工作目前得到了牛津大学David Cooksey爵士医疗保健翻译奖学金的支持。本文的结论是作者自己提出的，不一定得到牛津大学的支持。资助机构在这一系统评审的设计、执行或分析中没有任何作用。

作者的贡献

CC和EM构思了研究主题并设计了审查方案。CC和MMI对研究进行了筛选。CC进行数据提取，由MMI验证，MMI进行偏倚风险和质量评估，由EM验证。MMI和EM对提取的数据进行分析。方法部分由CC起草，其余部分由MMI编写，并由EM进行了修订。MHS、EL、NP、EN和GM对最终起草的文本提供了反馈。EM监督了研究的执行。作者确认他们遵循了所有适当的研究报告指南。PRISMA系统评审清单已上传为多媒体附件11连同其他相关资料。

利益冲突

EL、NP和GM都是语音人工智能公司Ufonia Limited的员工。然而，这篇论文是由牛津大学David Cooksey爵士医疗保健翻译奖学金资助的，Ufonia对最终草案没有编辑影响力。他们的贡献仅限于反馈，因为他们应用了语音AI专业知识;因此，不存在利益冲突。

‎

多媒体附件1

每个数据库的搜索查询和结果数量。

DOCX文件，16kb

‎

多媒体附件2

EndNote搜索细节。

DOCX文件，12 KB

‎

多媒体

研究特点总结。

DOCX文件，27kb

‎

多媒体附件4

数据提取表。

XLSX文件(Microsoft Excel文件)，166kb

‎

多媒体

总结定性用户反馈的专题分析。

XLSX文件(Microsoft Excel文件)，112kb

‎

多媒体附件6

使用CASP(关键评估技能计划)队列研究检查表对队列研究的质量评估和判断的总结。

XLSX文件(Microsoft Excel文件)，17kb

‎

多媒体

使用CASP(关键评估技能计划)定性研究检查表对定性研究的质量评估和判断的总结。

XLSX文件(Microsoft Excel文件)，12kb

‎

多媒体附件8

使用横断面研究评估工具对横断面研究的质量评估和判断的摘要。

XLSX文件(Microsoft Excel文件)，14kb

‎

多媒体

使用横断面研究评估工具对“其他”研究的质量评估和判断的摘要。

XLSX文件(Microsoft Excel文件)，13kb

‎

多媒体附录10

基于卫生信息技术评估综合框架评估结果的研究总结，区分积极结果和混合结果。

XLSX文件(Microsoft Excel文件)，82kb

‎

多媒体附件11

PRISMA(系统评价和元分析首选报告项目)检查表。

DOC文件，64kb

Bibault J, Chaix B, Nectoux P, Pienkowsky A, Guillemasse A, Brouard B.医疗保健机械:对话制剂准备好进入肿瘤学的黄金时段了吗?2019年5月16:55-59 [免费全文] [CrossRef] [Medline］
陈杰，陈志强，陈志强，等。医疗保健中的对话代理:系统回顾。J Am Med Inform association 2018年9月1日;25(9):1248-1258 [免费全文] [CrossRef] [Medline］
全球公共卫生对话代理的伦理影响。牛世界卫生机构2020年4月1日;98(4):285-287 [免费全文] [CrossRef] [Medline］
达文波特，卡拉科塔，R.人工智能在医疗保健中的潜力。未来健康杂志2019 Jun;6(2):94-98 [免费全文] [CrossRef] [Medline］
黑山JL, da Costa CA, da Rosa Righi R.健康对话代理调查。专家系统应用2019 Sep;129:56-67 [免费全文] [CrossRef］
Weizenbaum J. ELIZA -用于研究人与机器之间自然语言交流的计算机程序。通讯ACM 1983年1月;26(1):23-28 [免费全文] [CrossRef］
Campillos-Llanos L, Thomas C, Bilinski ?， Zweigenbaum P, Rosset S.基于丰富术语资源的虚拟患者对话系统:挑战和评估。Nat Lang Eng 2019 7月15:1-38 [免费全文] [CrossRef］
常鹏，盛勇，桑勇，王东。基于无线语音和触摸的智能综合分诊支持系统的开发。计算机科学，2008;26(1):31-38。［CrossRef] [Medline］
Adams WG, Phillips BD, Bacic JD, Walsh KE, Shanahan CW, Paasche-Orlow MK.儿科初级保健就诊前的自动对话系统:一项随机试验。儿科学2014年9月;134(3):e691-e699。［CrossRef] [Medline］
李志强，李志强，李志强，等。卫生保健中会话代理的个性化:系统回顾。J Med Internet Res 2019 11月7日;21(11):e15360 [免费全文] [CrossRef] [Medline］
孙R, Aldunate R, Ratnam R, Jain S, Morrow D, Sosnoff J.老年人跌倒风险自动评估工具的有效性和可用性。Innov Aging 2018:362。［CrossRef］
中川S, Enomoto D, Yonekura S, Kanazawa H, Kuniyoshi Y.通过通信评估生活质量的远程监控系统。在:云计算与智能系统国际会议，2018年，CCIS'18;2018年11月23-25日;南京,中国。［CrossRef］
Fitzpatrick KK, Darcy A, Vierhile M.使用全自动对话代理(WOEBOT)为有抑郁和焦虑症状的年轻人提供认知行为治疗:一项随机对照试验。JMIR Ment Health 2017 Jun 6;4(2):e19 [免费全文] [CrossRef] [Medline］
Håvik R, Wake J, Flobak E, Lundervold A, Guribye F.成人多动症自我筛查的对话界面。网络科学2019:144。［CrossRef］
Isaza-Restrepo A, Gómez MT, Cifuentes G, Argüello A.虚拟患者作为学习工具:混合定量定性研究。BMC Med Educ 2018 12月6日;18(1):297 [免费全文] [CrossRef] [Medline］
van Heerden A, Ntinga X, Vilakazi K.对话代理提供快速艾滋病毒咨询和检测服务的潜力。在:2017年数据科学前沿与进展国际会议上:FADS'17;2017年10月23-25日;中国西安。［CrossRef］
Bickmore TW, Pfeifer LM, Byron D, Forsythe S, Henault LE, Jack BW，等。健康素养不足的患者会话代理的可用性:来自两个临床试验的证据。卫生交流2010;15(增刊2):197-210。［CrossRef] [Medline］
基于虚拟代理的医疗共享决策。见:第18届智能虚拟代理国际会议论文集，2018年发表于:IVA'18;2018年11月5日至8日;悉尼，新南威尔士，澳大利亚。［CrossRef］
Vaidyam AN, Wisniewski H, Halamka JD, Kashavan MS, Torous JB。心理健康中的聊天机器人和会话代理:精神病学领域的回顾。《精神病学杂志》2019年7月;64(7):456-464 [免费全文] [CrossRef] [Medline］
鲁索A, D'Onofrio G, Gangemi A，朱利安尼F, Mongiovi M, Ricciardi F，等。痴呆症患者的对话系统和对话代理:人机交互。回复2019年4月22日(2):109-120。［CrossRef] [Medline］
邢震，于峰，甘霖，关涛，Walker J，宋林。智能对话代理在患者自我管理中的应用:多数据源系统调查。种马健康技术通知2019年8月21日;264:1813-1814。［CrossRef] [Medline］
Provoost S, Lau HM, Ruwaard J, Riper H.临床心理学中的具体对话代理:范围综述。J Med Internet Res 2017年5月9日;19(5):e151 [免费全文] [CrossRef] [Medline］
王永强，王志强。医学对新数字技术的接受与抵制:定性研究。JMIR Res Protoc 2018 12月4日;7(12):e11072 [免费全文] [CrossRef] [Medline］
de Cock C, Milne-Ives M, van Velthoven MH, Alturkistani A, Lam C, Meinert E.会话代理(虚拟助手)在医疗保健中的有效性:系统评价方案。JMIR Res Protoc 2020年3月9日;9(3):e16934 [免费全文] [CrossRef] [Medline］
Schardt C, Adams MB, Owens T, Keitz S, Fontelo P.利用PICO框架改进PubMed对临床问题的搜索。BMC Med Inform Decis Mak 2007年6月15日;7:16 [免费全文] [CrossRef] [Medline］
Shamseer L, Moher D, Clarke M, Ghersi D, Liberati A, Petticrew M, PRISMA-P Group。2015年系统评价和元分析方案(PRISMA-P)的首选报告项目:阐述和解释。Br Med杂志2015年1月2日;350:g7647 [免费全文] [CrossRef] [Medline］
Higgins J. Cochrane干预系统评价手册，2019。ISBN 2019:9781119536628。
Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, Cochrane偏倚方法组，Cochrane统计方法组。cochrane协作网用于评估随机试验偏倚风险的工具。Br Med J 2011 10月18日;343:d5928 [免费全文] [CrossRef] [Medline］
CASP清单。关键评估技能计划:CASP。URL:https://casp-uk.net/casp-tools-checklists/[2020-09-11]访问
Downes MJ, Brennan ML, Williams HC, Dean RS.一种评估横断面研究质量的关键评估工具的开发(AXIS)。英国医学杂志公开赛2016年12月8日;6(12):e011458 [免费全文] [CrossRef] [Medline］
Christopoulou SC, Kotsilieris T, Anagnostopoulos I.循证医学中的卫生信息技术干预评估:采用方法学评价框架的系统综述。医疗保健(巴塞尔)2018年8月31日;6(3):- [免费全文] [CrossRef] [Medline］
卡梅隆G，卡梅隆D，梅格w G，邦德R，穆文纳M，欧?尼尔S，等。评估精神卫生保健聊天机器人的可用性。在:Bodrunova S.互联网科学。,编辑器。计算机科学课堂讲稿，卷11551施普林格，Cham;2019.
Elmasri D, Maeder A.在线心理健康干预互联网的会话代理。脑信息学与健康。2016:251。［CrossRef］
Fulmer R, Joerin A, Gentile B, Lakerink L, Rauws M.在线心理健康干预的对话代理，使用心理人工智能(Tess)缓解抑郁和焦虑症状:随机对照试验。JMIR Ment Health 2018年12月13日;5(4):e64 [免费全文] [CrossRef] [Medline］
健康行为的虚拟训练和指导:以正念冥想训练为例。患者教育计数2013 Aug;92(2):160-166 [免费全文] [CrossRef] [Medline］
Inkster B, Sarda S, Subramanian V.数字心理健康的共情驱动对话人工智能代理(Wysa):真实世界数据评估混合方法研究。JMIR Mhealth Uhealth 2018 11月23日;6(11):e12106 [免费全文] [CrossRef] [Medline］
Ly KH, Ly A, Andersson G.促进心理健康的全自动对话代理:使用混合方法的试点随机对照试验。互联网Interv 2017 12月;10:39-46 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。虚拟人作为一种新的诊断工具，是重性抑郁症领域的概念验证研究。科学报告2017 Feb 16;7:42656 [免费全文] [CrossRef] [Medline］
Yasavur U, Lisetti C, Rishe n，让我们谈谈!言语虚拟咨询师为你提供简短的干预。J Multimodal User Interfaces 2014 9月5日;8(4):381-398。［CrossRef］
徐锐，梅刚，张刚，高鹏，Judkins T, Cannizzaro M，等。基于语音的创伤后应激障碍筛查和监测自动化系统。种马健康技术通报2012;173:552-558。［Medline］
沃什伯恩M Bordnick P Rizzo AS。虚拟病人模拟以提高社工学生的简短心理健康评估技能的可行性试验研究。社会工作卫生保健2016年10月;55(9):675-693。［CrossRef] [Medline］
Dimeff LA, Jobes DA, Chalker SA, Piehl BM, Duvivier LL, Lok BC，等。一种新的自杀行为在急诊部门的参与:自杀行为的虚拟协作评估和管理。Gen Hosp Psychiatry 2020;63:119-126。［CrossRef] [Medline］
Spänig S, Emberger-Klein A, Sowa J, Canbay A, Menrad K, Heider D.虚拟医生:基于深度学习的糖尿病无创预测交互式临床决策支持系统。Artif Intell Med 2019年9月;100:101706。［CrossRef] [Medline］
Ghosh S, Bhatia S, Bhatia a . Quro:使用个性化聊天机器人对话系统方便用户症状检查。种马健康技术通报2018;252:51-56。［Medline］
Chaix B, Bibault J, Pienkowski A, Delamon G, Guillemassé A, Nectoux P，等。当聊天机器人与患者见面:对乳腺癌患者与聊天机器人之间对话的一年前瞻性研究。JMIR Cancer 2019年5月2日;5(1):e12856 [免费全文] [CrossRef] [Medline］
Bibault J, Chaix B, Guillemassé A, Cousin S, Escande A, Perrin M，等。聊天机器人与医生为乳腺癌患者提供信息:盲、随机对照非劣效性试验。J Med Internet Res 2019 11月27日;21(11):e15787 [免费全文] [CrossRef] [Medline］
Heyworth L, Kleinman K, Oddleifson S, Bernstein L, Frampton J, Lehrer M，等。交互式语音应答、患者邮寄和邮寄登记处鼓励骨质疏松症筛查的比较:一项随机对照试验。骨质疏松杂志2014 5月;25(5):1519-1526。［CrossRef] [Medline］
李海燕，李志强，李志强。基于手机的青少年哮喘自我管理辅助工具(mASMAA)的可行性研究。患者偏好依从性2014;8:63-72 [免费全文] [CrossRef] [Medline］
张峰，张志强，张志强，张志强，等。语音识别的自动电话外展未能改善结直肠癌筛查:一项随机对照试验。Arch Intern Med 2010年2月8日;170(3):264-270。［CrossRef] [Medline］
Borja-Hart NL, Spivey CA, George CM。使用虚拟病人软件来评估学生在沟通技巧和虚拟病人印象方面的信心和能力:混合方法方法。Curr药学教学2019年7月;11(7):710-718。［CrossRef] [Medline］
Philip P, Bioulac S, Sauteraud A, Chaufton C, Olive J.虚拟人能否用于探索患者白天过度嗜睡?2014年11月1日;23(4):369-376。［CrossRef］
李志强，李志强，李志强。一种基于语音识别的语音监控系统。在:国际生物信息学和生物医学研讨会。2009年发表于:BIBMW'09;2009年11月1日至4日;华盛顿特区。［CrossRef］
Friederichs S, Bolman C, Oenema A, Guyaux J, Lechner L.基于网络的体育活动干预中的动机性访谈:随机对照试验。J Med Internet Res 2014 Feb 13;16(2):e48 [免费全文] [CrossRef] [Medline］
Crutzen R, Peters GY, Portugal SD, Fisser EM, Grolleman JJ。一种人工智能聊天代理，可以回答青少年有关性、毒品和酒精的问题:一项探索性研究。青少年健康杂志2011年5月;48(5):514-519。［CrossRef] [Medline］
王伟，唐格拉贾，帕德汉姆。健康领域的语境问题回答。J Am Soc Inf Sci, 2012 10月30日;63(11):2313-2327 [免费全文] [CrossRef］
李志强，李志强，李志强，等。Hello Harlie:通过聊天机器人对话实现语音监控。Stud Health technology Inform 2016; 27:55-60。［Medline］
哥本哈根:北欧科克伦中心。RevMan。URL:https://community.cochrane.org/help/tools-and-software/revman-5[2020-09-11]访问
格林哈尔希，惠敦J, Papoutsi C，林奇J，休斯G, A'Court C，等。超越采用:一个新的框架，用于理论和评估不采用、放弃以及对卫生和保健技术的扩大、传播和可持续性的挑战。J Med Internet Res 2017 11月1日;19(11):e367 [免费全文] [CrossRef] [Medline］
Michie S, van Stralen MM, West R.行为改变轮:一种表征和设计行为改变干预的新方法。应用科学2011年4月23日;6:42 [免费全文] [CrossRef] [Medline］
Meinert E, Alturkistani A, Brindley D, Knight P, Wells G, ND Pennington。以价值为基础的医疗保健的技术必要性。中华医学杂志2018年6月2日;79(6):328-332。［CrossRef] [Medline］

‎

人工智能:人工智能

轴:横断面研究的评估工具

比赛:关键评估技能计划

ECA:具身会话代理

艾德:急诊科

电子健康档案:电子健康记录

固话:交互式语音应答

NLP:自然语言处理

棱镜:系统评价和元分析的首选报告项目

个随机对照试验:随机对照试验

科幻/点击:卫生信息技术评估综合框架

G·艾森巴赫(G Eysenbach)编辑;提交17.05.20;S McRoy, X Huang同行评审;对作者08.06.20的评论;修订本收到12.06.20;接受02.09.20;发表22.10.20

©Madison Milne-Ives, Caroline de Cock, Ernest Lim, Melissa Harper Shehadeh, Nick de Pennington, Guy Mole, Eduardo Normando, Edward Meinert。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 22.10.2020。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

人工智能会话代理在医疗保健中的有效性:系统回顾