医学互联网研究杂志——用对话代理改善对在线健康信息的访问:一项随机对照实验

原始论文

¹东北大学计算机与信息科学学院，波士顿，美国

²弗吉尼亚联邦大学，弗吉尼亚州里士满，美国

^3.波士顿医疗中心，马萨诸塞州波士顿，美国

*所有作者贡献相同

通讯作者:

Timothy W Bickmore博士

东北大学

计算机与信息科学学院“，

亨廷顿大街360号，910-177

波士顿，马萨诸塞州，02115

美国

电话:1 6173735477

传真:1 617 812 2589

电子邮件:bickmore@ccs.neu.edu

背景:传统的基于web的搜索引擎对于健康素养较低的人来说可能无法用于查找与健康相关的信息，从而使这一人群无法使用它们。

摘要目的:我们描述了一个对话式搜索引擎界面，旨在让健康状况和计算机素养较低的个人识别和了解互联网上的临床试验。

方法:一项涉及89名参与者的随机试验将对话式搜索引擎界面(n=43)与国家癌症研究所临床试验数据库现有的传统基于关键字和方面的搜索引擎界面(n=46)进行了比较。每个参与者执行两项任务:为自己寻找临床试验，以及找到符合预先规定标准的试验。

结果:结果表明，基于7点自我报告的满意度评分，所有参与者都对对话界面更满意(任务1:平均4.9,SD 1.8 vs平均3.2,SD 1.8，P<措施;任务2:平均4.8,SD 1.9 vs平均3.2,SD 1.7，P<.001)与传统的基于Web表单的界面相比。所有参与者还根据7点自我报告量表(任务1:平均3.7,SD 1.6 vs平均2.7,SD 1.8，P= . 01;任务2:平均4.8,SD 1.7 vs平均3.4,SD 1.9，P< . 01)。健康知识水平较低的参与者使用传统搜索引擎界面未能找到满足任务2预先指定标准的任何试验，而36%(5/14)的参与者使用对话界面(P= . 05)。

结论:会话代理可以用于提高基于网络的搜索的可访问性，特别是临床试验，并可以帮助减少招聘对弱势群体的偏见。

中国医学网络杂志2016;18(1):1

doi: 10.2196 / jmir.5239

关键字

具身会话代理；搜索用户界面；信息检索用户界面；网络搜索；健康知识；关系代理；计算机知识；搜索引擎；互联网

大多数美国成年人上网查找健康信息[1，2］．然而，在使用互联网查找健康信息方面仍然存在差距[3.，4］．造成这些差异的一个具体原因可能是基于关键字的搜索引擎，如谷歌，尽管是大多数用户的主要搜索门户，但实际上对许多处于不利地位的个人来说可能是一个重大障碍。先前的研究表明，卫生素养较低的人获取卫生保健相关信息并采取行动的能力[5，6]，在使用基于关键字的搜索界面时尤其困难。同意等[3.]表明，健康素养较低的个体在使用这些界面在Web上搜索一般健康信息时成功率较低。健康素养较低的人群的可用性很重要，因为这一人群占美国成年人的36% [5］．

除了通用搜索引擎之外，还为特定种类的医疗保健信息开发了许多搜索引擎和接口。一个例子是临床试验搜索引擎，它从存储库或数据库中检索临床试验的描述[7］．网上有几个这样的搜索引擎，它们是由商业公司和美国政府开发的(例如，国家癌症研究所[8])。个人使用这些搜索引擎来寻找他们可能有资格和他们可能有兴趣参与的试验。宇见等[9]发现，与健康知识水平较高的人相比，健康知识水平较低的人发现的临床试验较少，使用基于网络的临床试验搜索引擎完成标准化搜索任务所需的时间更长。健康素养较低的人群对临床试验搜索引擎的可用性尤其重要，因为在这一群体中，少数族裔的比例不成比例[10-12导致弱势群体获得临床试验信息的机会减少。尽管基于网络的临床试验搜索引擎有望提供普遍的信息获取，但传统的搜索系统可能会进一步扩大临床试验招募方面的差距，因为它主要迎合了受过良好教育、具有较高健康水平和计算机素养的人群。

传统的基于Web表单的搜索引擎用户界面(例如谷歌)通常只使用用户提供的关键字，而其他的则将关键字输入与多项选择选项结合起来，称为“基于面”的搜索界面[13］．一些先前的研究已经调查了这些搜索界面对于低领域知识用户的使用[14]，他们所使用的语言不同于Web表单[15]，他们是儿童[16]，或年长人士[17]，所有这些人都与我们的任务和人口有相同的特点。这些研究表明，即使是最简单的基于关键字的搜索界面对许多用户来说都是不可用的，而且需要特殊的设计考虑，例如简化结果[17]并提供语言及互动支持[16-对弱势用户很重要。用户在评估搜索引擎的结果时，也可能受到上下文线索的影响[18]，而那些健康知识水平较低的人在评估搜索结果时，可能特别容易受到这些线索的影响，他们依赖的特征包括搜索结果中的位置、图片质量和名人代言[19］．

在本文中，我们描述了一个基于web的临床试验搜索引擎的设计，我们设计它来减轻与低健康素养相关的障碍。搜索任务的框架是与一个动画角色的对话，使其尽可能熟悉和接近，并进行了一些额外的功能和简化，以帮助健康知识水平较低的用户导航整个临床试验搜索过程。我们进行了一项随机试验，将对话式搜索引擎与现有的传统基于web的搜索引擎进行比较。

对话式搜索引擎的设计

对话搜索引擎支持的总体任务是根据初始人口统计标准，使用公开的信息，找到一个或多个用户有资格参加的癌症相关临床试验。搜索引擎索引来自美国国家癌症研究所(NCI)数据库的超过10,000个活跃试验(在进行这项工作时)[8］．

基于我们为健康素养较低的患者开发多个健康咨询对话系统的经验[20.]，之前的研究表明，视听信息与会话风格相结合的用户回忆更大[21]，与文字相比，动画与语音相结合[22]，我们将整体交互设计为一个与具身对话代理的对话[23］．代理使用合成语音说话，合成语音由基于增强转换网络的对话引擎生成[24]，基于模板的文本生成[25]，以及动态更新的用户模型，并伴随着与语音同步的会话非语言行为(例如，手势，面部显示，凝视)[26) (图1)．代理还操纵它与用户讨论的工件;在这种情况下，代表正在讨论的临床试验方面的文件。用户对对话的输入仅限于从一个列表中选择多选题，该列表在每次对话期间都会动态更新。因此，交互是系统在对话邻接对级别上发起的(例如，代理问题/用户响应)，但用户主动是通过允许用户选择对话主题并从预定义的列表中选择在对话中的预定义点提问来提供的。在临床试验中，我们已经成功地在一千多名患者身上使用了这种界面模式，其中包括数百名健康知识水平较低的患者，以及许多以前从未接触过计算机的患者[20.，27］．由此产生的系统可以被描述为一个“全方位”的搜索界面，在这个界面中，用户永远不会被要求回忆和键入文本，而是始终与他们可以输入的可能范围相关联[13］．

整个搜索体验被构建为一个扩展的对话，在这个对话中，首先对用户进行询问，了解他们的需求和偏好，然后向用户展示候选试用，代理在整个过程中提供尽可能多的框架(通过教程、解释和建议)。鉴于临床试验描述对用户来说可能非常复杂和乏味，我们在搜索之前从用户那里获得尽可能多的信息，以试图确定最合适的试验，这是错误的。此外，我们设计的系统可以分阶段显示试验信息，只显示用户在每个评估点所需的详细信息。典型对话的整体流程如图所示图2．

为了定义代理从用户那里引出的搜索标准，我们利用了可用性研究中的定性发现[9］．这项研究的参与者被要求在成对的临床试验描述中进行选择，然后被要求解释他们的基本原理。基于扎根理论的解释分析[28]揭示了信息寻求实践和审议主题。我们交叉引用了本研究中用户提出的搜索标准偏好的结果列表与NCI数据库中的临床试验方案。我们发现一些用户标准已经作为数据库索引存在，包括参与者年龄、性别、癌症类型、研究地理位置、试验类型和阶段，以及研究药物的使用。额外的用户标准不存在作为数据库索引，但可以通过数据库中文本字段的文本分类来推断，包括对参与研究将涉及痛苦程序的可能性的主观评估，对方案侵入性的主观评估(例如，调查vs诊断vs治疗)，以及总体时间承诺。这些推断标准(疼痛、侵入性和时间负担)基于决策树算法(ID3 [29])，在试验描述文本中使用了单词出现的特征，这些文本是在手工评定的示例上训练的。在我们的运行时临床试验搜索算法中，可以映射到现有数据库索引的搜索标准用于搜索数据库，而通过文本分类推断的标准用于对结果排序。

除了整体结构的交互作用所示图2，我们在搜索用户界面中加入了几个功能，以帮助文化水平较低的用户进行搜索:

词典:NCI网站为用户提供医学术语词典;然而，该词典可作为独立于搜索引擎的模块在NCI网站上获得。在我们对该网站的用户研究中，我们发现查找定义经常分散用户的主要搜索任务。我们在搜索功能中集成了字典;虽然代理会向用户解释搜索结果，但角色会自动从文本中提取困难的术语，并提供解释。
大声朗读:用户可以要求代理大声朗读，并在必要时重复任何临床试验文本或定义。在大声说话时，代理会显示文本的可视化，使用户能够跟着阅读。
简化的标题:临床试验的标题可能很长，很复杂，很难记住。我们使用试验的阶段和类型以及试验的癌症类型简化了显示标题(例如，将“BFTZ2252在非小细胞肺癌受试者中给予Patanobib或Dopepaxel的研究”替换为“肺癌II期治疗试验”)。
教育模块:代理提供解释临床试验基础的几个概念，如自愿和风险，在搜索的适当点。
用户搜索条件确认:代理定期显示用户的搜索条件，并允许用户修改自己的选择。这是在最初的访谈之后，在每个匹配的临床试验被讨论之后，以及每当代理耗尽试验向用户展示时进行的。
查询细化:如果搜索没有返回结果，或者用户耗尽了索引的试验列表，代理会建议修改搜索条件的方法。
书签:用户可以保存临床试验的参考资料，以便在后续的搜索过程中进行回顾。
视图摘要:代理定期显示在搜索会话期间查看的试验列表，并突出显示带有书签的试验。
细节级别:每个临床试验描述都以3个级别的细节与相关显示器进行展示。用户最初只显示试用的标题和资格标准(参见图1)，但随后他们可以选择查看试验研究目的，之后他们可以选择查看试验程序的细节。

研究的目的是

这项工作的总体目标是开发一个基于web的搜索界面，使健康状况不佳和计算机知识水平较低的人更容易使用。我们假设，与传统的基于关键字和方面的搜索引擎相比，对话式搜索界面将为所有用户带来更大的搜索成功和更高水平的满意度，但对于健康素养较低的个人来说，这种差异将尤其明显。

为了评估我们的系统，我们进行了一项受试者间随机试验，将我们的对话代理搜索引擎(“代理”)与NCI开发的传统基于面和关键字的搜索引擎(“对照”)进行比较([7])，这两个搜索引擎界面的索引都是同一组临床试验。参与者是从一群讲英语的成年癌症患者中招募来的，他们的文化水平各不相同。参与者已经记录了社会人口统计指标，并完成了弗吉尼亚联邦大学先前研究的健康素养评估。该研究方案由波士顿医学中心和弗吉尼亚联邦大学IRBs批准，并获得所有研究参与者的知情同意。健康素养评估采用成人医学素养快速评估(REALM) [30.］．与其他作者所做的一样，以9年级的REALM分数为分界点，将参与者分为适当健康素养组和不适当健康素养组[31-34］．

我们要求参与者执行两个搜索任务。在任务1中，参与者被要求搜索一个他们暂时有资格参加并感兴趣的临床试验。在任务2中，他们被要求搜索具有特定资格标准(即年龄，癌症类型，试验类型，地理位置)的其他人的试验作为标准化测试，以便我们可以确定他们发现的任何试验是否符合指定的标准(文本框1)．

为了确保计算机和健康知识水平较低的参与者也能使用，我们设计了实验，使他们能够在实验室(对于那些没有计算机的人)或家中进行研究。实验软件首先为参与者提供了一个关于使用系统的简短教程，包括一个练习任务。然后显示第一个搜索任务。为了完成每个任务，参与者被重定向到另一个具有代理或NCI搜索引擎(图3)．如果参与者发现了一个试验，他们在文本框中输入临床试验ID号，然后点击“我发现了一个试验”按钮。如果他们找不到试验，他们就点击“我找不到试验”按钮。一旦用户完成了每项任务，他们就会被提示填写一份网络问卷，其中包含了研究措施。在完成每个任务时，前7个问题表1通过Web表单自动管理。参与者还被要求在每项任务后回忆他们检查过的试验的数量以及符合他们标准的试验的数量。Web服务器还捕获参与者发现的临床试验ID(如果有的话)和完成每个任务所需的时间。完成两项任务后，剩下的5个问题(8-12题)表1)由研究助理口头管理(对于亲自进行研究的人)或通过电话管理(对于远程进行研究的人)。在家完成研究的参与者是在没有在线帮助的情况下自行完成的，并在完成在线任务后的36小时内被通知以获得最终结果指标。非参数统计(频率卡方检验和曼-惠特尼检验U考虑到数据的性质和大多数分布的非正态性，使用了所有其他测量的测试)。

标准化搜索任务(任务2)。

现在是你的第二个任务。请把它写下来。

我是罗莎。她是癌症患者。

< rosa >的图像

以下是关于Rosa的一些信息:

年龄:70岁。

癌症类型:乳腺癌。

她想要的试验类型:治疗试验。

她想要的审判地点:任何地方都行。

我们希望您使用上面的信息来寻找Rosa的临床试验。

一旦你找到了一个试验，请在屏幕右下方的“试验ID”框中输入它的ID号，然后点击“我找到了一个试验”按钮。另外，请在一张纸上写下协议ID号。

如果你花了一些时间寻找，但不认为你能找到一个试验，然后点击屏幕左下角说“我找不到一个试验”的按钮。

如果您已经准备好开始，请单击“I am ready”按钮。

文本框1。标准化搜索任务(任务2)。

表1。研究中使用的自我报告测量方法。

量表自述项目	锚1	锚7
1.你在多大程度上知道你想在试验中得到什么?(任务1)	一点也不	完全
2.试验在多大程度上符合你的预期?	一点也不	完全
3.你有多大可能报名参加你发现的试验?(任务1)	不可能	很有可能
4.你觉得使用这个系统花了多少时间?	太少	太多
5.你对临床试验搜索系统有多满意?	一点也不	非常
6.你现在有多沮丧?	一点也不	非常
7.你现在有多高兴?	一点也不	非常
8.你自愿参加试验的压力有多大?	没有压力	压力很大
9.你觉得系统提供了多少信息?	没有足够的	太多
10.如果你想再进行一次试验，你有多大可能再次使用这个系统?	不可能	很有可能
11.你有多大可能把这个系统推荐给其他正在寻找试验的人?	不可能	很有可能
12.你有多相信从系统接收到的信息?	一点也不	非常

参与者社会人口统计信息见表2．共有89人参与;平均年龄59.2岁(标准差9.8岁)，46%(48/89)为女性，27%(23/89)健康素养较低。98%(87/89)的参与者报告了当前的癌症诊断:32%(28/89)为血液癌，14%(12/89)为乳腺癌，14%(12/89)为泌尿生殖系统癌，14%(12/89)为头颈癌，10%(9/89)为肺癌。大多数(70%，62/89)报告经常使用计算机和基于网络的搜索引擎(52%，46/89)。尽管只有21%的人(19/89)报告曾参加过癌症相关的临床试验，但52%的人(46/89)表示有兴趣参与其中。大约一半的参与者(48%，43/89)被随机分配到药物条件。在89名参与者中，53人(60%)在实验室进行了研究，36人(40%)在家通过网络进行了研究。少数参与者由于技术或其他问题无法完成部分任务(17%，14/89)。初步研究结果见表3．

任务1所有参与者的结果

在最初的任务中，参与者被要求为自己找到一个临床试验。大多数参与者在开始这项任务时都不清楚自己想要什么，在1到7的范围内，他们对自己想要的东西的了解程度平均为2.8 (SD 1.9)。然而，药物组45%(19/42)和对照组31%(14/45)成功找到试验;两组间差异无统计学意义(χ²₁= 1.8,P=点)。在代理条件下，参与者认为这些试验与他们所寻找的东西匹配的程度明显高于对照条件(平均3.7,SD 1.6 vs平均2.7,SD 1.8，U= 465,P= . 01)。与传统界面相比，参与者对代理的满意度明显更高(评分平均值4.9,SD 1.8 vs平均3.2,SD 1.8，U= 363,P<.001)，感觉沮丧感明显减少(评分平均2.1,SD 1.7 vs平均3.7,SD 2.2，U= 405,P<.001)和更满意(评分平均5.1，标准差2.1 vs平均3.4，标准差1.9，U= 380,P<.001)，与对照条件下相比。

亲自完成研究的人与在家完成研究的人的结果没有显著差异。

任务2所有参与者的结果

在第二项任务中，参与者被要求找到一个满足预先设定的标准的临床试验作为标准化任务。虽然制剂组中48%(20/42)和对照组中40%(18/45)声称发现了符合标准的试验(χ²₁= 0.5,P=.52)，分别只有43%(18/42)和31%(14/45)的检验结果正确(χ²₁= 1.3,P=陈霞)。然而，与对照组相比，药物组的参与者认为他们发现的试验更符合标准(平均4.8,SD 1.7, vs 3.4, SD 1.9，U= 381,P<措施)。与任务1一样，代理组的参与者明显更满意(评分平均4.8,SD 1.9 vs平均3.2,SD 1.7，U= 336,P<.001)和满意(评分平均4.6，标准差1.8 vs平均3.1，标准差1.7，U= 358,P<.001)，并且沮丧感显著减少(评分平均2.6,SD 1.9 vs平均3.8,SD 2.2，U= 429,P=.01)。

与任务1一样，与传统接口相比，使用代理进行搜索往往需要更长的时间(平均8.2,SD 5.3分钟vs平均6.4,SD 4.3分钟)，但这并不具有统计学意义(U= 507,P= 0。06)。然而，与传统界面相比，参与者认为代理花费的时间明显更少(平均4.2,SD 1.1 vs 5.1, SD 1.7，U= 466,P= 03)。

表2。参与者社会人口。

变量		所有N = 89	剂n = 43	控制n = 46	P
性别(女性)，n (%)		48 (54)	18 (42)	30 (65)	03
年龄(年)，平均值(SD)		59.2 (9.8)	58.6	59.7	.59
种族，n (%)					。45
	黑色的	41 (46)	19 (44)	22 (48)
	白色	48 (54)	24 (56)	24 (52)
	其他	0 (0)	0 (0)	0 (0)
西班牙裔或拉丁裔，n (%)		0 (0)	0 (0)	0 (0)	N/A
教育程度，n (%)					38
	<高中	15 (17)	9 (21)	6 (13)
	高中	10 (11)	6 (14)	4 (9)
	>高中	62 (71)	27 (63)	35 (78)
已婚，n (%)		40 (45)	16 (32)	24 (52)	.20
卫生素养(REALM评分)
	意思是(SD)	57 (15)	56 (16)	59 (15)	.35点
	充足(≥60)，n (%)	65 (73)	27 (64)	38 (83)	0。
研究地点(亲自)，n (%)		53 (60)	27 (63)	26 (57)	正
计算机经验，n (%)					.64点
	从来没用过	7 (8)	5 (12)	2 (4)
	尝试一个	21 (24)	10 (24)	11 (24)
	经常使用	53 (61)	24 (57)	29日(64)
	专家	6 (7)	3 (7)	3 (7)
搜索引擎经验，n (%)					获得
	从来没用过	15 (17)	7 (17)	8 (18)
	尝试一个	16 (18)	8 (19)	8 (18)
	经常使用	45 (52)	22 (52)	23日(51)
	专家	11 (13)	5 (12)	6 (13)
临床试验知识，n (%)					点
	没有一个	16 (18)	12 (29)	4 (9)
	一个小	40 (46)	16 (38)	24 (53)
	大量	29 (33)	13 (31)	16 (36)
	专家	2 (2)	1 (2)	1 (2)
以前参加过癌症临床试验(是)，n (%)		18 (21)	7 (17)	11 (24)	点
现在真的有兴趣参加试验了吗?(yes)， n (%)		44 (52)	23日(56)	21 (48)	点
你在多大程度上知道自己在试验中想要什么?^一个意思是(SD)		2.8 (1.9)	2.7 (1.7)	3.0 (2.1)	.60

^一个锚1=我完全不知道;我很清楚。

低健康素养参与者的结果

表4显示了24名健康素养较低的参与者的研究条件结果。结果与所有研究参与者的结果非常相似(表3)，但有一个明显的例外:在标准化任务(任务2)中，没有一个低文化水平的参与者能够使用传统界面找到符合给定标准的临床试验。然而，36%(5/14)的低文化水平参与者能够找到使用该药物的正确临床试验。差异接近显著性(χ²₁= 3.7,P= . 05)。

表3。初步研究结果。

测量	任务1			任务2
	代理(n = 43)	控制(n = 46)	P	代理(n = 43)	控制(n = 46)	P
完成任务，n (%)^一个	37 (86)	37 (80)	算下来	36 (84)	37 (80)	.79
声明发现一个试验，n (%)^一个	19/42 (45)	14/45 (31)	.19	20/42 (48)	14/45 (40)	点
找到一个正确的试验，n (%)^一个	- - - - - -^b	- - - - - -^b	- - - - - -^b	18/42 (43)	14/45 (31)	陈霞
运行时间(分钟)，平均值(SD)^c	12.6 (9.2)	9.0 (8.4)	06	8.15 (5.3)	6.4 (4.9)	06
试验次数(自我报告)，平均值(SD)^c	2.8 (3.0)	3.8 (6.7)	56	3.0 (3.1)	4.9 (9.4)	54
符合标准(自我报告;试验数百分比)，平均值(SD)^{c, d}	56 (39)	34 (35)	06	64 (37)	44 (41)	.09点
试验在多大程度上符合你的预期?(范围1 - 7),^c意思是(SD)	3.7 (1.8)	2.7 (1.6)	. 01	4.8 (1.7)	3.4 (1.9)	〇〇
你有多大可能报名参加你发现的试验?(范围1-7)，平均值(SD)^c	3.3 (1.7)	2.9 (1.7)	. 21	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得使用这个系统花了多少时间?(范围1-7)，平均值(SD)^c	4.3 (1.3)	4.6 (1.8)	收	4.2 (1.1)	5.1 (1.7)	03
你对临床试验搜索系统有多满意?(范围1-7)，平均值(SD)^c	4.9 (1.8)	3.2 (1.8)	<措施	4.8 (1.9)	3.2 (1.7)	<措施
你现在有多沮丧?(范围1-7)，平均值(SD)^c	2.1 (1.7)	3.7 (2.2)	措施	2.6 (1.9)	3.8 (2.2)	. 01
你现在有多高兴?(范围1-7)，平均值(SD)^c	5.1 (2.1)	3.4 (1.9)	措施	4.6 (1.8)	3.1 (1.7)	措施
你自愿参加试验的压力有多大?(范围1-7)，平均值(SD)^c	1.2 (0.6)	1.4 (1.1)	获得	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得系统提供了多少信息?(范围1-7)，平均值(SD)^c	4.2 (1.7)	4.3 (1.8)	.98点	- - - - - -^e	- - - - - -^e	- - - - - -^e
如果你想再进行一次试验，你有多大可能再次使用这个系统?(范围1-7)，平均值(SD)^c	5.0 (2.1)	4.1 (2.4)	07	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多大可能把这个系统推荐给其他正在寻找试验的人?(范围1-7)，平均值(SD)^c	5.1 (2.2)	4.5 (2.5)	二十五分	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多相信从系统接收到的信息?(范围1-7)，平均值(SD)^c	5.7 (1.6)	5.1 (1.9)	13。	- - - - - -^e	- - - - - -^e	- - - - - -^e

^一个卡方检验。

^b任务1涉及参与者寻找他们感兴趣的试验，所以没有办法客观地评估他们发现的试验是否“正确”。

^cMann-WhitneyU测试。

^d符合标准的试验是一种主观的自我报告测量。

^e任务2涉及参与者寻找符合假设患者标准的试验，因此询问与他们自己的参与有关的问题是没有意义的。

表4。健康素养较低参与者的研究结果。

测量	任务1			任务2
	代理(n = 15)	控制(n = 8)	P	代理(n = 15)	控制(n = 8)	P
完成任务，n (%)^一个	12 (80)	8 (100)	只要	12 (80)	8 (100)	只要
声明发现一个试验，n (%)^一个	6/14 (43)	1/8 (13)	.14点	5/14 (36)	1/8 (13)	。
找到一个正确的试验，n (%)^一个	- - - - - -^b	- - - - - -^b	- - - - - -^b	5/14 (36)	0/8 (0)	0。
运行时间(分钟)，平均值(SD)^c	13.3 (11.4)	8.2 (6.3)	票价	6.8 (4.3)	4.6 (4.3)	二十五分
试验次数(自我报告)，平均值(SD)^c	3.0 (3.4)	0.9 (1.1)	16	2.8 (3.2)	1.5 (2.1)	36
符合标准(自我报告;试验数百分比)，平均值(SD)^{c, d}	74 (30)	75 (35)	.89	80 (31)	67 (58)	.92
试验在多大程度上符合你的预期?(范围1-7)，平均值(SD)^c	4.1 (1.9)	2.4 (1.4)	06	5.3 (2.1)	3.3 (2.0)	.04点
你有多大可能报名参加你发现的试验?(范围1-7)，平均值(SD)^c	3.8 (1.1)	3.6 (1.9)	结果	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得使用这个系统花了多少时间?(范围1-7)，平均值(SD)^c	3.8 (0.9)	4.1 (2.5)	点	3.9 (0.3)	4.5 (2.3)	.86
你对临床试验搜索系统有多满意?(范围1-7)，平均值(SD)^c	5.3 (1.6)	2.9 (1.7)	. 01	5.7 (1.6)	2.9 (1.4)	.002
你现在有多沮丧?(范围1-7)，平均值(SD)^c	2.9 (2.0)	4.8 (2.1)	. 01	2.3 (2.1)	3.1 (1.9)	酒精含量
你现在有多高兴?(范围1-7)，平均值(SD)^c	5.5 (1.6)	3.3 (2.7)	.04点	5.7 (1.7)	2.6 (1.1)	措施
你自愿参加试验的压力有多大?(范围1-7)，平均值(SD)^c	1.1 (0.3)	2.3 (2.2)	.10	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得系统提供了多少信息?(range -7)，平均值(SD)^c	4.8 (1.5)	4.3 (1.5)	. 21	- - - - - -^e	- - - - - -^e	- - - - - -^e
如果你想再进行一次试验，你有多大可能再次使用这个系统?(范围1-7)，平均值(SD)^c	5.5 (1.8)	5.0 (2.4)	.74点	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多大可能把这个系统推荐给其他正在寻找试验的人?(范围1-7)，平均值(SD)^c	6.1 (1.9)	5.1 (2.7)	。45	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多相信从系统接收到的信息?(范围1-7)，平均值(SD)^c	6.3 (1.0)	5.1 (2.1)	点	- - - - - -^e	- - - - - -^e	- - - - - -^e

^一个卡方检验。

^b任务1涉及参与者寻找他们感兴趣的试验，所以没有办法客观地评估他们发现的试验是否“正确”。

^cMann-WhitneyU测试。

^d符合标准的试验是一种主观的自我报告测量。

^e任务2涉及参与者寻找符合假设患者标准的试验，因此询问与他们自己的参与有关的问题是没有意义的。

在所有研究条件下，分析低健康素养和高健康素养参与者之间的差异，发现了一些显著差异。总体而言，与健康素养高的参与者相比，健康素养低的参与者更有可能表示他们阅读的试验满足他们的标准(任务1:74% vs 37%，U= 82,P<措施;任务2:77% vs 49%，U= 148,P= .02点)。健康素养较低的参与者更有可能表示他们会报名参加任务1中的试验(平均评分3.8,SD 1.4 vs平均评分2.8,SD 1.8，U= 380,P=.048)，他们会向朋友推荐这个系统(平均评分5.7,SD 2.3 vs平均评分4.5,SD 2.3，U= 379,P=.01)。

主要结果

在我们将基于对话的代理搜索用户界面与传统的基于关键字和方面的搜索引擎界面进行比较时，参与者对代理更满意，并且认为代理比传统界面更善于找到符合他们标准的试验。与传统界面相比，参与者在与代理交互后感到更高兴，更少沮丧。

在我们的标准化任务(任务2)中，值得注意的是，没有一个健康素养较低的参与者能够使用传统的搜索引擎界面找到正确的临床试验，而36%(5/14)的参与者能够使用对话代理找到正确的临床试验。这些结果加强了我们早期的发现，即传统的搜索界面对于健康状况不佳或计算机知识水平较低的人来说是无法使用的[9］．令人鼓舞的是，对话界面能够为至少三分之一的用户提供可访问性，同时所有用户(包括卫生素养高的用户)对该界面的满意度评价更高。尽管如此，为了在更大范围的人群中取得成功，对其他适应性的研究似乎是有必要的。

与传统界面相比，会话界面确实需要更多的时间来使用:任务1长40%，任务2长27%(尽管这些差异在统计上不显著)。这有几个原因:听语音提示而不是阅读提示所需的时间，代理为获得搜索标准而进行的访谈，以及代理使用的社交对话、教程和其他“任务外谈话”来提高可接近性、参与性和理解力。然而，我们的目标用户群体显然很乐意花额外的时间在对话用户界面上以获得更好的结果;在浏览任务中，与使用传统界面的人相比，他们选择花几乎两倍的时间来寻找试用版。此外，他们在任务2中所花费的时间的主观印象表明，用户觉得会话代理界面实际上比传统界面花费的时间要少得多。

限制

我们的研究除了参与者人数少之外，还有几个局限性。在我们的研究中，一些使用者(21%)以前曾参与过临床试验，因此不能代表癌症患者的一般人群，因为他们对临床试验的背景知识可能高于平均水平。然而，有试验经验的人被随机分配到两个试验组，所以两组在这方面应该是相等的。另一个局限性与使用REALM作为卫生知识普及的衡量标准有关。尽管这一工具成功地区分了参与者对我们干预的影响，但其他措施可能会提供更精细的能力，以深入研究电子和计算机素养的特定维度。尽管电子健康素养量表(eHEALS)是为此目的而设计的，但它是一种主观的自我报告测量方法[35］．在当前的研究中，我们选择了一个客观评分措施;未来的研究需要进一步区分对话搜索界面如何改善低健康水平和计算机素养的各个方面。

与之前工作的比较

一些研究已经调查了为低领域知识的用户使用标准的基于关键字的搜索界面[14]，他们说一门外语[15]，他们是儿童[16]或年长人士[17]，这些都与我们的任务和人口有共同的特点。这些研究表明，即使是最简单的基于关键字的搜索界面对许多用户来说都是不可用的，而且需要特殊的设计考虑，例如简化结果[17]并提供语言及互动支持[16)，对用户来说很重要，尤其是那些健康状况不佳或不懂计算机的用户

其他研究调查了使用对话代理向健康素养较低的个人传达健康信息。比克莫尔等[20.，36]及王等[37为健康素养较低的个体开发了身体活动宣传、出院指导、医疗文件讲解和家庭病史了解等会话代理。这些研究大多表明，健康素养较低的参与者与健康素养较高的参与者相比，对对话界面的满意度显著更高。

结论

我们的研究结果表明，对于许多类型的应用程序，对话式的基于代理的搜索引擎界面可能是传统的基于Web表单的界面的一个很好的替代品，特别是对于那些针对低健康素养用户或计算机经验或技能有限的用户。

致谢

感谢Barbara Barry、Ramesh Manuvinakurike、Juan Fernandez、Lazlo Ring和Maryam Aziz帮助开发该系统。这项工作由美国国立卫生研究院国家癌症研究所资助R01CA158219。

利益冲突

没有宣布。

国家癌症研究所。健康信息全国趋势调查网址:http://hints.cancer.gov/question-details.aspx?dataset=41&method=mail&qid=757[访问2015-12-23][WebCite缓存］
皮尤研究中心2013年1月15日。健康在线2013网址:http://www.pewinternet.org/2013/01/15/health-online-2013/[访问2015-12-23][WebCite缓存］
同意EM, King AC, Castro CM, Wiley A, Borzekowski DL。“必须在这一页上”:一项在线健康信息搜索研究中的年龄和认知方式。中国医学杂志，2015;17(3):e79 [免费全文] [CrossRef] [Medline］
数字鸿沟研究，成果与不足。诗学2006;34(4 - 5):221 - 235。
尼尔森-波尔曼L, Panzer A，金D.健康素养:结束困惑的处方。华盛顿:国家科学院出版社;2004.URL:http://www.ncbi.nlm.nih.gov/books/NBK216032/[访问2015-12-23][WebCite缓存］
Diviani N, van den Putte B, Giani S, van Weert JC。低健康素养和在线健康信息的评估:文献的系统回顾。中国医学杂志，2015;17(5):e112 [免费全文] [CrossRef] [Medline］
Atkinson NL, Saperstein SL, Massett HA, Leonard CR, Grama L, Manrow R.使用互联网搜索癌症临床试验:临床试验搜索工具的比较审计。conp临床试验2008 july;29(4):555-564 [免费全文] [CrossRef] [Medline］
国家癌症研究所，2014。查找nci支持的临床试验网址:http://www.cancer.gov/about-cancer/treatment/clinical-trials/search[访问2015-11-29][WebCite缓存］
Utami D, Bickmore TW, Barry B, paasch - orlow MK.临床试验搜索引擎的健康素养和可用性。《卫生公共杂志》2014;19增刊2:190-204。［CrossRef] [Medline］
Paasche-Orlow MK, Wolf MS.健康素养与健康结果之间的因果途径。中华卫生杂志2007;31增刊1:S19-S26。［CrossRef] [Medline］
paasch - orlow MK, Parker RM, Gazmararian JA, Nielsen-Bohlman LT, Rudd RR。卫生知识普及有限。J Gen实习医学2005 Feb;20(2):175-184 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。健康素养而不是种族可以预测临终护理偏好。中华泌尿外科杂志2008 6;11(5):754-762。［CrossRef] [Medline］
搜索用户界面。剑桥:剑桥大学出版社;2009.
张欣，刘杰，袁X, Cole M, Belkin N，刘晨。具有不同领域知识的用户是否选择不同的文档集?见:人机交互与信息检索(HCIR)年度研讨会论文集。2012年发表于:人机交互与信息检索(HCIR)研讨会;2012年10月4-5日;马萨诸塞州,剑桥。
柯洛迪，李国强，李国强，李国强。母语和外语搜索的搜索质量差异。2011年发表于:人机交互与信息检索(HCIR)年会;2011年10月20日;加州山景城
Gossen T, Nitsche M, Nurnberger a .知识之旅:面向年轻用户的网络搜索界面。2012年发表于:人机交互与信息检索(HCIR)年度研讨会;2012年10月4-5日;马萨诸塞州,剑桥。［CrossRef］
Aula A, Käki M. Less更多的是针对老年人的网络搜索界面。2005年首星期一;10(5):100-101 [免费全文］
Allam A, Schulz PJ, Nakamoto K.搜索引擎选择和排序标准对疫苗接种信念和态度的影响:两个操纵谷歌输出的实验。中国医学杂志，2014;16(4):e100 [免费全文] [CrossRef] [Medline］
Mackert M, Kahlor L, Tyler D, Gustafson J.为低健康知识文化多样性的父母设计电子健康干预:解决肥胖流行病。Telemed J E Health 2009 9月;15(7):672-677 [免费全文] [CrossRef] [Medline］
Bickmore TW, Pfeifer LM, Byron D, Forsythe S, Henault LE, Jack BW，等。健康素养不足的患者会话代理的可用性:来自两个临床试验的证据。J卫生公共2010;15增刊2:197-210。［CrossRef] [Medline］
范维德，范维德，范维德。情态和叙述风格对在线健康信息回忆的影响:来自网络实验的结果。中国医学网络学报2015;17(4):e104 [免费全文] [CrossRef] [Medline］
Meppelink CS, van Weert JC, Haven CJ, Smit EG。健康动画在不同健康素养水平观众中的效果:一项实验研究。中国医学杂志，2015;17(1):e11 [免费全文] [CrossRef] [Medline］
具体会话代理。马萨诸塞州剑桥:麻省理工学院出版社;2000.
Bickmore T, Gruber A, Picard R.在自动化健康行为改变干预中建立计算机-患者工作联盟。患者教育计数2005 Oct;59(1):21-30。［CrossRef] [Medline］
Reiter E, Dale R.构建自然语言生成系统。剑桥:剑桥大学出版社;2000.
Bickmore T, Schulman D, Shaw G. DTask和LiteBody:用于构建web部署的具身对话代理的开源、基于标准的工具。在:智能虚拟代理。2009发表于:第九届国际会议，IVA 2009;2009年9月14-16日;阿姆斯特丹425-431页。［CrossRef］
比克莫尔，卡鲁索，克劳-戈尔，海伦。“这就像你和朋友聊天一样”——老年人的关系代理。交互计算2005;17(6):711-735。
定性研究基础:发展扎根理论的技术和程序。加州千橡市:鼠尾草;2014.
决策树的归纳。Mach Learn 1986;1(1):81-106。
戴维斯TC，朗SW，杰克逊RH，梅约EJ，乔治RB，墨菲PW，等。成人医学素养的快速评估:一种缩短的筛查工具。中华医学杂志1993 6;25(6):391-395。［Medline］
林道ST, Basu A, Leitsch SA。健康素养作为异常巴氏涂片后随访的预测因素:一项前瞻性研究。J Gen实习生医学2006年8月;21(8):829-834 [免费全文] [CrossRef] [Medline］
Mancuso CA, Rincon M.健康素养对哮喘纵向结局的影响。J Gen实习生医学2006年8月;21(8):813-817 [免费全文] [CrossRef] [Medline］
苏多雷，叶菲，萨特菲尔德，哈里斯，米赫塔，西蒙西克，等。老年人有限的识字率和死亡率:健康、衰老和身体成分研究J Gen实习生医学2006年8月;21(8):806-812 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。健康素养对抑郁症状和心理健康的影响:成人成瘾者的生活质量J Gen实习生医学2006年8月;21(8):818-822 [免费全文] [CrossRef] [Medline］
Ghaddar SF, Valerio MA, Garcia CM, Hansen L.青少年健康素养:在线健康信息可信来源的重要性。中华中学卫生杂志2012 1月;82(1):28-36。［CrossRef] [Medline］
Bickmore TW, Pfeifer LM, Paasche-Orlow MK.使用计算机代理向低健康素养的患者解释医疗文件。患者教育杂志2009 Jun;75(3):315-320 [免费全文] [CrossRef] [Medline］
王c, Bickmore T, Bowen DJ, Norkunas T, Campion M, Cabral H，等。虚拟咨询师收集家庭健康史的可接受性和可行性。Genet Med 2015 Oct;17(10):822-830。［CrossRef] [Medline］

‎

NCI:国家癌症研究所

域:成人医学素养的快速评估

G·艾森巴赫(G Eysenbach)编辑;提交26.10.15;S Saperstein, B Lok同行评审;对作者18.11.15的评论;订正版本收到23.11.15;接受26.11.15;发表04.01.16

©Timothy W Bickmore, Dina Utami, Robin Matsuyama, Michael K Paasche-Orlow。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2016年01月04日。

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用会话代理改善在线健康信息的访问:一项随机对照实验