医学互联网研究杂志-使用会话代理改善在线健康信息的访问:一项随机对照实验

原始论文

¹东北大学计算机与信息科学学院，美国马萨诸塞州波士顿

²弗吉尼亚联邦大学，里士满，弗吉尼亚州，美国

^3.波士顿医疗中心，波士顿，马萨诸塞州，美国

*所有作者贡献均等

通讯作者:

Timothy W Bickmore博士

东北大学

计算机与信息科学学院

亨廷顿大街360号，910-177

波士顿，马萨诸塞州，02115

美国

电话:1 6173735477

传真:1 617 812 2589

电子邮件:bickmore@ccs.neu.edu

背景:卫生知识水平低的个人可能无法使用传统的基于web的搜索引擎查找与健康有关的信息，因此妨碍了这类人群使用这些搜索引擎。

摘要目的:我们描述了一个会话搜索引擎界面，旨在让健康状况不佳和计算机素养低的个人识别和了解互联网上的临床试验。

方法:一项涉及89名参与者的随机试验将会话搜索引擎界面(n=43)与国家癌症研究所临床试验数据库中现有的基于关键字和面部的传统搜索引擎界面(n=46)进行了比较。每个参与者执行两项任务:为自己找到一个临床试验，并找到一个符合预定标准的试验。

结果:结果表明，所有参与者都对会话界面更满意，基于7分自我报告满意度评分(任务1:平均4.9,SD 1.8 vs平均3.2,SD 1.8，P<措施;任务2:平均4.8,SD 1.9 vs平均3.2,SD 1.7，P<.001)，与传统的基于Web表单的界面相比。所有参与者还根据7点自我报告量表(任务1:平均3.7,SD 1.6 vs平均2.7,SD 1.8，P= . 01;任务2:平均4.8,SD 1.7 vs平均3.4,SD 1.9，P< . 01)。使用传统搜索引擎界面，健康素养低的参与者未能找到任何满足任务2预定标准的试验，而36%(5/14)的参与者使用会话界面(P= . 05)。

结论:会话代理可用于改善基于web的搜索的可访问性，特别是临床试验，并有助于减少对弱势群体的招募偏见。

医学互联网研究，2016;18(1):1

doi: 10.2196 / jmir.5239

关键字

具身会话代理；搜索用户界面；信息检索用户界面；网络搜索；健康知识；关系代理；计算机知识；搜索引擎；互联网

大多数美国成年人在网上查找健康信息。1，2］．然而，在使用因特网查找保健信息方面仍然存在差距[3.，4］．造成这些差异的一个具体原因可能是基于关键字的搜索引擎，如google——尽管是大多数用户的主要搜索门户——实际上可能代表了许多弱势群体的重大障碍。先前的研究表明，卫生知识普及程度低的人，获取和处理卫生保健相关信息的能力较低[5，6]，在使用基于关键字的搜索界面时尤其困难。同意等[3.表明，健康素养低的个人在使用这些界面在网上搜索一般健康信息时成功率较低。健康知识水平低的人群的可用性很重要，因为这一人群占美国成年人的36% [5］．

除了通用的搜索引擎，许多搜索引擎和接口已经为特定类型的医疗保健信息开发。一个例子是临床试验搜索引擎，它从存储库或数据库检索临床试验的描述[7］．其中一些搜索引擎是由商业公司和美国政府(如国家癌症研究所)在网上开发的。8])。个人使用这些搜索引擎来查找他们可能有资格参加的试验和他们可能有兴趣参加的试验。Utami等[9发现卫生知识水平较低的个体发现的临床试验较少，使用基于网络的临床试验搜索引擎完成标准化搜索任务所需的时间也比卫生知识水平较高的个体长。卫生知识普及程度低的人使用临床试验搜索引擎尤其重要，因为这一群体中少数民族的代表性不成比例[10-12导致弱势群体获得临床试验信息的机会减少。尽管基于网络的临床试验搜索引擎有望提供普遍的信息获取途径，但传统的搜索系统可能会进一步加剧临床试验招募方面的差距，因为它主要是为了迎合受过良好教育、健康水平高、计算机知识水平高的个人。

传统的基于网页表单的搜索引擎用户界面(例如b谷歌)通常只使用用户提供的关键字，而其他搜索引擎则将关键字输入与多个选择选项结合起来，称为“基于界面”的搜索界面[13］．先前的一些研究已经调查了这些搜索界面对低领域知识用户的使用[14]，他们说的是一种不同于网络形式的语言[15，谁是孩子[16]，或老年人[17，所有与我们的任务和人口有共同特点的人。这些研究表明，即使是最简单的基于关键字的搜索界面，对许多用户来说也是不可用的，而特殊的设计考虑，如简化结果[17]并提供语言和互动支持[16——对弱势用户很重要。用户在评估搜索引擎的结果时也可能受到上下文线索的影响[18而那些健康知识较低的人在评估搜索结果时，可能特别容易受到这些线索的影响，他们依赖于搜索结果中的位置、图片质量和名人代言等特征[19］．

在本文中，我们描述了基于web的临床试验搜索引擎的设计，我们设计该引擎以减轻与低健康素养相关的障碍。搜索任务被设定为与动画角色的对话，以使其尽可能熟悉和易接近，并且进行了一些额外的功能和简化，以帮助低健康素养的用户导航整个临床试验搜索过程。我们进行了一项随机试验，将会话搜索引擎与现有的传统基于web的搜索引擎进行比较。

会话式搜索引擎的设计

会话搜索引擎支持的总体任务是使用公开信息，根据初始人口统计标准和用户暂时感兴趣的内容，找到用户符合条件的一个或多个癌症相关临床试验。该搜索引擎索引了美国国家癌症研究所(NCI)数据库中超过10,000个正在进行的试验(在进行这项工作时)[8］．

基于我们为低健康素养患者开发几个健康咨询对话系统的经验[20.]，先前的研究表明，将视听信息与会话风格相结合可以提高用户的记忆力[21]，与文字相比，动画与语言相结合[22]，我们将整个交互设计为与具体对话代理的对话[23］．智能体使用合成语音说话，由增强的基于转换网络的对话引擎生成[24]、基于模板的文本生成[25]，以及一个动态更新的用户模型，伴随着与演讲同步的会话非语言行为(如手势、面部表情、凝视)[26) (图1)。代理还操纵它正在与用户讨论的工件;在这种情况下，代表正在讨论的临床试验方面的文件。用户对对话的输入仅限于从一个列表中选择多个选项，该列表在对话的每个回合中都会动态更新。因此，交互是系统在对话邻接对级别发起的(例如，代理问题/用户响应)，但用户主动性是通过允许用户选择对话的主题并通过从预定义的列表中选择对话中的预定义点提出问题来提供的。我们已经成功地将这种界面模式应用于一千多名临床试验患者，其中包括数百名健康知识水平较低的患者和许多从未接触过电脑的患者[20.，27］．由此产生的系统可以被描述为一个“全面的”搜索界面，在这个界面中，用户从来没有被要求回忆和输入文本，但总是用他们可以输入的可能范围搭建起来[13］．

整个搜索体验被构建为一个扩展的对话，在这个对话中，用户首先被询问他们的需求和偏好，然后显示候选试验，代理在此过程中提供尽可能多的框架——通过教程、解释和建议。考虑到临床试验描述对用户来说可能非常复杂和乏味，我们错误地在搜索之前从用户那里获取尽可能多的信息，试图确定最合适的试验。此外，我们设计的系统可以分阶段显示有关试验的信息，只显示用户在每个评估点需要的详细信息。典型对话的整体流程如图所示图2。

为了定义代理从用户那里引出的搜索标准，我们利用了可用性研究的定性发现[9］．这项研究的参与者被要求在成对的临床试验描述中进行选择，然后被要求解释其基本原理。运用扎根理论分析解释[28揭示了信息寻求实践和审议主题。我们将本研究中从用户那里得到的搜索标准偏好列表与NCI数据库中的临床试验方案进行了交叉引用。我们发现一些用户标准已经作为数据库索引存在，包括参与者的年龄、性别、癌症类型、研究地理位置、试验类型和阶段，以及研究药物的使用。额外的用户标准不作为数据库索引存在，但可以通过数据库中文本字段的文本分类推断出来，包括主观评估参与研究将涉及痛苦过程的可能性，主观评估协议侵入性(例如，调查vs诊断vs治疗)，以及总体时间承诺。这些推断标准(疼痛、侵入性和时间负担)是基于决策树算法(ID3 [29])，它使用了在手工评分的例子上训练的试验描述文本中的单词出现特征。在我们的运行时临床试验搜索算法中，可以映射到现有数据库索引的搜索标准用于搜索数据库，而通过文本分类推断的标准用于对结果进行排序。

除了整体结构的交互显示在图2，我们在搜索用户界面中加入了几个功能，以帮助识字程度低的用户进行搜索:

词典:NCI网站为用户提供医学术语词典;然而，这个词典可以在NCI网站上作为一个独立的模块从搜索引擎中获得。在我们对这个网站的用户研究中，我们发现寻找定义常常会分散用户的注意力，使他们无法完成主要的搜索任务。我们将字典与搜索功能集成在一起;虽然代理向用户解释搜索结果，但字符会自动从文本中提取困难的术语并提供解释。
大声朗读:用户可以要求代理大声朗读，并在必要时重复任何临床试验文本或定义。在大声说话时，代理会显示文本的可视化，让用户能够跟着读。
简化标题:临床试验标题可能很长，很复杂，很难记住。我们使用试验的阶段和类型以及试验的癌症类型简化了显示标题(例如，将“非小细胞肺癌患者给予Patanobib或Dopepaxel的BFTZ2252研究”替换为“肺癌II期治疗试验”)。
教育模块:代理商在搜索的适当点提供解释临床试验的几个基本概念，如自愿性和风险。
用户搜索条件确认:座席定期显示用户的搜索条件，并允许用户修改自己的选择。这是在初次面谈之后，在讨论了每个匹配的临床试验之后，以及在药物试验结束后向用户展示时进行的。
查询精化:如果搜索没有返回结果，或者用户用尽了索引试验的列表，代理会建议修改搜索标准的方法。
书签:用户可以保存临床试验的参考资料，以便在随后的搜索会话中进行审查。
视图摘要:代理定期显示搜索会话期间查看的试验列表，并突出显示书签试验。
细节级别:每个临床试验描述以3个细节级别呈现，并附有相关显示。最初只向用户显示试验的标题和资格标准(见图1)，但随后他们可以选择查看试验研究目的，之后他们可以选择查看试验程序的详细信息。

研究的目的是

这项工作的总体目标是开发一个基于web的搜索界面，使健康状况不佳和计算机读写能力差的个人更容易使用。我们假设，与传统的基于关键字和人脸的搜索引擎相比，会话搜索界面将为所有用户带来更大的搜索成功率和更高的满意度，但对于健康素养较低的个人而言，差异将尤其明显。

为了评估我们的系统，我们进行了一项受试者间随机试验，将我们的会话代理搜索引擎(“代理”)与NCI开发的传统基于facet和关键字的搜索引擎(“control”)进行比较([7])，两个搜索引擎界面都对同一组临床试验进行索引。参与者是从一群说英语的成年癌症患者中招募的，他们的文化水平不同。在弗吉尼亚联邦大学之前的一项研究中，参与者已经记录了社会人口统计指标，并完成了健康素养评估。研究方案由波士顿医学中心和弗吉尼亚联邦大学伦理委员会批准，并获得所有研究参与者的知情同意。使用成人医学素养快速评估(REALM)评估健康素养[30.］．与其他作者一样，以9年级的REALM分数作为截止标准，将参与者分为健康素养充足组和健康素养不足组[31-34］．

我们要求参与者执行两项搜索任务。在任务1中，参与者被要求寻找一个他们暂时有资格参加并且他们会感兴趣的临床试验。在任务2中，他们被要求根据指定的资格标准(即年龄，癌症类型，试验类型，地理位置)为其他人搜索试验，作为标准化测试，以便我们确定他们找到的任何试验是否实际上符合指定的标准(文本框1)。

为了确保计算机和健康素养较低的参与者能够使用，我们设计了实验，使他们能够在实验室(对于那些没有计算机的人)或家中进行研究。实验软件首先为参与者提供了一个简短的系统使用教程，包括一个练习任务。然后显示第一个搜索任务。为了完成每项任务，参与者被重定向到另一个有代理或NCI搜索引擎(图3)。如果参与者找到了一项试验，他们将临床试验ID号输入文本字段，然后点击“我找到了一项试验”按钮。如果他们找不到试用版，他们就点击“我找不到试用版”按钮。一旦用户完成了每个任务，他们就会被提示填写一份Web表单问卷，其中包含了研究的测量方法。在每个任务完成后，前7个问题在表1都是通过Web表单自动管理的。参与者还被要求在每个任务完成后回忆他们检查的试验次数以及符合标准的试验次数。Web服务器还捕获参与者找到的临床试验ID(如果有的话)和完成每个任务所需的时间。在两项任务完成后，剩下的5个问题(8-12题)表1)由研究助理(对于亲自进行研究的人)或通过电话(对于远程进行研究的人)口头管理。在家完成研究的参与者在没有在线帮助的情况下自行完成研究，并在完成在线任务后36小时内接到电话，以获得最终结果。非参数统计(频率和Mann-Whitney的卡方检验)U考虑到数据的性质和大多数分布的非正态性，使用了所有其他度量的检验。

标准化搜索任务(任务2)。

这是你的第二个任务。请记下来。

我是罗莎。她是个癌症病人。

<罗莎b>的图像

以下是罗莎的一些信息:

年龄:70岁。

癌症类型:乳腺癌。

她想要的试验类型:治疗试验。

她想要的审判地点:可以在任何地方。

我们希望你利用上面的信息为罗莎找到一个临床试验。

找到试用版后，请在屏幕右下方写着“试用版ID”的框中输入它的ID号，然后点击“我找到了试用版”的按钮。另外，请把协议编号写在一张纸上。

如果你花了一些时间寻找，但不认为你可以找到一个试用，然后点击屏幕左下角的“我找不到试用”按钮。

如果您准备好开始，请点击“I am ready”按钮。

文本框1。标准化搜索任务(任务2)。

表1。研究中使用的自我报告方法。

量表自述项目	锚1	锚7
1.你在多大程度上知道你想在审判中得到什么?(任务1)	一点也不	完全
2.审判在多大程度上符合你的要求?	一点也不	完全
3.你有多大可能报名参加你找到的试验?(任务1)	不可能	很有可能
4.你觉得使用这个系统花了多少时间?	太少	太多
5.您对临床试验检索系统的满意程度如何?	一点也不	非常
6.你现在有多沮丧?	一点也不	非常
7.你现在有多高兴?	一点也不	非常
8.你自愿参加试验的压力有多大?	没有压力	压力很大
9.你觉得系统提供了多少信息?	没有足够的	太多
10.如果你想找到另一个试验，你有多大可能再次使用这个系统?	不可能	很有可能
11.你有多大可能把这个系统推荐给其他想要试验的人?	不可能	很有可能
12.您对从系统接收到的信息有多信任?	一点也不	非常

参与者的社会人口统计信息显示在表2。共有89人参与;平均年龄59.2岁(SD 9.8)， 46%(48/89)为女性，27%(23/89)健康素养低。98%(87/89)的参与者报告了当前的癌症诊断:32%(28/89)为血液癌，14%(12/89)为乳腺癌，14%(12/89)为泌尿生殖系统癌，14%(12/89)为头颈癌，10%(9/89)为肺癌。大多数人(70%，62/89)报告经常使用电脑和基于网络的搜索引擎(52%，46/89)。尽管只有21%(19/89)的人报告曾参与过癌症相关临床试验，但52%(46/89)的人表示有兴趣参与其中。大约一半的参与者(48%，43/89)被随机分配到药物条件。在89名参与者中，53人(60%)在实验室进行研究，36人(40%)在家通过网络进行研究。由于技术或其他问题，少数参与者无法完成某些任务(17%，14/89)。初步研究结果见表3。

所有参与者的任务1结果

在最初的任务中，参与者被要求为自己找到一个临床试验。大多数参与者在开始这项任务时并不清楚他们想要什么，并且在1到7的范围内，他们对自己在试验中想要的东西的了解程度的平均评分为2.8(标准差为1.9)。然而，药物组中有45%(19/42)和对照组中有31%(14/45)成功找到了试验;两组间差异无统计学意义(χ²₁= 1.8,P=点)。与对照条件相比，在药物条件下，参与者认为这些试验与他们所寻找的结果相匹配的程度显著更高(平均3.7,SD 1.6 vs平均2.7,SD 1.8，U= 465,P= . 01)。与传统接口相比，参与者对代理的满意度显著提高(平均评分4.9,SD 1.8 vs平均评分3.2,SD 1.8，U= 363,P<.001)，感到沮丧的程度明显减少(评分平均2.1,SD 1.7 vs平均3.7,SD 2.2，U= 405,P<.001)和更满意(评分平均5.1,SD 2.1 vs平均3.4,SD 1.9，U= 380,P<.001)。

亲自完成研究的人与在家完成研究的人的结果没有显著差异。

所有参与者的任务2结果

在第二个任务中，参与者被要求找到一个临床试验，满足一组预先指定的标准作为标准化任务。尽管药物组中48%(20/42)和对照组中40%(18/45)声称找到了符合标准的试验(χ²₁= 0.5,P=.52)，分别只有43%(18/42)和31%(14/45)发现了正确的试验²₁= 1.3,P=陈霞)。然而，药物组的参与者认为，与对照组相比，他们发现的试验在更大程度上符合标准(平均4.8,SD 1.7, vs 3.4, SD 1.9，U= 381,P<措施)。与任务1一样，代理组的参与者明显更满意(平均评分4.8,SD 1.9 vs平均评分3.2,SD 1.7，U= 336,P<.001)和满意(评分平均4.6,SD 1.8 vs平均3.1,SD 1.7，U= 358,P<.001)，且沮丧程度显著降低(评分平均2.6,SD 1.9 vs平均3.8,SD 2.2，U= 429,P= 0.01)。

与任务1一样，与传统界面相比，使用agent进行搜索往往需要更长的时间(平均8.2,SD 5.3分钟vs平均6.4,SD 4.3分钟)，但这并不具有统计学意义(U= 507,P= 0。06)。然而，与传统界面相比，参与者认为代理花费的时间显着减少(平均4.2,SD 1.1 vs 5.1, SD 1.7，U= 466,P= 03)。

表2。参与者社会人口。

变量		所有N = 89	剂n = 43	控制n = 46	P
性别(女性)，n (%)		48 (54)	18 (42)	30 (65)	03
年龄(岁)，平均(SD)		59.2 (9.8)	58.6	59.7	.59
种族，n (%)					。45
	黑色的	41 (46)	19 (44)	22 (48)
	白色	48 (54)	24 (56)	24 (52)
	其他	0 (0)	0 (0)	0 (0)
西班牙裔或拉丁裔，n (%)		0 (0)	0 (0)	0 (0)	N/A
教育，n (%)					．38
	<高中	15 (17)	9 (21)	6 (13)
	高中	10 (11)	6 (14)	4 (9)
	>高中	62 (71)	27 (63)	35 (78)
已婚，n (%)		40 (45)	16 (32)	24 (52)	.20
健康素养(REALM评分)
	意思是(SD)	57 (15)	56 (16)	59 (15)	.35点
	充足(≥60)，n (%)	65 (73)	27 (64)	38 (83)	0。
学习地点(亲自)，n (%)		53 (60)	27 (63)	26 (57)	正
计算机经验，n (%)					.64点
	从来没用过	7 (8)	5 (12)	2 (4)
	尝试一个	21 (24)	10 (24)	11 (24)
	经常使用	53 (61)	24 (57)	29日(64)
	专家	6 (7)	3 (7)	3 (7)
搜索引擎经验，n (%)					获得
	从来没用过	15 (17)	7 (17)	8 (18)
	尝试一个	16 (18)	8 (19)	8 (18)
	经常使用	45 (52)	22 (52)	23日(51)
	专家	11 (13)	5 (12)	6 (13)
临床试验知识，n (%)					点
	没有一个	16 (18)	12 (29)	4 (9)
	一个小	40 (46)	16 (38)	24 (53)
	大量	29 (33)	13 (31)	16 (36)
	专家	2 (2)	1 (2)	1 (2)
曾参加过癌症临床试验(是)，n (%)		18 (21)	7 (17)	11 (24)	点
现在真的有兴趣参加试验了吗?(yes)， n (%)		44 (52)	23日(56)	21 (48)	点
你在多大程度上知道你想在审判中得到什么?^一个意思是(SD)		2.8 (1.9)	2.7 (1.7)	3.0 (2.1)	.60

^一个锚1=我根本不知道;我知道得很清楚。

低健康素养参与者的结果

表4显示了24名低健康素养参与者按研究条件的结果。结果与所有研究参与者的结果非常相似(表3)，但有一个明显的例外:在标准化任务(任务2)中，没有一个低文化水平的参与者能够使用传统界面找到符合给定标准的临床试验。然而，36%(5/14)的低文化参与者能够使用该药物找到正确的临床试验。这一差异接近显著(χ²₁= 3.7,P= . 05)。

表3。初步研究结果。

测量	任务1			任务2
	代理(n = 43)	控制(n = 46)	P	代理(n = 43)	控制(n = 46)	P
已完成任务，n (%)^一个	37 (86)	37 (80)	算下来	36 (84)	37 (80)	.79
声明发现一个试验，n (%)^一个	19/42 (45)	14/45 (31)	.19	20/42 (48)	14/45 (40)	点
找到一个正确的试验，n (%)^一个	- - - - - -^b	- - - - - -^b	- - - - - -^b	18/42 (43)	14/45 (31)	陈霞
运行时间(分钟)，平均值(SD)^c	12.6 (9.2)	9.0 (8.4)	．06	8.15 (5.3)	6.4 (4.9)	．06
检验试验数(自我报告)，平均值(SD)^c	2.8 (3.0)	3.8 (6.7)	56	3.0 (3.1)	4.9 (9.4)	54
符合标准的试验(自我报告;检验试验的百分比)，平均值(SD)^{c, d}	56 (39)	34 (35)	．06	64 (37)	44 (41)	.09点
审判在多大程度上符合你的要求?(范围1 - 7),^c意思是(SD)	3.7 (1.8)	2.7 (1.6)	. 01	4.8 (1.7)	3.4 (1.9)	〇〇
你有多大可能报名参加你找到的试验?(范围1-7)，平均值(SD)^c	3.3 (1.7)	2.9 (1.7)	. 21	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得使用这个系统花了多少时间?(范围1-7)，平均值(SD)^c	4.3 (1.3)	4.6 (1.8)	收	4.2 (1.1)	5.1 (1.7)	03
您对临床试验检索系统的满意程度如何?(范围1-7)，平均值(SD)^c	4.9 (1.8)	3.2 (1.8)	<措施	4.8 (1.9)	3.2 (1.7)	<措施
你现在有多沮丧?(范围1-7)，平均值(SD)^c	2.1 (1.7)	3.7 (2.2)	措施	2.6 (1.9)	3.8 (2.2)	. 01
你现在有多高兴?(范围1-7)，平均值(SD)^c	5.1 (2.1)	3.4 (1.9)	措施	4.6 (1.8)	3.1 (1.7)	措施
你自愿参加试验的压力有多大?(范围1-7)，平均值(SD)^c	1.2 (0.6)	1.4 (1.1)	获得	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得系统提供了多少信息?(范围1-7)，平均值(SD)^c	4.2 (1.7)	4.3 (1.8)	.98点	- - - - - -^e	- - - - - -^e	- - - - - -^e
如果你想找到另一个试验，你有多大可能再次使用这个系统?(范围1-7)，平均值(SD)^c	5.0 (2.1)	4.1 (2.4)	07	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多大可能把这个系统推荐给其他想要试验的人?(范围1-7)，平均值(SD)^c	5.1 (2.2)	4.5 (2.5)	二十五分	- - - - - -^e	- - - - - -^e	- - - - - -^e
您对从系统接收到的信息有多信任?(范围1-7)，平均值(SD)^c	5.7 (1.6)	5.1 (1.9)	13。	- - - - - -^e	- - - - - -^e	- - - - - -^e

^一个卡方检验。

^b任务1涉及参与者寻找他们感兴趣的试验，因此没有办法客观地评估他们找到的试验是否“正确”。

^cMann-WhitneyU测试。

^d试验表明，满足标准是一种主观的自我报告测量。

^e任务2涉及参与者寻找满足假设患者标准的试验，因此问与他们自己参与相关的问题没有意义。

表4。低健康素养参与者的研究结果。

测量	任务1			任务2
	代理(n = 15)	控制(n = 8)	P	代理(n = 15)	控制(n = 8)	P
已完成任务，n (%)^一个	12 (80)	8 (100)	只要	12 (80)	8 (100)	只要
声明发现一个试验，n (%)^一个	6/14 (43)	1/8 (13)	.14点	5/14 (36)	1/8 (13)	。
找到一个正确的试验，n (%)^一个	- - - - - -^b	- - - - - -^b	- - - - - -^b	5/14 (36)	0/8 (0)	0。
运行时间(分钟)，平均值(SD)^c	13.3 (11.4)	8.2 (6.3)	票价	6.8 (4.3)	4.6 (4.3)	二十五分
检验试验数(自我报告)，平均值(SD)^c	3.0 (3.4)	0.9 (1.1)	16	2.8 (3.2)	1.5 (2.1)	36
符合标准的试验(自我报告;检验试验的百分比)，平均值(SD)^{c, d}	74 (30)	75 (35)	.89	80 (31)	67 (58)	.92
审判在多大程度上符合你的要求?(范围1-7)，平均值(SD)^c	4.1 (1.9)	2.4 (1.4)	．06	5.3 (2.1)	3.3 (2.0)	.04点
你有多大可能报名参加你找到的试验?(范围1-7)，平均值(SD)^c	3.8 (1.1)	3.6 (1.9)	结果	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得使用这个系统花了多少时间?(范围1-7)，平均值(SD)^c	3.8 (0.9)	4.1 (2.5)	点	3.9 (0.3)	4.5 (2.3)	.86
您对临床试验检索系统的满意程度如何?(范围1-7)，平均值(SD)^c	5.3 (1.6)	2.9 (1.7)	. 01	5.7 (1.6)	2.9 (1.4)	.002
你现在有多沮丧?(范围1-7)，平均值(SD)^c	2.9 (2.0)	4.8 (2.1)	. 01	2.3 (2.1)	3.1 (1.9)	酒精含量
你现在有多高兴?(范围1-7)，平均值(SD)^c	5.5 (1.6)	3.3 (2.7)	.04点	5.7 (1.7)	2.6 (1.1)	措施
你自愿参加试验的压力有多大?(范围1-7)，平均值(SD)^c	1.1 (0.3)	2.3 (2.2)	.10	- - - - - -^e	- - - - - -^e	- - - - - -^e
你觉得系统提供了多少信息?(范围1-7)，均值(SD)^c	4.8 (1.5)	4.3 (1.5)	. 21	- - - - - -^e	- - - - - -^e	- - - - - -^e
如果你想找到另一个试验，你有多大可能再次使用这个系统?(范围1-7)，平均值(SD)^c	5.5 (1.8)	5.0 (2.4)	.74点	- - - - - -^e	- - - - - -^e	- - - - - -^e
你有多大可能把这个系统推荐给其他想要试验的人?(范围1-7)，平均值(SD)^c	6.1 (1.9)	5.1 (2.7)	。45	- - - - - -^e	- - - - - -^e	- - - - - -^e
您对从系统接收到的信息有多信任?(范围1-7)，平均值(SD)^c	6.3 (1.0)	5.1 (2.1)	点	- - - - - -^e	- - - - - -^e	- - - - - -^e

^一个卡方检验。

^b任务1涉及参与者寻找他们感兴趣的试验，因此没有办法客观地评估他们找到的试验是否“正确”。

^cMann-WhitneyU测试。

^d试验表明，满足标准是一种主观的自我报告测量。

^e任务2涉及参与者寻找满足假设患者标准的试验，因此问与他们自己参与相关的问题没有意义。

分析所有研究条件下低健康素养和高健康素养参与者之间的差异表明，存在一些显著差异。总体而言，与健康素养较高的参与者相比，健康素养较低的参与者更有可能表示，他们阅读的试验满足了他们的标准(任务1:74%对37%;U= 82,P<措施;任务2:77% vs 49%U= 148,P= .02点)。健康素养较低的参与者更有可能表示他们会报名参加任务1中的试验(评分平均3.8,SD 1.4 vs平均2.8,SD 1.8，U= 380,P= 0.048)，他们会向朋友推荐该系统(平均评分5.7,SD 2.3 vs平均评分4.5,SD 2.3，U= 379,P= 0.01)。

主要结果

在我们对基于会话代理的搜索用户界面与传统的基于关键字和人脸的搜索引擎界面的比较中，参与者对代理更满意，并且觉得代理比传统界面更善于找到符合他们标准的试验。与传统界面相比，参与者在与代理互动后也感到更高兴，更少沮丧。

在我们的标准化任务(任务2)中，值得注意的是，没有一个低健康素养的参与者能够使用传统的搜索引擎界面找到正确的临床试验，而36%(5/14)的参与者能够使用会话代理做到这一点。这些结果强化了我们之前的发现，即传统的搜索界面对于健康状况不佳或计算机读写能力差的人来说是不可用的[9］．令人鼓舞的是，对话界面能够为至少三分之一的用户提供可访问性，同时所有用户(包括具有较高卫生知识的用户)对其满意度的评价更高。尽管如此，为了在更广泛的种群中取得成功，似乎有必要对其他适应性进行研究。

与传统界面相比，会话界面确实花费了更多的时间:在任务1中花费了40%的时间，在任务2中花费了27%的时间(尽管这些差异在统计上并不显著)。这有几个原因:听语音提示而不是阅读它们所需的时间，代理获得搜索标准的采访，以及社交对话，教程和其他“任务外谈话”，代理使用以提高可接近性，参与度和理解力。然而，我们的目标用户群体显然很乐意花额外的时间在对话用户界面上，以获得更好的结果;在浏览任务中，与使用传统界面的人相比，他们选择花费几乎两倍的时间来寻找试验。此外，他们在任务2中所花时间的主观印象表明，用户认为会话代理界面实际上比传统界面花费的时间要少得多。

限制

我们的研究除了涉及的参与者数量少之外，还有一些局限性。在我们的研究中，一些(21%)用户以前曾参与过临床试验，因此不能代表癌症患者的一般人群，因为他们对临床试验的背景知识可能高于平均水平。然而，具有先前试验经验的人被随机分配到两个试验组，因此两组在这方面应该是相同的。另一个限制涉及使用REALM作为卫生知识普及的衡量标准。虽然这个工具成功地区分了参与者对我们干预的影响，但其他措施可能会提供更精细的能力，以更深入地研究电子和计算机素养的特定维度。虽然电子健康素养量表(eHEALS)是为此目的而设计的，但它是一种主观的自我报告测量方法[35］．在当前的研究中，我们选择了一种客观评分的测量方法;未来的研究有必要进一步区分对话搜索界面如何改善低健康和计算机素养的各个方面。

与前期工作比较

一些研究已经调查了为低领域知识的用户使用标准的基于关键字的搜索界面[14说一门外语的人[15，谁是孩子[16]或老年人[17]，这些都与我们的任务和人口有共同的特点。这些研究表明，即使是最简单的基于关键字的搜索界面，对许多用户来说也是不可用的，而特殊的设计考虑，如简化结果[17]并提供语言和互动支持[16] -对用户来说很重要，尤其是那些健康状况不佳或不懂电脑的人

其他研究调查了使用会话代理向健康素养较低的个人传达健康信息。Bickmore等[20.，36]， Wang等[37]已经开发了会话代理，用于促进体育活动，出院指导，医疗文件的解释，以及向健康素养较低的个人介绍家庭健康史。大多数这些研究表明，与健康素养充足的参与者相比，健康素养低的参与者对会话界面的满意度明显更高。

结论

我们的研究结果表明，对于许多类型的应用程序来说，基于会话代理的搜索引擎界面可能是传统的基于Web表单的界面的一个很好的替代方案，特别是对于那些低健康素养的用户或计算机经验或技能有限的用户。

致谢

感谢Barbara Barry、Ramesh Manuvinakurike、Juan Fernandez、Lazlo Ring和Maryam Aziz帮助开发了这个系统。这项工作由美国国立卫生研究院国家癌症研究所拨款R01CA158219资助。

利益冲突

没有宣布。

国家癌症研究所。卫生信息全国趋势调查网址:http://hints.cancer.gov/question-details.aspx?dataset=41&method=mail&qid=757[2015-12-23访问][WebCite缓存］
皮尤研究中心，2013年1月15日。健康在线2013网址:http://www.pewinternet.org/2013/01/15/health-online-2013/[2015-12-23访问][WebCite缓存］
同意EM, King AC, Castro CM, Wiley A, Borzekowski DL。“一定要在这一页上”:一项关于在线健康信息搜索的研究中的年龄和认知风格。医学互联网研究，2015;17(3):e79 [J]免费全文] [CrossRef] [Medline］
van Dijk J.数字鸿沟研究、成就与不足。诗学2006;34(4 - 5):221 - 235。
L, Panzer A, kinking D.健康素养:结束混乱的处方。华盛顿:国家科学院出版社;2004.URL:http://www.ncbi.nlm.nih.gov/books/NBK216032/[2015-12-23访问][WebCite缓存］
李建军，陈建军，陈建军，陈建军。低健康素养与在线健康信息评价:文献系统综述医学互联网研究，2015;17(5):112 [J]免费全文] [CrossRef] [Medline］
Atkinson NL, Saperstein SL, Massett HA, Leonard CR, Grama L, Manrow R.使用互联网搜索癌症临床试验:临床试验搜索工具的比较审计。当代临床试验2008年7月;29(4):555-564 [j]免费全文] [CrossRef] [Medline］
国家癌症研究所，2014。查找nci支持的临床试验网址:http://www.cancer.gov/about-cancer/treatment/clinical-trials/search[2015-11-29访问][WebCite缓存］
吴建军，张建军，张建军。健康素养与临床试验搜索引擎的相关性研究。中华卫生杂志2014;增刊2:190-204。［CrossRef] [Medline］
Paasche-Orlow MK, Wolf MS.健康素养与健康结果之间的因果关系。[J] .中华卫生杂志，2007;31(增刊):319 - 326。［CrossRef] [Medline］
Paasche-Orlow MK, Parker RM, Gazmararian JA, Nielsen-Bohlman LT, Rudd RR。卫生知识普及程度有限。中华普通实习医学杂志2005;20(2):175-184 [J]免费全文] [CrossRef] [Medline］
Volandes AE, Paasche-Orlow M, Gillick MR, Cook EF, Shaykevich S, Abbo ED，等。健康素养而非种族预测临终关怀偏好。[J]中华检验医学杂志，2008;11(5):754-762。［CrossRef] [Medline］
搜索用户界面。剑桥:剑桥大学出版社;2009.
张欣，刘杰，袁鑫，Cole M, Belkin N，刘晨。不同领域知识的用户是否会选择不同的文档集?见:人机交互与信息检索(HCIR)年会论文集。2012年发表于:人机交互与信息检索(HCIR)研讨会;2012年10月4-5日;马萨诸塞州,剑桥。
刘建军，刘建军，刘建军，等。汉语搜索质量的研究进展。2011年发表于:人机交互与信息检索(HCIR)学术年会;2011年10月20日;加州山景城
Gossen T, Nitsche M, Nurnberger a .知识之旅:面向年轻用户的网络搜索界面。2012年发表于:人机交互与信息检索(HCIR)学术年会;2012年10月4-5日;马萨诸塞州,剑桥。［CrossRef］
Aula A, Käki M.针对老年人的网络搜索界面少即是多。2005;10(5):100-101 [j]免费全文］
Allam A, Schulz PJ, Nakamoto K.搜索引擎选择和排序标准对疫苗接种信念和态度的影响:两个操纵谷歌输出的实验。中国医学杂志，2014;16(4):100 [J]免费全文] [CrossRef] [Medline］
马克特M, Kahlor L, Tyler D, Gustafson J.低健康素养文化多元父母的电子健康干预设计:解决肥胖流行病。中华卫生杂志2009;15(7):672-677 [J]免费全文] [CrossRef] [Medline］
Bickmore TW, Pfeifer LM, Byron D, Forsythe S, Henault LE, Jack BW等。健康素养不足的患者对会话代理的可用性:来自两项临床试验的证据中华卫生杂志2010;15增刊(2):197-210。［CrossRef] [Medline］
Bol N, van Weert JC, de Haes HC, Loos EF, Smets EM.一项基于网络的实验结果:叙述方式和叙述风格对在线健康信息回忆的影响。医学互联网研究，2015;17(4):e104 [J]免费全文] [CrossRef] [Medline］
Meppelink CS, van Weert JC, Haven CJ, Smit EG。健康动画在不同健康素养水平观众中的效果:一项实验研究。医学互联网研究，2015;17(1):11 [J]免费全文] [CrossRef] [Medline］
李文杰。体现会话代理。马萨诸塞州剑桥:麻省理工学院出版社;2000.
刘建军，刘建军。基于计算机-患者工作联盟的健康行为干预研究。患者教育统计2005 Oct;59(1):21-30。［CrossRef] [Medline］
李建平，李建平。构建自然语言生成系统。剑桥:剑桥大学出版社;2000.
Bickmore T, Schulman D, Shaw G. D task和LiteBody:用于构建web部署的具体化会话代理的开源、基于标准的工具。在:智能虚拟代理。2009发表于:第九届国际会议，IVA 2009;2009年9月14日至16日;阿姆斯特丹，425-431页。［CrossRef］
毕克莫T，卡鲁索L，克拉夫-戈尔K，希琳T。“这就像你和朋友聊天一样”——老年人的关系代理。计算机工程学报，2005;17(6):711-735。
郭文杰，李国强。定性研究的基础:发展扎根理论的技术和程序。加利福尼亚州千橡市:Sage;2014.
王文杰。决策树的归纳。马赫学习1986;1(1):81-106。
Davis TC, Long SW, Jackson RH, Mayeaux EJ, George RB, Murphy PW等。快速评估成人医学素养:一种缩短的筛查工具。中华医学杂志1993;25(6):391-395。［Medline］
Lindau ST, Basu A, Leitsch SA。健康素养作为异常子宫颈抹片检查后随访的预测因素:一项前瞻性研究。中华普通实习医学杂志2006;21(8):829-834 [J]免费全文] [CrossRef] [Medline］
健康素养对哮喘纵向结局的影响。中华内科实习医学杂志2006;21(8):813-817 [J]免费全文] [CrossRef] [Medline］
Sudore RL, Yaffe K, Satterfield S, Harris TB, Mehta KM, Simonsick EM，等。老年人有限的识字率和死亡率:健康、老龄化和身体成分研究。中华临床医学杂志;2006;21(8):806-812 [J]免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，等。健康素养对抑郁症状和心理健康相关:成瘾成人生活质量的影响。中华普通实习医学杂志2006;21(8):818-822 [J]免费全文] [CrossRef] [Medline］
Ghaddar SF, Valerio MA, Garcia CM, Hansen L.青少年健康素养:在线健康信息可靠来源的重要性。中国卫生杂志，2012;82(1):28-36。［CrossRef] [Medline］
Bickmore TW, Pfeifer LM, paasch - orlow MK.使用计算机代理向低健康素养的患者解释医疗文件。中华病毒学杂志;2009;31 (3):391 - 391 [j]免费全文] [CrossRef] [Medline］
Wang C, Bickmore T, Bowen DJ, Norkunas T, Campion M, Cabral H，等。虚拟咨询师收集家庭健康史的可接受性和可行性。中华医学杂志，2015;17(10):822-830。［CrossRef] [Medline］

‎

NCI:国家癌症研究所

域:成人医学素养的快速评估

G·艾森巴赫编辑;提交26.10.15;S . Saperstein, B . Lok的同行评议;对作者的评论18.11.15;修订版收到23.11.15;接受26.11.15;发表04.01.16

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

通过对话代理改善在线健康信息的访问:一项随机对照实验