医疗互联网研究杂志-用NoteAid提高电子健康记录注释理解:众包工作者对电子健康记录注释理解干预的随机试验

原始论文

¹美国马萨诸塞州阿默斯特市马萨诸塞大学信息与计算机科学学院

²美国马萨诸塞大学洛厄尔分校计算机科学系

^3.美国马萨诸塞州伍斯特市马萨诸塞大学医学院医学系

⁴贝德福德退伍军人事务医疗中心，医疗保健组织和实施研究中心，贝德福德，马萨诸塞州，美国

通讯作者:

余红，博士，法医学研究所

计算机科学系

麻省大学洛厄尔分校

大学大道1号

洛厄尔,妈,

美国

电话:1 508 612 7292

电子邮件:hong.yu@umassmed.edu

背景:患者门户正变得越来越普遍，患者也有能力访问他们的个人电子健康记录(EHRs)。电子病历，特别是自由文本的电子病历记录，往往包含外行难以理解的医学术语和术语。有许多基于网络的资源可以让你更多地了解特定的疾病或病症，包括直接链接到医学概念的定义或教育材料的系统。

摘要目的:我们的目标是确定使用NoteAid这样的工具是否会导致更高的EHR笔记理解能力。我们使用一种新的电子病历记录理解评估工具，而不是患者自我报告的分数。

方法:在这项工作中，我们比较了一个被动的自助服务教育资源(MedlinePlus)和一个主动资源(NoteAid)，后者为用户提供了系统识别的医学概念的定义。我们使用Amazon Mechanical Turk (AMT)来招募个人完成全面理解(ComprehENotes)，这是一种新的EHR笔记理解测试。

结果:获得NoteAid的个体的平均分数显著高于平均基线分数，无论是原始分数(P =.008)及估计能力(P= .02点)。

结论:在我们的实验中，我们表明，与没有提供资源的基线组相比，积极干预会导致理解测试的分数显著提高。相比之下，被动干预组与基线组之间没有显著差异。最后，我们分析了参与AMT任务的个人的人口统计数据，并显示了与当前对人群之间健康素养的理解相一致的组间差异。这是第一项使用NoteAid等工具(通过EHR笔记理解评估工具来衡量，而不是患者自我报告分数)来显示理解能力改善的工作。

中国医学网络杂志2019;21(1):e10793

doi: 10.2196/10793

关键字

健康知识；众包；自然语言处理；信息存储与检索；心理测验学；医疗在线

背景与意义

近年来，许多医院都采用了患者门户，使患者可以使用医疗记录。特别是，患者门户允许患者访问他们的电子健康记录(EHRs)。在一项有关病人查阅病历的调查研究中，一般来说，选择查阅病历的病人对病历内容感到满意[1-4]并对自己的护理有了更大的自主权[1，5，6]。允许病人查阅其记录也不会增加医务人员的工作量[1，7-9]。一般来说，患者获得电子病历可导致积极的健康结果和对其病情的更深入了解[1，10，11]。然而，所包括的电子病历和病程记录往往包含复杂的医疗术语，患者难以理解。当病人看到他们的笔记时，他们对笔记中医学术语和其他概念的含义有疑问[9，12]。OpenNotes等工具促进了在患者门户中包含患者就诊记录，但如果患者对记录中术语的含义有疑问，那么简单地包括这些记录可能对他们没有好处。在向患者提供电子病历记录的过程中，需要能够定义术语并为医学概念提供外行定义的工具和资源，以便他们能够理解他们的记录和医疗记录的内容。

自助式教育材料随处可见，尤其是在Web上。internet上有大量与医学和保健相关的信息，从维护良好的带有精心策划的教育材料的本体到患有同一疾病的患者的基于web的讨论社区。有了这些信息，有特定症状的患者可以在互联网上找到有关他们病情的信息。但是这些丰富的信息有用吗?也就是说，仅仅是获得健康信息就能更好地理解吗?在这项工作中，我们测试了被动和主动干预在帮助患者理解医学概念方面的有用性。被动式系统MedlinePlus (MLP) [13]，是由美国国家医学图书馆维护的一个基于网络的存储库，其中包括临床概念、疾病和其他与医疗保健相关的术语的信息和定义。MLP过去曾用于促进患者教育，并向患者提供定义和教育材料，以提高健康素养[14-17]。MLP是一个高质量医疗保健信息的大型存储库，但用户必须搜索他或她正在寻找的信息。MLP不会自动为用户显示信息。

NoteAid [18，19是我们团队开发的一个免费的基于网络的系统，它可以自动识别医学概念并将其定义显示给用户。NoteAid之前已被证明可以通过自我报告来提高患者对笔记的理解[18，19]。

在这项工作中，我们的目标是确定是否访问NoteAid或MLP与更高水平的EHR笔记理解相关。这些教育材料的干预是否能提高患者理解其EHR记录的能力?在这项工作中，我们使用亚马逊机械土耳其人(AMT)微任务众包平台，为AMT工人(土耳其人)提供了全面的EHR笔记理解测试[20.]，一组旨在测试电子病历记录理解能力的问题。AMT是一种越来越受欢迎的收集研究数据的工具[21-23]和招募实验参与者，都是在开放领域的任务中[24，25]和特定医学研究[26-29]。某些土耳其人没有得到任何外部资源，而其他人则获得了MLP或NoteAid。我们的结果表明，使用NoteAid导致在EHR理解测试中得分显著高于没有给予外部资源的基线人群。然而，我们发现没有资源的土耳其人与使用MLP的土耳其人之间没有显著差异。土耳其人还被要求参加成人功能性健康素养测试(S-TOFHLA)，以评估功能性健康素养。所有的土耳其人都进球了充分的卫生知识普及为S-TOFHLA的最高水平。这是第一次定量分析NoteAid等工具的影响，使用EHR笔记理解测试，而不是自我报告分数。

在这项工作中，我们表明NoteAid对EHR笔记理解有重大影响，通过特定于该任务的测试来衡量。此外，简单地让患者访问MLP等网站并不会导致测试分数比没有外部资源的基线组有显著提高。最后，我们分析了完成我们任务的土耳其人的人口统计数据。一个预测考试成绩的回归模型显示了人口群体之间的差异，这与当前关于健康素养的知识相一致。例如，受教育程度低于高中的个体得分低于平均水平，而被认定为白人的个体得分高于平均水平。

概述

在这项工作中，我们在AMT平台上招募了土耳其人，并要求他们完成ComprehENotes EHR笔记理解测试。turker被分成3组，在完成测试时允许使用1种外部资源(基线组不允许使用任何资源)。使用IRT收集和分析测试结果，以评估每个个体的EHR笔记理解能力，并分析分组结果，以确定外部资源是否对测试分数有显著影响。图1在高水平上说明了我们的方法。下面描述了每个步骤的详细信息。

数据收集

为了评估电子病历记录的理解力，我们使用了综合性问题集[20.]。该数据集由55个问题组成，用于衡量EHR笔记的理解程度。一组医生和医学研究人员从未识别的病人病历中开发了154个问题，然后使用IRT过滤到最终的测试集。在154个问题中，共有83个问题被提供给AMT Turkers，他们提供了回答。这些回答被用来拟合IRT模型，该模型估计了问题测试EHR笔记理解的能力。在原题库中的题目中，保留了55道作为笔记理解能力的测试[20.]。

综合性测试集中的问题包括与6种疾病相关的患者EHR记录中的问题:心力衰竭、高血压、糖尿病、慢性阻塞性肺疾病(COPD)、肝衰竭和癌症。这些问题都足够笼统，可以评估与六种疾病中的一种相关的关键概念，而不会太具体到某个患者，以至于对其他患者没有用处[20.]。因此，该测试可用于评估患者的一般EHR记录理解能力，并允许患者之间的理解能力进行比较。

对于健康素养较低的个体，全面健康素养测试集最具信息量。也就是说，在较低的能力水平(例如，−2到−0.5)，能力估计的SE是最低的。此外，大多数综合性试题的参数难度都很低。难度参数范围为−2.2 ~ 0.7。也就是说，这些问题的难度低于平均水平的人有50%的机会正确回答。例如，如果一个问题的难度参数为−1.0，那么一个能力为−1.0的人有50%的机会正确回答这个问题。能力估计是正态分布的，所以能力估计为- 1.0的个体比平均个体低1个标准差。文本框1显示了两个从综合测试中选取的示例问题。研究人员向每个人展示一段未识别的电子病历记录中的文本片段，并要求他们选择与文本斜体部分具有相同含义的答案。

我们为Turkers设置了3个AMT任务。研究人员向土耳其人展示了一套综合性问题，每次回答一个问题，并要求他们给出正确答案。

在第一个任务(基线)中，土耳其人被要求在回答问题时不要使用任何外部资源。对于第一个治疗任务(treatment -MLP)，土耳其人得到了一个到MLP的链接，并被告知他们在完成任务时可以使用该网站作为参考。turker被鼓励使用MLP页面搜索功能来搜索任务中出现的未知术语或概念的定义。对于第二个治疗任务(treatment -NoteAid [treatment - na])，为turker提供了一个使用NoteAid预处理过的综合测试集版本。我们使用NoteAid对ComprehENotes问题文本进行预处理，提取提供的简化和定义，并使用NoteAid输出作为向治疗- na组的土耳其人展示的问题文本(参见图2以NoteAid简化文本为例)。这些任务是有限制的，因此完成1项的人没有资格完成另外2项。对于所有群体，我们收集了有关土耳其人年龄、性别、种族、教育水平和职业的人口统计信息。我们还对每组进行了S-TOFHLA测试，以评估功能性健康素养，并比较S-TOFHLA和全面健康素养评分。

由于我们无法监控Turkers完成任务的情况，因此我们无法确定基线组没有按照指示使用任何外部资源。但是，我们可以确信，他们没有使用NoteAid。为了访问NoteAid，土耳其人必须知道访问系统的URL链接，即使我们没有提供给他们。或者，土耳其人将不得不在不知道我们正在测试的特定系统的名称的情况下搜索NoteAid。因此，我们有信心，即使基线组在任务期间使用了一些外部资源，他们也没有访问NoteAid的权限。基线turker如果在任务期间在Web上搜索医学概念，可能已经找到了MLP。例如，谷歌搜索“COPD定义”会在第一页上返回一个MLP链接。然而，除非土耳其人在开始任务之前就知道MLP，否则他们不太可能在任务期间使用MLP作为参考。

图1所示。描述我们实验的流程图。亚马逊的土耳其机器人工人被随机分配到平台上的三个任务之一。他们使用提供的外部工具完成了全面测试。然后收集所有分数，并使用项目反应理论(IRT)获得能力估计。

从“理解题”测试中抽取的问题样本。

指令

请阅读下列问题，并记下斜体字，然后检查所提供的答案选项。请选择最能代表问题文本斜体部分的答案。

阿米替林25 mg po，睡前服用;Bactrim 160 mg po周五、周六、周日报价;氢化可的松乳膏;和Pegfilgrastim 6 mg皮下1次。他将继续接受预定的化疗，并将继续在血液学和肿瘤学诊所进行随访。

皮下注射一剂6毫克聚非格司汀。
Pegfilgrastim 6 mg表皮1剂。
Pegfilgrastim可预防中性粒细胞减少症。

病人今天要做体格检查。总的来说，她做得很好。她目前没有服用任何降压药;她做得很好。她以前有过一些问题，但都解决了。她今天没有吃药，血压是110/78，脉搏68，呼吸正常12。

今天未对患者进行体检。
病人来检查她的健康状况。
眼睛检查不是常规体检的一部分。

文本框1。从“理解题”测试中抽取的问题样本。

我们包括了AMT任务的质量控制检查，以确保土耳其人的高质量响应。首先，我们将访问任务的权限限制在95%以上的土耳其人，只包括那些工作被其他请求者评为高质量的土耳其人。我们还将任务限制在美国的土耳其人，作为英语水平测试的代理。在实际任务中，我们包含了3个质量检查问题，由一个非常简单的问题和一个明显的答案组成。如果任何土耳其人回答了1个或更多的质量控制检查错误，他们的回答将从后面的分析中删除。

NoteAid

NoteAid系统为电子病历记录中的医疗概念提供详细定义[18，19]。用户将EHR记录中的文本输入NoteAid系统，该系统输出定义了医学概念的记录版本。当用户将鼠标悬停在一个概念上时，会显示一个带有定义的弹出窗口。图2显示了NoteAid系统中组件的高级概述，以及已注释的示例文本。用户将其电子病历记录文本输入NoteAid，系统将向用户提供文本的副本，并将关键医学概念与其定义链接在一起。

NoteAid由两个组件组成。的概念标识符组件处理输入文本并将术语映射到医学概念。使用元地图将概念映射到统一医学语言系统中的条目[41，42]。然后，它过滤返回的概念列表，只包括与患者健康相关的可能语义类型子集(例如，疾病或综合征以及实验室或测试结果)匹配的概念。的取物的定义组件使用过滤过的概念列表从外部知识资源(例如，维基百科或MLP)中提取定义。

先前对NoteAid的评估表明，使用该系统时，患者自我报告的理解分数有所提高[18，19]。然而，目前还没有对NoteAid进行理解测试的评估，而不是自我报告分数。

项目反应理论分析

利用IRT开发了ComprehENotes测试集[40]。测试集是根据一个固定猜测参数的单因素3参数logistic IRT模型建立的。因此，这项测试衡量的是一种潜在的特质，特别是理解电子病历记录的能力。一旦模型被拟合，一个新的测试应答者的能力就会被估计出来θ根据应答者对测试问题的回答，回答已转换为正确或不正确的二进制格式。对于一个测试问题我，个体的概率j正确回答问题取决于个人的能力(θ）.图3包括3个方程:方程1用于计算个体的概率j估计的能力θ_j会回答问题我正确地;公式2计算了个体的概率j估计能力θ_j会回答问题我不正确;公式3计算了个体的可能性j的反应集U_j到测试集中的所有项，其中u_ij如果是个人，则是1j回答项我正确，否则为0。

p_我和问_我是已知项目参数的函数，因此，我们可以估计θ通过最大可能性为每个土耳其人。我们还计算了每个土耳其人的原始测试分数(正确回答问题的百分比)以供比较。

土耳其人口

我们首先报告完成任务的土耳其人的人口统计信息。表1显示了我们从基线组、治疗- mlp组和治疗- na组的土耳其人收集的人口统计信息。总的来说，完成我们任务的大多数土耳其人都是白人，年轻，至少有副学士学位。此外，大多数土耳其人不在医疗领域工作。这些人口统计数据不能代表更广泛的人口，也不符合通常与低卫生素养相关的人口统计数据[31]。然而，我们在这里的目标是比较不同干预措施的结果。在这种情况下，我们不需要测试卫生素养较低的个体;相反，我们希望看到当用户获得某些外部资源时分数是否会提高。

干预的影响

我们的分析包括原始测试分数以及使用IRT估计的能力水平。由于测试集由使用IRT拟合的问题组成，我们还可以计算这些土耳其人的能力，并测试使用NoteAid的土耳其人的平均能力得分是否更高。能力是一个有用的衡量标准，因为它考虑的是你正确回答了哪些问题，而不仅仅是多少问题。IRT模型质疑难度，因此通过考虑简单或困难的答案是正确的，IRT允许比正确率百分比更有信息的分数。对于每个突厥人，我们计算他们的能力分数(θ)使用IRT模型拟合作为ComprehENotes数据集的一部分[20.]。我们使用mirt和中心思想用于评估的开源R包[43，44]。

图4为我们的测试集绘制每个AMT Turker的原始分数。中间的矩形跨越了从第一个四分位数到第三个四分位数的范围，每个方框内的粗体线表示中位数分数。开圈表示离群值。上面的水平线表示每组的最高分数，下面的水平线是第一个四分位数以下四分位数范围的1.5倍。如图所示，从视觉上看，接受和未接受干预的人群之间存在差异。基线组和MLP组的原始得分中位数相似，而NoteAid组的得分中位数更高。治疗组的反应范围也小于基线组。

图5显示了能力估计的箱形图。同样，基线组和MLP组的中位数相似，而NoteAid组的中位数能力估计值更高。基线组和MLP组的最低能力估计值远低于NoteAid组(低于平均值2个SD，而低于平均值1个SD)。这表明，即使是使用NoteAid仍在挣扎的个人，能力的低范围也高于不使用NoteAid的情况。

为了测试两种干预措施是否会导致得分显著差异，我们使用韦尔奇2样本将每种干预措施与基线进行比较t测试。表2显示了每组土耳其人的平均原始分数和平均能力估计值。获得NoteAid的土耳其人的平均分数明显高于基线，包括原始分数(P=.01)及估计能力(P= .02点)。

回归分析

我们还想确定人口因素是否对考试成绩有影响。为此，我们拟合一个线性回归模型，以人口统计信息和群体(如基线或治疗)为特征来预测原始评分。分析结果显示，干预(无、MLP或NoteAid)是预测原始评分的一个显著特征。此外，某些人口统计学群体在决定分数方面具有重要意义。在种族方面，自述为白人的个体有显著的正系数。在教育方面，高中以下学历的个体有显著的负系数。这些结果与已知的有低卫生素养风险人群的情况一致。教育程度较低的个人以及少数群体的卫生知识水平较低的情况往往较多。我们从事这项工作的人口，特别是少数民族和受教育程度较低的人，非常少。未来在少数民族人群中开展NoteAid的工作将值得证实这些影响。

表1。从完成任务的土耳其人那里收集的人口统计信息。

人口		基线(N=41)， N (%)	MedlinePlus (N=29)， N (%)	NoteAid (N=27)， N (%)	合计(N=97)， N (%)
性别
	男性	27 (66)	8 (28)	18 (67)	53 (55)
	女	14 (34)	21 (72)	9 (33)	44 (45)
年龄(年)
	22-34	23日(56)	16 (55)	16 (59)	55 (57)
	35-44	6 (15)	9 (31)	8 (30)	23日(24)
	45 - 54	8 (20)	2 (7)	3 (11)	13 (13)
	55 - 64	4 (10)	2 (7)	0 (0)	6 (6)
	65岁及以上	0 (0)	0 (0)	0 (0)	0 (0)
种族
	美国印第安人或阿拉斯加原住民	0 (0)	1 (3)	1 (4)	2 (2)
	亚洲	3 (7)	0 (0)	1 (4)	4 (4)
	黑人或非裔美国人	8 (20)	3 (10)	4 (15)	15 (16)
	拉美裔	4 (10)	1 (3)	0 (0)	5 (5)
	白色	26日(63年)	24 (83)	21 (78)	71 (73)
教育
	不到高中	1 (2)	0 (0)	0 (0)	1 (1)
	高中学历	9 (22)	8 (28)	8 (30)	25 (26)
	的同事	8 (20)	5 (17)	3 (11)	16 (17)
	单身汉	20 (49)	14 (48)	14 (51)	48 (50)
	硕士及以上学历	3 (7)	2 (7)	2 (7)	7 (7)
占领
	医生	0 (0)	0 (0)	1 (4)	1 (1)
	护士	2 (5)	0 (0)	0 (0)	2 (2)
	医科学生	1 (2)	1 (3)	1 (4)	3 (3)
	其他医学专业	2 (5)	3 (10)	3 (11)	8 (8)
	其他的职业	36 (88)	25 (86)	22日(82)	83 (86)

图4。基线和治疗Turker组原始评分的箱形图。治疗组在进行全面测试时能够分别使用MedlinePlus和NoteAid。

图5。基线和治疗Turker组能力估计的箱形图。治疗组MLP和NA在进行全面测试时能够分别使用MedlinePlus和NoteAid。IRT:项目反应理论。

表2。三组的平均得分。平均NoteAid分数显著高于平均基线分数，无论是原始分数(P=.01)及估计能力(P= .02点)。

集团	原始分数	能力评估
基线	0.831	−0.065
医疗在线	0.849	0.138
NoteAid	0.923^一个	0.477^一个

^一个得分显著高于基线。

与成人功能性健康素养短期测验的比较

所有完成任务的土耳其人都进行了S-TOFHLA测试。S-TOFHLA的分数将考生分为三类:卫生知识普及不足，边际卫生素养,充分的卫生知识普及。它是最有用的筛查工具，以确定具有低或边缘卫生素养的个人。所有参与我们任务的土耳其人都有得分充分的卫生知识普及。事实上，所有的土耳其人要么得到满分，要么只回答错了一个问题，而“全面理解”测试的分数涵盖了广泛的能力评估。与S-TOFHLA等筛查工具相反，全面评估可用于在更细粒度的水平上评估EHR笔记的理解程度，后者主要关注的是识别健康素养较低的个体。

ComprehENotes分析

最后，我们想看看最初适合作为综合数据集一部分的IRT模型是否被我们从土耳其人收集的响应模式所验证。为此，我们选择了回答正确的土耳其人最多的2个问题，以及回答正确的土耳其人最少的2个问题。

在我们的任务中，这些问题分别被认为是最简单和最难的。IRT模拟的这些项目的难度参数与这些项目的预期难度相符。我们的任务中最难的2个问题(根据有多少土耳其人正确回答)的难度参数为0.7和- 0.3，而最简单的2个问题的难度参数为- 1.8和- 1.4。难度参数与一个人有50%的机会正确回答问题的能力水平相关。因此，低难度意味着能力低的人有50%的机会正确回答问题。相反，更高的难度参数意味着某人必须具有更高的估计能力水平，才能有50%的机会正确回答。

主要研究结果

在这项工作中，我们已经证明了在试图提高一个人理解EHR笔记的能力时，有针对性的积极干预的重要性。通过向土耳其人提供NoteAid，他们在综合测试中的得分比没有外部资源的基线人群有了显著提高。另一方面，能够使用MLP但必须自己搜索他们想要的信息的土耳其人在分数上没有显著提高。NoteAid自动识别关键的医学概念并提供定义，这与MLP的场景不同，在MLP场景中，用户必须决定搜索什么。用户可能不知道某个概念是理解文章的关键，或者他们可能认为他们理解了某些概念，但他们并没有。如果让用户决定搜索什么，可能会漏掉重要的词，影响整体的理解。这一结果与之前使用NoteAid等工具评估理解能力的工作一致。18，19]，但这是第一次结论基于电子病历记录理解评估，而不是患者自我报告的分数。通过使用全面评价测试，我们可以定量地确认患者之前自我报告的结果。

限制

这项工作有局限性。首先，通过使用AMT，我们无法监控完成我们任务的土耳其人，以确保只有我们提供的外部资源被使用。在基线组中尤其如此，我们的期望是不使用外部资源。然而，基线用户不太可能在不事先了解系统的情况下访问NoteAid;因此，我们可以确信他们没有在我们的任务中使用它。如果基线用户确实使用外部资源，他们很可能使用被动资源，如谷歌甚至MLP。由于NoteAid被整合到Treatment-NA任务中，我们可以确信Treatment-NA任务中的土耳其人使用了NoteAid。治疗- mlp和治疗- na之间的差异似乎倾向于治疗- na组的改善，但有一个重要的区别。目前，像MLP这样的网站对任何寻求它们的患者都是可用的，但患者有责任去网站上搜索术语。对于Treatment-NA组，我们已经证明，通过集成一个可以简化和自动定义医学术语的系统，可以消除患者定义术语的负担。

此外，完成我们任务的土耳其人的人口结构不能代表更大的人口，特别是与卫生知识水平较低风险较高有关的人口结构[31]。在这项工作中，这是没有问题的，因为我们的目标是检查主动和被动干预对EHR笔记理解的影响。我们三个组的人口统计数据分布相似，因此分数的变化可以与所使用的干预措施联系起来。虽然得到的结果是显著的，理想情况下，可以在每组中检查更大的人群。然而，由于土耳其人的人口统计与卫生知识普及程度较低的人口群体不一致，后续工作应以这些群体为重点。通过使用AMT和Turkers，我们已经证明了NoteAid等工具确实总体上提高了EHR笔记的理解能力，但未来的工作应该特别关注与低健康素养相关的群体，以确定我们的结果是否适用于这些群体。

这项研究的另一个局限性是，患者没有根据自己的病历进行评估。理想情况下，我们将能够通过测试每个患者使用从他或她自己的EHR笔记中提取的概念来评估每个患者对EHR笔记的理解程度。然而，要实现这一目标还存在几个障碍。首先，这种类型的个性化评估将降低患者之间比较理解能力的能力。如果病人在对自己的笔记进行评估时得分很高，我们可以说病人理解了笔记，但如果笔记中没有复杂的概念，我们就不能将其与在基于自己复杂的EHR笔记的评估中得分较低的病人进行比较。其次，建立个性化的EHR记录评估将需要复杂的自然语言处理(NLP)系统在患者输入EHR记录时自动生成多项选择题(MCQs)。据我们所知，目前还没有用于医疗MCQ生成的NLP系统。我们相信这样一个系统的开发将有利于个性化患者评估的电子病历理解。这样一个个性化的系统可以补充全面评估测试，这样病人就可以在他们自己的电子病历记录和标准化评估上进行评估。

结论

在这项工作中，我们已经表明，仅仅获得旨在提高健康素养和医学概念理解的资源不足以提供益处。在我们的实验中，能够接触到MLP的土耳其人在综合评价测试中的得分并没有明显高于那些没有获得外部资源的土耳其人。另一方面，使用NoteAid，它可以主动提取定义信息并提供给用户，这使得土耳其人的分数显著提高。这一结果验证了之前报道的自我评分理解结果，即用户在使用NoteAid时更容易理解他们的笔记。

了解用户并没有从简单地访问MLP中看到好处是一项重要的观察。当医生为希望提高健康素养的患者推荐下一步措施时，仅向他们指出网络资源可能是不够的。有针对性的干预措施是必要的，以确保患者能够了解与他们相关的具体概念和疾病。特别是，NoteAid与患者门户上的EHR记录的集成将消除患者访问外部资源的阻力。相反，患者将在自己的患者门户中定义和简化关键术语，这将最大限度地减少从患者角度所涉及的工作，并将记录中的信息保留在门户本身中。

未来的工作有几个方向。制定目标课程是必要的，以确保患者能够从基于网络的资源中获益。他们可能不需要像NoteAid这样的工具(例如，如果他们没有看笔记)，但需要比MLP更有针对性的工具来确保患者在学习。此外，还应进一步对具有低健康素养风险的患者进行综合性测试集的验证。在我们的任务中，土耳其人的能力评估得分都接近平均水平或高于平均水平，除了少数异常值。该测试被设计为为能力较低的个体提供最多的信息，因此该测试应该在这样的人群中进行重复。

致谢

作者感谢参与亚马逊土耳其机器人任务的匿名土耳其人。这项工作部分得到了美国退伍军人事务部(VA)卫生服务研究与发展计划的研究者发起的研究1I01HX001457的支持，部分得到了马萨诸塞大学医学院的启动基金的支持。我们还感谢美国国立卫生研究院(NIH)对R01LM012817的支持。这项工作也得到了智能信息检索中心(CIIR)的部分支持。内容仅为作者的责任，不代表CIIR, NIH, VA，美国政府或马萨诸塞大学医学院的观点。

利益冲突

没有宣布。

Ross SE, Lin C.促进患者查阅病历的效果:综述。美国医学信息学会2003年4月;10(2):129-138 [免费全文] [Medline］
Masys D, Baker D, Butros A, Cowles KE。让患者通过互联网访问他们的医疗记录:PCASSO体验。中国医学信息杂志2002;9(2):181-191 [免费全文] [Medline］
谢尔登毫克。给病人一份他们的电脑病历。J R Coll Gen practice 1982 Feb;32(235):80-86 [免费全文] [Medline］
Bronson DL, Costanza MC, Tufo HM。在门诊实践中利用病历对老年病人进行教育。医学护理1986 4月24日(4):332-339。(Medline］
霍默CS，戴维斯GK，埃弗里特LS。引进妇女持有的记录到医院产前门诊:自带记录研究。中华妇产科杂志1999年2月39(1):54-57。(Medline］
德雷柏，菲尔德，托马斯，海尔，MJ。女性应该携带产前记录吗?Br Med J(临床研究)1986 Mar 01;292(6520):603 [免费全文] [Medline］
赫兹CG, Bernheim JW, Perloff TN.患者参与问题导向系统:一个医疗保健计划。医学护理1976年1月;14(1):77-79。(Medline］
Baldry M, Cheal C, Fisher B, Gillett M, Huet V.在全科给病人自己的记录:病人和工作人员的经验。中华医学杂志(临床研究)1986 Mar 1;292(6520):596-598 [免费全文] [Medline］
格洛德兹A，鲁斯J，米尔豪斯RL。知情权:给病人他的医疗记录。Arch Phys Med Rehabil 1976 Feb;57(2):78-81。(Medline］
Honeyman A, Cox B, Fisher B.患者访问其电子护理记录的潜在影响。Inform Prim Care 2005;13(1):55-60 [免费全文] [Medline］
刘志刚，刘志刚，刘志刚，等。邀请病人阅读医生的笔记:一项准实验研究和展望。安实习医学2012年10月2日;157(7):461-470 [免费全文] [CrossRef] [Medline］
Jones RB, McGhee SM, McGhee D.全科病人在线获取医疗记录。卫生通报(爱丁堡)1992年3月;50(2):143-150。(Medline］
美国国家医学图书馆。简报:MedlinePlus®网址:http://wayback.archive-it.org/org-350/20180312141606/https://www.nlm.nih.gov/pubs/factsheets/medlineplus.html[访问时间:2018-12-03][WebCite缓存］
Coberly E, Boren SA, Davis JW, McConnell AL, Chitima-Matsiga R, Ge B，等。将临床患者与基于互联网的特定病症信息处方联系起来。中华医学杂志2010年4月;30 (2):160-164 [J]免费全文] [CrossRef] [Medline］
Gaines JK, Levy LS, Cogdill KW.共享MedlinePlus®/MEDLINE®用于信息素养教育(SMILE):一个牙科公共卫生信息项目。Med Ref Serv Q 2011;30(4):357-364 [免费全文] [CrossRef] [Medline］
麦克马伦，麦康诺，莱利。在南卡罗来纳免费医疗诊所加强对病人的教育。消费健康网络2011;15(2):117-131 [免费全文] [CrossRef] [Medline］
本·特奥里斯的说法毫克。推广健康知识的“医疗专线”服务站。[J]消费健康网络2010;14(2):126-137 [免费全文] [CrossRef] [Medline］
Polepalli RB, Houston T, Brandt C, Fang H, Yu H.用NoteAid提高患者对电子病历的理解。种马健康技术通报2013;192:714-718。(Medline］
Polepalli RB, Yu H.改进电子健康记录注释理解的系统。2013年发表于:ACM SIGIR健康搜索与发现研讨会;2013;都柏林。
吴华，陈玲，陈丽娟，于慧。电子病历笔记阅读理解评估工具的开发与验证。J Med Internet Res 2018年4月25日;20(4):e139 [免费全文] [CrossRef] [Medline］
Snow R, O'Connor B, Jurafsky D, Ng a，便宜又快——但真的好吗?:为自然语言任务评估非专家注释。见:自然语言处理经验方法会议论文集。美国:计算语言学协会;2008年发表于:EMNLP '08;2008年10月25日至27日;檀香山，夏威夷http://dl.acm.org/citation.cfm?id=1613715.1613751
Sabou M, Bontcheva K, schl A.众包研究机会:自然语言处理的经验教训。美国:ACM;2012年发表于:知识管理与知识技术国际会议;2012年9月05 - 07日;奥地利格拉茨。(CrossRef］
吴华，于慧。运用项目反应理论构建评价量表。Proc Conf Empir Methods Nat Lang Process 2016年11月;2016:648-657 [免费全文] [Medline］
Demartini G, Difallah D, Cudré-Mauroux P. ZenCrowd:利用概率推理和众包技术进行大规模实体链接。美国:ACM;2012年发表于:国际万维网会议;2012年4月16日至20日;法国里昂。(CrossRef］
吴宏，刘志强，吴海涛，于华。基于测试集难度测试的深度学习性能研究:心理测量学案例研究。2018，自然语言处理中的经验方法;10月31日至11月4日;布鲁塞尔,比利时。
翟华，T凌仁，L Deleger, Li Q, Kaiser M, Stoutenborough L，等。基于Web 2.0的众包，用于临床自然语言处理的高质量金标准开发。中国医学杂志，2013;15(4):e73 [免费全文] [CrossRef] [Medline］
Good BM, Nanis M，吴晨，苏艾。PubMed摘要中疾病提及注释的微任务众包。Pac Symp生物计算2015:282-293 [免费全文] [Medline］
Mortensen JM, Minty EP, Januszyk M, Sweeney TE, Rector AL, Noy NF，等。利用人群的智慧来发现生物医学本体中的关键错误:SNOMED CT的研究。美国医学信息学会2015年5月;22(3):640-648 [免费全文] [CrossRef] [Medline］
Gottlieb A, Hoehndorf R, Dumontier M, Altman R.对药物不良反应进行众包排名。J Med Internet Res 2015年3月23日;17(3):e80 [免费全文] [CrossRef] [Medline］
库特纳·m·埃里克，2006。美国成年人的健康素养:来自2003年全国成人素养评估的结果。Nces 2006-483网址:https://eric.ed.gov/?id=ED493284[访问时间:2018-12-03][WebCite缓存］
林恩·N，艾利森·M.健康素养:结束困惑的处方。华盛顿(DC):国家科学院出版社;2004.
Lerner EB, Jehle DV, Janicke DM, Moscati RM。医学交流:我们的病人明白吗?美国急诊医学杂志2000年11月18日(7):764-766。(CrossRef] [Medline］
查普曼K，亚伯拉罕C，詹金斯V，法洛菲尔德L.了解癌症咨询中使用的术语。2003年9月12日(6):557-566。(CrossRef] [Medline］
Halbach SM, Enders A, Kowalski C, Pförtner T, Pfaff H, Wesselmann S，等。新诊断为乳腺癌的老年妇女的健康素养和对癌症进展的恐惧——一项纵向分析患者教育计数2016年5月;99(5):855-862。(CrossRef] [Medline］
Reading SR, Go AS, Fang MC, Singer DE, Liu IA, Black MH，心房纤颤心血管研究网络(ATRIA-CVRN)研究者抗凝与危险因素房颤的健康素养和意识。J Am心脏协会2017年4月11日;6(4):e005128 [免费全文] [CrossRef] [Medline］
Parker RM, Baker DW, Williams MV, Nurss JR.成人功能性健康素养测试:一种衡量患者识字技能的新工具。Gen Intern Med 1995 10月;10(10):537-541。(Medline］
Baker DW, Williams MV, Parker RM, Gazmararian JA, Nurss J.开发了一个简单的测试来测量功能性健康素养。患者教育杂志1999 Sep;38(1):33-42。(Medline］
Weiss BD, Mays MZ, Martz W, Castro KM, DeWalt DA, Pignone MP，等。初级保健中读写能力的快速评估:最新的生命体征。神经外科杂志2005;3(6):514-522 [免费全文] [CrossRef] [Medline］
罗雅尔，王志强，王志强。一种基于句子验证的阅读理解测试方法。J文学研究2016年9月11日;11(4):355-363。(CrossRef］
项目反应理论:参数估计技术，第二版。佛罗里达州博卡拉顿:CRC出版社;2004.
Aronson AR.生物医学文本到UMLS的有效映射:MetaMap程序。Proc AMIA Symp 2001:17-21 [免费全文] [Medline］
Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 1;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline］
Rizopoulos D. ltm:用于潜在变量建模和项目响应分析的R包。统计软件2006;17(5):1-25。(CrossRef］
查尔默斯RP。mirt:用于R环境的多维项目响应理论包。J Stat Soft 2012;48(6):1-29 [J]免费全文] [CrossRef］

‎

AMT:亚马逊土耳其机器人

慢性阻塞性肺病:慢性阻塞性肺疾病

电子健康档案:电子健康记录

红外热成像:项目反应理论

MCQ:多项选择题的问题

简要:医疗在线

NLP:自然语言处理

神:最新生命体征

S-TOFHLA:成人功能性健康素养短测验

TOFHLA:成人功能性健康素养测验

Treatment-NA:Treatment-NoteAid

G·艾森巴赫(G Eysenbach)编辑;提交27.04.18;S Brunak, J Jones同行评议;对作者19.07.18的评论;修订版本收到28.09.18;接受26.10.18;发表16.01.19

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

用NoteAid提高电子病历笔记理解能力:众包工作者对电子病历笔记理解干预的随机试验