发表在17卷第二名(2015): 2月

SimQ:实时检索相似的消费者健康问题

SimQ:实时检索相似的消费者健康问题

SimQ:实时检索相似的消费者健康问题

原始论文

1美国威斯康辛州密尔沃基市威斯康辛大学卫生信息与管理系生物医学数据和语言处理中心

2美国俄亥俄州克利夫兰市凯斯西储大学医学院临床研究中心医学信息部

3.Netwellness.org,美国俄亥俄州克利夫兰市凯斯西储大学医学院

通讯作者:

杰克·罗博士

生物医学数据和语言处理中心

卫生信息与管理系“,

威斯康星大学密尔沃基分校

新港大道2025号E

UWM NWQB 6469房间

密尔沃基,威斯康星州,53211

美国

电话:1 6462283142

传真:1 (414)229 3373

电子邮件:luojake@gmail.com


背景:为消费者提供医疗保健信息的基于web的问答(Q&A)服务的普及程度显著增加。这些在线社区中存档了大量的问答,为寻求医疗保健问题答案的消费者形成了有价值的知识库。然而,由于消费者可能缺乏专业知识,要找到与自身健康问题密切相关的问答仍然很有挑战性。消费者经常反复问类似的问题,而这些问题之前已经被其他用户回答过了。

摘要目的:在这项研究中,我们的目标是开发有效的信息学方法,可以检索类似的基于web的消费者健康问题使用句法和语义分析。

方法:我们提出“SimQ”来实现这一目标。SimQ是一个信息学框架,它比较存档健康问题的相似性并检索答案以满足消费者的信息需求。采用统计句法分析的方法分析每个问题的句法结构。采用标准化统一医学语言系统(UMLS)对语义类型进行标注,提取医学概念。最后,利用语义特征和句法特征计算句子之间的相似度。

结果:我们使用了2000个随机选择的消费者问题来评估系统的性能。结果表明,在使用成分特征表示时,SimQ达到了最高的精密度(72.2%)、召回率(78.0%)和F-score(75.0%)。

结论:我们演示了SimQ对Netwellness现有的问答服务的补充,Netwellness是一个非营利性的基于社区的消费者健康信息服务,由近70,000个问答组成,每年为超过300万用户提供服务。SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟,而且还帮助消费者提高对其健康问题的理解。

中国医学网络杂志2015;17(2):e43

doi: 10.2196 / jmir.3388

关键字



基于网络的健康相关问答服务越来越受欢迎。一些消费者健康网站每年获得数百万的页面浏览量,如NetWellness、WebMed和EverydayHealth。成千上万的用户访问这些网站,寻找与他们的健康问题有关的答案[1].许多健康信息网站都是基于社区的,这意味着用户可以向公共论坛提交问题,然后等待其他用户或专家回答这个问题。

基于社区的问答平台的服务模式有几个独特的优势。首先,用户保持他们的身份匿名,这保护了用户的隐私,鼓励信息共享。例如,许多人在面对面的医生咨询中感到压力太大或不好意思问某些类型的问题(例如,与性有关的问题,与体重有关的问题,或情感问题),可以从网络社区寻求帮助。其次,问答平台可以作为获取新知识的信息源。它增强了用户对许多不同主题的医疗保健的理解,如营养、病人护理或疾病管理。第三,与面对面的医生咨询相比,基于社区的服务通常能提供更快的反应和更广泛的视角。例如,用户问了一个关于“儿童营养”的问题,可能会得到儿童护理专家和营养学家的回答。最后,在线社区为消费者提供了一个分享他们的健康问题和健康兴趣的平台。这不仅创造了一个分享新知识的环境,还为医疗保健消费者提供了情感支持。因此,基于社区的问答是向广泛的公共用户传递医疗保健信息的极好方式。 It could help reduce the time and cost of information delivery, such as those services provided by MIMIR [2]和Yahoo Answers [3.].

尽管基于社区的在线卫生信息服务有许多优点,但仍有许多具有挑战性的问题需要解决,以提高服务质量和可获得性[4].消费者往往没有意识到存档历史问题的巨大价值。此外,许多消费者可能缺乏专业知识,这使得他们很难找到与自己特定的健康问题相关的问答。通常情况下,这些用户会发布之前已经回答过的类似问题。因此,重复的问题延误了服务响应,给服务平台增加了额外的负担,严重浪费了宝贵的资源。此外,领域专家和管理员还强烈需要检索和分组类似的q&a,以支持内容管理。为了解决这些问题,基于相似性的问答检索系统非常适合健康消费者和域管理员,以满足他们的特定需求。

许多基于社区的服务平台现在已经存档了数千个问答,这创建了一个有价值的知识库。Berland等人发表了一项研究[4评估互联网上的消费者健康平台。结果表明,相关信息的检索是有效地向消费者传递健康信息的关键因素。开发有效的方法来检索问答平台上的类似问题,可以帮助释放归档问答作为重要知识库的力量,并使存档信息更容易为消费者所用。在本文中,SimQ项目被提出作为一个有用的框架,重点是开发从大型健康信息平台NetWellness检索类似问题的新方法[56].

NetWellness是一家非营利性的健康信息网站,自1995年以来一直为消费者提供始终如一的高质量服务。该服务平台由来自凯斯西储大学、俄亥俄州立大学、辛辛那提大学等三所大学的专业医疗专家运营。NetWellness网站提供的健康信息已由专家按照高质量标准进行评估和维护,专家定期审查内容,以确保信息是最新的。包括医生、护士、药剂师、营养师、牙医、遗传学顾问、验光师、运动教练和社会工作者在内的500多名健康专家为公众问答做出了贡献,更重要的是,他们提供了专业的健康保健信息,直接解决了消费者的健康问题。已回答超过70,000个消费者问题,其中约1,400,000个[7)每月访问该网站的访问量。NetWellness通过网络调查不断收集用户反馈。近80%(28,137/35,719)的用户表示,NetWellness问答对他们非常有用,但令人惊讶的是,约67%(17,647/26,257)的用户报告说,他们在网站上发现的健康信息对他们来说是“新的”。与Lau和Coiera的报告相似[8],调查清楚表明,迫切需要开发先进的信息学工具,以提供更翔实和相关的知识,以教育用户并满足消费者的健康信息需求。本论文的目标是开发一个语义相似度分析方法,以支持从NetWellness检索类似问题的需求,它补充了现有的服务,并能够有效地重用积累的问答知识(源代码可在多媒体附件1).

问答的相似性分析仍然是一项具有挑战性的任务[9].在信息检索研究领域,有一些相关的研究旨在开发改进问答系统的新方法。梅茨勒和克罗夫特[10]提出了一种基于支持向量机(SVM)的问题分类方法,在这种方法中,训练过的分类器有助于确定基于事实的问题类型,例如“世界最高峰是什么?”,可分为“位置”类问题。斯奈德(11]提出了一种使用问题模板将问题转换为数据库查询的方法,数据库查询根据模板中预定义的变量槽查询答案。该方法提供了一种从结构化问题变量构造数据库查询的正式方法。然而,由于需要为每种类型的问题开发模板,该方法对于大型和开放的问题数据库是不可扩展的。最近,一个排名框架[12],通过社区反馈(如用户体验、声誉和投票)从社交媒体中检索相关内容。当社区允许用户公开评估问题并提供反馈时,这种方法通常是有效的。王等[13]提出了一种利用句法结构来寻找相似问题的方法。该方法在Yahoo Answers上进行了测试,结果表明,使用语法结构比传统的“词袋”特征表示表现得更好。崔等[614他最近提出了另一种使用多主题导航来帮助消费者浏览问题档案的方法。

这些方法为不同领域的问答检索提供了不同的解决方案,如问题分类和排名。然而,医疗保健Q&As通常包含具有挑战性的医疗信息,这些信息难以封装,无法有效地进行标准语言处理和信息检索[14-16(如疾病、体征和症状、药理反应等的描述)。在本文中,我们提出了一种不同的方法,利用统一医学语言系统(UMLS)的语义网络[17为消费者健康问题分配语义注释。将语义特征与统计句法分析结果相结合,计算相似度得分,检索相似问题。目标是提供类似的问答,帮助消费者更好地了解自己的健康问题。


挑战

提交到NetWellness网站的问题以自由文本形式撰写,其中包含复杂的语法结构和语义元素。分析消费者问题的相似性并不是一项简单的任务,因此我们提出了一种结合语义注释技术和句法自然语言处理方法来分析问题相似性的方法。图1显示了我们的方法的整体框架,称为SimQ。我们使用“AQUA”解析器[18来提取句子的句法结构。UMLS [17]用于标注句子,生成语义特征。将自然语言解析器(Natural Language Parser, NLP)解析结果与语义注释相结合,创建用于估计问题句之间相似性分数的特征。

图1。消费者健康问题相似度分析的SimQ框架概述。
查看此图

语义标注与医疗实体识别

语义标注是问答相似度分析的基础步骤。注释过程旨在从自由文本消费者问题中识别与健康相关的实体,并为所识别的实体分配语义类型。我们使用从UMLS开发的语义注释工具来执行命名实体识别[1920.].注释工具将生物医学术语映射到UMLS概念和语义类型[17].事实证明,基于umls的词汇涵盖了广泛的医学概念[19-21可以注释的。每个提取的实体都被分配了UMLS中定义的概念唯一标识符(CUI)。随后,我们根据识别出的短语和单词将句子分成更小的片段[19].例如,“叶酸会导致苦味和体味吗?”“可能// |叶酸/C0016410/药理物质|原因/C0678227/功能概念| a// |苦味/C0235290/体征和症状|和// |体味/C0085595/发现”。每个块由“|”标记分隔,由三个元素组成:名称实体(例如,叶酸,苦味),概念标识符(例如,C0016410, C0235290)和语义类型(例如,药理物质,体征和症状)。UMLS中没有对应语义映射的词也被保留以保持句子的句法结构,如助动词“could”和连接词“and”。在此步骤中,标识的名称实体增强了以下语法解析。然后利用标注的语义类型生成语义特征,分析消费者问题的相似度。

句法功能

为了分析消费者问题的语言结构和成分,我们将问题句解析为句法树。AQUA解析器[18由斯坦福解析器[22],然后用于构造句法树和分配词性标注。解析树是表示句子组成部分的句法关系的形式化结构。例如,语法树中的图2为“Could chronic arthritis cause constant pain below the left knee?”样本句的解析结果。句根被标记为一个SQ(简单问题)。进一步分析为三个部分:VBZ (3理查德·道金斯人称动词),NP(名词短语)和VP(动词短语)。语法树将展开,直到所有叶节点都包含一个组成部分。与将每个单词视为一个组成部分的标准语法分析不同,我们的方法使用语义注释结果,并将UMLS可识别实体视为语法组成部分。最后一步使我们能够检索已标识的命名实体之间的关系。

图2。解析的语法树和语义依赖关系。
查看此图

语义特征

我们构建了依赖语法[22]从语法树中提取,表示已识别成分之间的语法关系。研究表明,依赖解析可以方便地从医疗记录中的自由文本中检索信息,例如从出院摘要中检索信息[18]或临床研究资格准则[23].依赖语法结构由调控器、依赖项和关系名组成。在图2,调控器和依赖元素由虚线包围并链接在一起。例如,依赖性“慢性关节炎”是调控器“原因”的名义主体(nsubj),而“持续疼痛”是调控器“原因”的直接对象(dobj)。通过将依赖关系应用于语义注释,我们可以提取实体之间的语义关系。例如,我们可以提取语义关系,“疾病或综合征(慢性关节炎)-功能概念(原因)-发现(持续疼痛)”,这表明疾病对临床发现具有功能影响。同样,我们可以提取另一个关系,“发现(持续疼痛)-空间概念(下图)-身体位置或区域(左膝)”,它指定了临床发现的空间位置。然后利用提取的语义关系中的语义类型对表示语义特征,进行相似度计算。

问题相似

本文采用的相似度计算算法是骰子系数和余弦相似度。骰子系数(DC)和余弦相似度(CS)(见图3)用于评定问题之间的相似度。相似度取值范围为0 ~ 1。0分意味着两个问题完全不相似,1分意味着它们完全相同。假设有两个特征集1而且2由两个不同的消费者问题生成,然后我们可以通过中的公式计算DC和CS相似性得分图3

我们对语法和语义特征都使用二进制表示。如果一个特征在一个问题中出现在消费者面前,那么它的值为1;否则,值为0。从二进制表示中,我们可以生成包含句法和语义特征的向量来比较这两个问题之间的相似性,如式1和式2所示图3

图3。骰子系数(1)和余弦相似度(2)公式。
查看此图

数据源

我们将我们的方法(SimQ)应用于Netwellness网站上发布的消费者问题,该网站已经存档了超过70,000个问题和由领域专家撰写的600多篇健康信息文章。所有的问答和文章被分为121个健康主题。然后通过使用2000个随机选择的NetWellness问题来评估所提出的SimQ方法的性能。精确度,召回率,以及F-分数进行测量。此外,我们还为“饮食和营养”类别的聚合语义类型模式创建了一个插图,其中包含2335个问题(参见图4).

图4。“饮食与营养”主题的语义依赖网络概述。
查看此图

语义依赖概述

图4显示主题组“饮食与营养”中语义类型模式的概述。图中的节点表示语义类型(如Food、Population Group、Qualitative Concept等),连接两个节点的边表示两种类型之间的依赖关系。节点的大小表示问题中语义类型的频率,边的宽度表示两种类型之间依赖关系的频率。通过使用依赖关系(边)连接所有语义类型(节点),我们能够产生语义模式的概述。结果清楚地显示了“饮食与营养”类别中的主要主题及其联系。在UMLS中定义的135种语义类型中,只有37种用于此类别。例如,在语义类型“食品和药品”中,质量和数量属性是最突出的主题,如依赖对“大蒜-益处”、“蛋白质-量”、“葡萄籽提取物-益处和风险”。与食物相关的疾病、症状和医学发现也是非常受欢迎的问题,例如“胆结石-饮食”、“心脏病-酒”和“低血糖-食物”。这一结果表明,同一主题组中的消费者问题具有许多相似的模式。我们假设语义特征可以进一步用于改进相似度分析。

类似问题的示例结果

表1显示了从NetWellness网站检索到的类似问题的一些示例结果。给定一个特定的消费者问题,我们的算法将遍历NetWellness上的所有存档问题,以检索排名最高的类似问题。相似度最高的5个问题及其相似度得分见表1使用两个消费者健康问题的例子:“我的喉腺肿了,有什么办法吗?”和“血小板计数低”。

表1。SimQ计算类似问题的例子。
排名 类似的问题 相似性得分

输入问题:“我的喉腺肿了,可以帮忙吗?”
1
喉腺肿痛吗? 0.7368
2
喉咙痛、腺体肿大? 0.6718
3.
喉咙肿,不能很好地吞咽? 0.6545
4
我的喉咙一直痛,腺体也痛。 0.5901
5
小舌肿痛,请帮忙? 0.5611

输入问题:“血小板计数低?”
1
血小板计数减少? 0.8235
2
血小板计数低的原因是什么? 0.7906
3.
血小板计数极低? 0.7726
4
血小板计数下降? 0.7003
5
食物增加血小板计数? 0.5957

评价

为了评估SimQ方法的性能,从Yahoo Answers中选择了12个种子消费者问题作为输入问题。这些问题是从妇女健康、疾病和状况以及心理健康等不同类别中挑选出来的。两名独立于该项目的生物医学信息学家被招募来生成一个金标准,以评估SimQ问题检索引擎的结果。他们被要求手动选择与种子问题非常相似的网络问题。共有2000个随机选择的网络问题被用作候选库。评估者共选取246个消费者问题作为SimQ检索性能的正金标准。两个评估者之间的初始一致性为83%。然而,他们被允许讨论并就所有类似的消费者问题达成最终一致的协议,然后将其用作黄金标准。

我们还比较了使用不同特征表示的相似性分析的性能。表2显示了使用Dice系数和余弦相似度算法的SimQ结果。基线特征(B)是问题的词袋表示,这是NLP分析的标准表示。归一化特征(N)是经过专业词汇工具归一化的单词。词汇工具将复数术语和过去时态规范化为词干形式。概念特征(C)是语义标注过程中识别的UMLS概念。N+POS (P)特征是规范化术语及其句法词性标记的组合。N+Concept (NC)特性是标准化术语及其映射的UMLS概念的组合。N+C+Type (NCT)特征是珍贵特征(NC)和语义特征一节中描述的提取的语义类型特征的组合。

表2,我们可以看到,在这个任务中,Dice相似度比cos相似度表现得更好。结果表明,词汇规范化、UMLS概念和语义类型提高了相似度分析。词性标注对相似性分析没有贡献。表现最好的是N+C+Type (NCT)特征,该系统的准确率为75.0%F-得分,准确率72.2%,召回率78.0%。

句法分析用于方便识别命名实体,并支持语义特征的构建[24].词性标注被评价为一种句法特征。评价结果表明,词性并没有提高检索的性能。语义特征是由语义类型对构造的,这些类型对是从解析的依赖树中提取出来的。评价结果表明,语义特征改善了检索结果,而句法分析对检索结果影响不大。从我们的分析来看,语义特征的贡献主要体现在两个方面:(1)语义特征强化了关键的医学概念,降低了非医学概念的权重;(2)语义特征提高了无法直接从文本中确定的消费者问题的语义相似性分析。例如,“我眼睛模糊是高血压引起的吗?”和“HBP导致视力模糊?”“模糊视觉(CID:C0344232)高血压病(CID:C0020538)”具有相同的语义概念,以及相同的语义类型模式,“疾病-病因-征兆-症状”。图4表明在密切相关的主题组中存在许多重叠的语义关系(语义依赖对)。

表2。评估消费者问答相似度分析的不同特征表征(使用12个种子问题的平均12个实验)。
功能 真阳性 假阳性 真正的负 假阴性 精密% 记得% F分数%
算法-余弦相似度

基线(B) 12.83 7.67 1969.33 7.67 62.6% 62.6% 62.6%

归一化(N) 12.67 6.67 1970.33 7.83 65.5% 61.8% 63.6%

概念(C) 14.00 8.33 1968.67 6.50 62.7% 68.3% 65.4%

N + POS (P) 11.67 7.67 1969.33 8.83 60.3% 56.9% 58.6%

N+概念(NC) 15.00 7.50 1969.50 5.50 66.7% 73.2% 69.8%

N + C +类型(NCT) 15.33 6.67 1970.33 5.17 69.7% 74.8% 72.1%
算法-骰子相似度

基线(B) 11.33 3.17 1973.83 9.17 78.1% 55.3% 64.7%

归一化(N) 15.50 10.33 1966.67 5.00 60.0% 75.6% 66.9%

概念(C) 15.33 8.00 1969.00 5.17 65.7% 74.8% 70.0%

N + POS (P) 11.67 5.67 1971.33 8.83 67.3% 56.9% 61.7%

N+概念(NC) 14.33 3.83 1973.17 6.17 78.9% 69.9% 74.1%

N + C +类型(NCT) 16.00 6.17 1970.83 4.50 72.2% 78.0% 75.0%

SimQ应用程序

为了演示SimQ的使用,我们开发了一个应用程序来补充NetWellness网站上现有的问答服务。图5SimQ的Web界面。NetWellness上最初的问答服务提示用户从120个类别中选择一个主题类别,然后允许消费者将他们的问题提交到特定的类别。协调器检查问题,然后确定用户分配的类别是否正确。如果问题被提交到正确的类别,协调员将把问题转发给卫生专家。

这个新的应用程序通过语义相似性分析增强了工作流(参见图5消费者首先向SimQ问题检索引擎提交他们的健康问题。SimQ分析问题并计算与Netwellness上存档的所有问题的相似性(图5,步骤2)。将为消费者检索一个密切相关的相似问题列表。然后用户可以浏览过去发布的类似问题,并阅读相关的Q&As。此步骤使用历史知识提高消费者对运行状况问题的理解。用户还可以直接从存档的Q&As中找到问题的正确答案。在消费者阅读了类似的问答,并确定他们希望继续提交新的问题后,系统将自动推荐一个或多个主题类别,供他们考虑使用过去分配的最常见的主题,应用类似的问题(图5这个重要的步骤解决了类别选择错误的问题,这个问题在基于web的公共问答服务中非常常见。错误的类别提交可能导致没有答案,甚至需要手动更正。上述应用表明,我们的方法可以集成到现有系统中,以提高问答工作流程的服务质量。

图5。SimQ在网络健康中的应用。
查看此图

问答检索

目前,在网上查找健康信息最常见的方式之一是通过搜索引擎。搜索引擎使用基于关键字的信息检索技术[25],返回包含搜索关键字的排名Web页面。虽然返回排名靠前的文档在某些情况下是有用的,但这种类型的搜索通常不能满足用户的信息需求[26],正如国际信息检索联盟TREC所讨论的那样。因此,尽管普遍使用搜索引擎,但基于社区的问答平台正变得越来越受欢迎,因为它们解决了人类(消费者或专家)回答健康问题的基本需求[727].NetWellness是一个非营利性平台,为消费者提供专家回答的建议,以解决他们的健康问题,这为消费者提供了宝贵的资源。

相关工作

SimQ方法与问答机(QAMs)有关,但本质上不同[1626].QAMs旨在利用人工智能技术支持的计算机程序自动回答人类的问题[28].目前存在各种类型的qam。在生物医学信息领域,AskHERMES [29是一个自动查找和过滤临床信息的系统,以帮助医生获得相关信息。帕特里克和李[30.]开发了一种本体论,对重症监护病房的问题进行分类。MiPACQ [3132是一个集成不同数据源来回答临床问题的系统。MEDLINE是最大的QAM数据库,包含2000万篇PubMed文章的引用。斯奈德曼等[33]评估了三种方法在使用MEDLINE回答临床问题时的表现,发现外部语义知识提高了其中两种方法的表现。机器自动回答问题仍然是一个非常具有挑战性的任务,特别是对于健康信息学应用。大多数机器回答系统只能对问题提供事实性的答案。对于涉及就消费者健康问题提出建议和/或意见的任务,特别是当问题以自由文本格式提出时,这些系统的表现仍不能令人满意[34].例如,要回答“为什么福善美不能与雌激素同时服用?”这个问题,就需要复杂的推理能力和专业的药学知识。SimQ是完全不同的,因为它从存档的知识库中重用类似的问题来满足消费者的信息需求,以补充现有的机器应答系统的研究。因此,我们的研究重点是改进基于社区的问答服务而不是QAMs的信息检索。SimQ方法在存档的问答数据库中分析问题对问题的相似性,并检索相关的问答,以解决消费者的健康问题。据我们所知,这是第一个主要关注分析消费者健康问题相似性的研究。

误差分析

我们从SimQ检索结果中观察到两种类型的错误:假阳性结果和假阴性结果。假阳性结果(错误地包含问题)通常是由具有微小但重要差异的问题产生的。例如,SimQ检索查询,“我如何在一个月内减肥?”,因为“lose weight”和“gain weight”都有相同的语义类型,即发现。这两个问题包含相同的语义类型,患者群体和时间概念。唯一的主要区别是“减肥(CUI:C0043096)”和“增重(CUI:C0043094)”的概念。对于这种类型的错误,一个潜在的解决方案是将概念重要性排名纳入相似度分析。在生成特征向量时,重要概念具有较高的权重,用于计算相似度得分,从而提高检索结果。假阴性结果(错误排除的问题)通常是由复杂的问题引起的。例如,“我乳房有个肿块,是淋巴结还是肿瘤?”在语义上与“乳房肿胀是乳腺癌的征兆吗?”以人类的标准。 However, the SimQ similarity score is not very high. To address this problem, we need to add concept reasoning ability to the similarity analysis. In this example, the concept “breast lump (CUI:C0424849)” is a descendent of the concept “swelling (CUI:C0038999)”, and “breast cancer (CUI:C0006142)” is a descendent of “tumor (CUI:C0027651)”.

简短含糊的问题也会导致假阴性和假阳性错误。例如,在分析问题“Vitamin B6 deficiency”时,SimQ检索到假阳性结果“Vitamin B12 deficiency?”以及假阴性结果“维生素B6缺乏的症状是什么?”我们认为,解决由简短的模糊问题造成的错误的潜在方法包括根据重要性对问题元素进行加权和/或应用查询扩展技术。例如,扩展网络性问题的一种直观的方法是包括之前相似度分析的答案。然而,答案通常比问题复杂和长得多,因此要获得良好的结果仍然具有挑战性,特别是需要实时检索响应。整合问题和答案以改善检索结果将在我们计划进行的后续研究中进行检查。

限制

SimQ使用UMLS作为标准化的语义知识库。未来,我们计划利用其他医学知识资源进行语义标注,可以提供更细粒度的语义赋值,提高语义分析能力。此外,一些研究者指出,消费者健康词汇(CHV) [35]可以促进与消费者相关的自由文本的自然语言处理。由于提交给NetWellness的大多数问题都是关于消费者健康的问题,我们当前方法的自然延伸将是在未来的研究中评估消费者健康词汇的有效性。

结论

对消费者健康问题进行相似性分析,可以显著提高在线社区问答服务的质量和可及性。在本研究中,我们提出了一个新的应用程序SimQ,它结合自然语言处理和语义模式技术,分析消费者健康问题的语义相似性。评估结果表明,我们的方法有效地检索了NetWellness上的类似问题。结果表明,SimQ法的精密度最高,为72.2%,查全率为78.0%F-得分75.0%。我们通过为NetWellness网站设计一个新的问答管道演示了一个用例应用程序,该管道检索与用户的医疗保健类似的以前的问答。我们为NetWellness设计了一个新的问答管道,它可以检索以前类似于用户的医疗保健问题的问答。然后,我们通过一个特定的案例演示了SimQ的附加特性如何应用于健康消费者的查询,并将其集成到现有系统中,以提高问答工作流的服务质量。因此,我们已经证明SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟,而且还帮助消费者提高对其健康问题的理解。

致谢

这项工作得到了临床和转化科学合作(CTSC)的支持,授权号为UL1TR000439。CTSC得到了国家促进转化科学中心(NCATS)的支持,该中心是美国国立卫生研究院和NIH医学研究路线图的组成部分。

利益冲突

没有宣布。

多媒体附件1

相似度分析的源代码。

ZIP文件(ZIP Archive), 27KB

  1. 张艳。信息偏好对消费者在线健康信息搜索行为的影响。中国医学杂志,2013;15(11):e234 [免费全文] [CrossRef] [Medline
  2. miir:基于市场的实时问答服务。在:SIGCHI会议论文集在计算系统的人的因素。2009年发表于:CHI 09;2009;波士顿,769-778页。[CrossRef
  3. adam LA, Zhang J, Bakshy E, Ackerman MS.知识共享和雅虎答案:人人都知道一些东西。见:第17届国际万维网会议论文集。2008年发表于:WWW '08;2008;北京,665-674页。[CrossRef
  4. Berland GK, Elliott MN, Morales LS, Algazy J, Kravitz RL, Broder MS,等。互联网上的卫生信息:英语和西班牙语的可访问性、质量和可读性。中国医学杂志,2001;29 (6):528 - 528 [免费全文] [Medline
  5. Morris TA,警卫JR,海军陆战队SA, Schick L, Haag D, Tsipis G,等。消费者健康信息传递中的公平性:NetWellness。中华医学会医学信息学会1997;4(1):6-13 [免费全文] [Medline
  6. 崔玲,徐瑞,罗震,Wentz S, Scarberry K,张gq。使用形式化概念分析对NetWellness中消费者健康信息进行探索性导航的多主题作业。BMC Med Inform Decis Mak 2014;14:63 [免费全文] [CrossRef] [Medline
  7. Marine S, Embi PJ, McCuistion M, Haag D, Guard JR. NetWellness 1995 - 2005:作为非营利性消费者健康信息和专家咨询服务,十年的经验和发展。美国医学会年度法律程序2005:1043 [免费全文] [Medline
  8. Lau AY, Coiera EW。网络搜索和社会反馈对消费者决策的影响:一个前瞻性的在线实验。中国医学杂志,2008;10(1):2 [免费全文] [CrossRef] [Medline
  9. 田俊,克罗夫文,李俊华。在大型问答档案中寻找类似的问题。载于:第十四届ACM信息知识管理国际会议论文集。2005年发表于:CIKM '05;2005;德国不来梅,页84-90。[CrossRef
  10. 梅茨勒D,克罗夫特WB。基于事实问题的统计问题分类分析。检索2005年1月;8(3):481-504。[CrossRef
  11. E.使用覆盖数据库概念模型的问题模板自动回答问题。自然语言处理与信息系统2002;[CrossRef
  12. 卞杰,刘勇,阿奇泰恩,查海。在人群中找到正确的事实:社交媒体上的事实问答。见:第17届国际万维网会议论文集。2008年发表于:WWW '08;2008;中国北京,第467-476页。[CrossRef
  13. 王凯,蔡明志。基于句法树匹配的基于社区的QA服务相似问题查找方法。载于:第32届国际ACM SIGIR信息检索研究发展会议论文集。2009年发表于:SIGIR '09;2009;马萨诸塞州波士顿,p. 187-194。[CrossRef
  14. 崔琳,卡特R,张gq。消费者健康信息的新型联合探索性导航界面的评估:一项众包比较研究。中国医学杂志,2014;16(2):e45 [免费全文] [CrossRef] [Medline
  15. 张志刚,张志刚,张志刚,张志刚,等。临床叙述的句法语义综合注解。中国医学信息杂志2013;20(5):922-930 [免费全文] [CrossRef] [Medline
  16. 韩华。生物医学问题回答:一项调查。计算方法程序,2010年7月,99(1):1-24。[CrossRef] [Medline
  17. 麦克雷在。UMLS语义网络。1989年出席:计算机在医疗保健中的应用年度研讨会;1989;华盛顿特区第503-507页。
  18. 基于转换的出院总结依赖语法学习方法。2002年发表于:生物医学领域自然语言处理研讨会论文集;2002;费城第37-44页。[CrossRef
  19. 罗铮,Duffy R, Johnson SB,翁c。基于语料库的UMLS临床研究资格标准语义词典创建方法。AMIA Jt summit Transl science Proc 2010;2010:26-30 [免费全文] [Medline
  20. 医学语言处理的语义词典。中国医学杂志1999;6(3):205-218 [免费全文] [Medline
  21. 徐瑞,马木森,王国华。使用一千八百万次MEDLINE引用对五百万个UMLS变义龙术语进行全面分析。AMIA年度诉讼程序2010;2010:907-911 [免费全文] [Medline
  22. Marneffe MCD, MacCartney B, Manning CD.从短语结构解析生成类型化依赖解析。见:LREC会议记录。2006年发表于:第五届国际语言资源与评价会议;2006;意大利热那亚。
  23. 翁超,吴晓霞,罗震,Boland M, Theodoratos D, Johnson S. EliXR:资格标准抽取和表示方法。美国医学信息学会2011年12月18日增刊1:i116-i124 [免费全文] [CrossRef] [Medline
  24. 罗铮,Yetisgen-Yildiz M,翁超。基于层次聚类的临床研究资格标准动态分类。J Biomed Inform 2011 Dec;44(6):927-935 [免费全文] [CrossRef] [Medline
  25. Page L, Brin S, Motwani R, Winograd t。:斯坦福InfoLab;1999.PageRank引用排名:为web URL带来秩序:http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf[访问时间:2015-02-08][WebCite缓存
  26. Voorhees EM. TREC中的问题回答。载于:第十届信息与知识管理国际会议论文集,2001,ACM CIKM;2001;佐治亚州亚特兰大,第535-537页。
  27. 刘毅,Agichtein E.关于雅虎的演变。QA社区的回答。第31届信息检索研究与发展国际ACM SIGIR会议论文集。2008年发表于:SIGIR '08;2008;新加坡。[CrossRef
  28. 李文杰,李志强,李志强。AskMSR问答系统的分析。自然语言处理的经验方法。2002年发表于:EMNLP '02;2002;斯特劳兹堡,宾夕法尼亚州257-264页。[CrossRef
  29. 曹勇,刘峰,Simpson P, Antieau L, Bennett A, Cimino JJ,等。AskHERMES:复杂临床问题的在线问答系统。J Biomed Inform 2011 Apr;44(2):277-288 [免费全文] [CrossRef] [Medline
  30. 关于病人病历内容的临床问题的本体论。J Biomed Inform 2012 Apr;45(2):292-306 [免费全文] [CrossRef] [Medline
  31. 孙文杰,王志强,王志强,等。用于复杂临床问题回答的架构。见:第一届ACM国际卫生信息学研讨会论文集。美国弗吉尼亚州阿灵顿;2010年发表于:IHI '10;2010年11月11日至12日;阿灵顿,弗吉尼亚州p. 395-399。[CrossRef
  32. Cairns BL, Nielsen RD, Masanz JJ, Martin JH, Palmer MS, Ward WH,等。MiPACQ临床问答系统。AMIA年度法律程序2011;2011:171-180 [免费全文] [Medline
  33. Sneiderman CA, Demner-Fushman D, Fiszman M, Ide NC, Rindflesch TC。以知识为基础的方法,帮助临床医生在MEDLINE中找到答案。中国医学信息杂志2007;14(6):772-780 [免费全文] [CrossRef] [Medline
  34. 郭C, Etzioni O, Weld DS。将问题回答扩展到网络。计算机科学与工程学报2001;19(3):242-262。[CrossRef
  35. 曾秋冬,谢涛。探索和发展消费者健康词汇。中国医学信息杂志2006;13(1):24-29 [免费全文] [CrossRef] [Medline


CTSC:临床和转化科学合作克利夫兰
NCATS:国家推进转化科学中心
NLP:自然语言处理
NP:名词短语
POS:词性
问答:问答
平方:简单的问题
uml:统一医学语言系统
VB:动词词组
VBZ:第三人称动词


G·艾森巴赫(G Eysenbach)编辑;提交09.03.14;同行评议:H Yu, M Rethlefsen;对作者25.07.14的评论;修订版本收到30.08.14;接受08.11.14;发表17.02.15

版权

©Jake Luo,张国强,Susan Wentz,崔立聪,徐荣。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2015年2月17日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map