JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v17i2e43 25689608 10.2196 / jmir.3388 原始论文 原始论文 SimQ:实时检索相似的消费者健康问题 Eysenbach 冈瑟 在香港 Rethlefsen 梅丽莎 杰克 博士学位 1
生物医学数据和语言处理中心 卫生信息与管理系“, 威斯康星大学密尔沃基分校 新港大道2025号E UWM NWQB 6469房间 密尔沃基,威斯康星州,53211 美国 1 6462283142 1 (414) 229 3373 luojake@gmail.com
http://orcid.org/0000-0002-3900-643X
Guo-Qiang 博士学位 2 http://orcid.org/0000-0003-3241-5377 Wentz 苏珊 医学博士 3. http://orcid.org/0000-0001-8930-7743 Licong 博士学位 2 http://orcid.org/0000-0001-5549-8780 博士学位 2 http://orcid.org/0000-0003-3127-4795
1 生物医学数据和语言处理中心 卫生信息与管理系“, 威斯康星大学密尔沃基分校 密尔沃基WI 美国 2 临床研究中心医学信息部“, 医学院 凯斯西储大学 克利夫兰,哦 美国 3. Netwellness.org 医学院 凯斯西储大学 克利夫兰,哦 美国 通讯作者:Jake Luo luojake@gmail.com 02 2015 17 02 2015 17 2 e43 09 03 2014 25 07 2014 30. 08 2014 08 11 2014 ©Jake Luo,张国强,Susan Wentz,崔立聪,徐荣。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2015年2月17日。 2015

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

为消费者提供医疗保健信息的基于web的问答(Q&A)服务的普及程度显著增加。这些在线社区中存档了大量的问答,为寻求医疗保健问题答案的消费者形成了有价值的知识库。然而,由于消费者可能缺乏专业知识,要找到与自身健康问题密切相关的问答仍然很有挑战性。消费者经常反复问类似的问题,而这些问题之前已经被其他用户回答过了。

客观的

在这项研究中,我们的目标是开发有效的信息学方法,可以检索类似的基于web的消费者健康问题使用句法和语义分析。

方法

我们提出“SimQ”来实现这一目标。SimQ是一个信息学框架,它比较存档健康问题的相似性并检索答案以满足消费者的信息需求。采用统计句法分析的方法分析每个问题的句法结构。采用标准化统一医学语言系统(UMLS)对语义类型进行标注,提取医学概念。最后,利用语义特征和句法特征计算句子之间的相似度。

结果

我们使用了2000个随机选择的消费者问题来评估系统的性能。结果表明,在使用成分特征表示时,SimQ达到了最高的精密度(72.2%)、召回率(78.0%)和F-score(75.0%)。

结论

我们演示了SimQ对Netwellness现有的问答服务的补充,Netwellness是一个非营利性的基于社区的消费者健康信息服务,由近70,000个问答组成,每年为超过300万用户提供服务。SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟,而且还帮助消费者提高对其健康问题的理解。

网上健康资讯搜寻 健康信息传递 消费者健康信息学 消费者问题检索 相似性分析 Netwellness.org 医疗保健问题 查询及查询
简介

基于网络的健康相关问答服务越来越受欢迎。一些消费者健康网站每年获得数百万的页面浏览量,如NetWellness、WebMed和EverydayHealth。成千上万的用户访问这些网站,寻找与他们的健康问题有关的答案[ 1].许多健康信息网站都是基于社区的,这意味着用户可以向公共论坛提交问题,然后等待其他用户或专家回答这个问题。

基于社区的问答平台的服务模式有几个独特的优势。首先,用户保持他们的身份匿名,这保护了用户的隐私,鼓励信息共享。例如,许多人在面对面的医生咨询中感到压力太大或不好意思问某些类型的问题(例如,与性有关的问题,与体重有关的问题,或情感问题),可以从网络社区寻求帮助。其次,问答平台可以作为获取新知识的信息源。它增强了用户对许多不同主题的医疗保健的理解,如营养、病人护理或疾病管理。第三,与面对面的医生咨询相比,基于社区的服务通常能提供更快的反应和更广泛的视角。例如,用户问了一个关于“儿童营养”的问题,可能会得到儿童护理专家和营养学家的回答。最后,在线社区为消费者提供了一个分享他们的健康问题和健康兴趣的平台。这不仅创造了一个分享新知识的环境,还为医疗保健消费者提供了情感支持。因此,基于社区的问答是向广泛的公共用户传递医疗保健信息的极好方式。 It could help reduce the time and cost of information delivery, such as those services provided by MIMIR [ 2]和Yahoo Answers [ 3.].

尽管基于社区的在线卫生信息服务有许多优点,但仍有许多具有挑战性的问题需要解决,以提高服务质量和可获得性[ 4].消费者往往没有意识到存档历史问题的巨大价值。此外,许多消费者可能缺乏专业知识,这使得他们很难找到与自己特定的健康问题相关的问答。通常情况下,这些用户会发布之前已经回答过的类似问题。因此,重复的问题延误了服务响应,给服务平台增加了额外的负担,严重浪费了宝贵的资源。此外,领域专家和管理员还强烈需要检索和分组类似的q&a,以支持内容管理。为了解决这些问题,基于相似性的问答检索系统非常适合健康消费者和域管理员,以满足他们的特定需求。

许多基于社区的服务平台现在已经存档了数千个问答,这创建了一个有价值的知识库。Berland等人发表了一项研究[ 4评估互联网上的消费者健康平台。结果表明,相关信息的检索是有效地向消费者传递健康信息的关键因素。开发有效的方法来检索问答平台上的类似问题,可以帮助释放归档问答作为重要知识库的力量,并使存档信息更容易为消费者所用。在本文中,SimQ项目被提出作为一个有用的框架,重点是开发从大型健康信息平台NetWellness检索类似问题的新方法[ 5 6].

NetWellness是一家非营利性的健康信息网站,自1995年以来一直为消费者提供始终如一的高质量服务。该服务平台由来自凯斯西储大学、俄亥俄州立大学、辛辛那提大学等三所大学的专业医疗专家运营。NetWellness网站提供的健康信息已由专家按照高质量标准进行评估和维护,专家定期审查内容,以确保信息是最新的。包括医生、护士、药剂师、营养师、牙医、遗传学顾问、验光师、运动教练和社会工作者在内的500多名健康专家为公众问答做出了贡献,更重要的是,他们提供了专业的健康保健信息,直接解决了消费者的健康问题。已回答超过70,000个消费者问题,其中约1,400,000个[ 7)每月访问该网站的访问量。NetWellness通过网络调查不断收集用户反馈。近80%(28,137/35,719)的用户表示,NetWellness问答对他们非常有用,但令人惊讶的是,约67%(17,647/26,257)的用户报告说,他们在网站上发现的健康信息对他们来说是“新的”。与Lau和Coiera的报告相似[ 8],调查清楚表明,迫切需要开发先进的信息学工具,以提供更翔实和相关的知识,以教育用户并满足消费者的健康信息需求。本论文的目标是开发一个 语义相似度分析方法,以支持从NetWellness检索类似问题的需求,它补充了现有的服务,并能够有效地重用积累的问答知识(源代码可在 多媒体附件1).

问答的相似性分析仍然是一项具有挑战性的任务[ 9].在信息检索研究领域,有一些相关的研究旨在开发改进问答系统的新方法。梅茨勒和克罗夫特[ 10]提出了一种基于支持向量机(SVM)的问题分类方法,在这种方法中,训练过的分类器有助于确定基于事实的问题类型,例如“世界最高峰是什么?”,可分为“位置”类问题。斯奈德( 11]提出了一种使用问题模板将问题转换为数据库查询的方法,数据库查询根据模板中预定义的变量槽查询答案。该方法提供了一种从结构化问题变量构造数据库查询的正式方法。然而,由于需要为每种类型的问题开发模板,该方法对于大型和开放的问题数据库是不可扩展的。最近,一个排名框架[ 12],通过社区反馈(如用户体验、声誉和投票)从社交媒体中检索相关内容。当社区允许用户公开评估问题并提供反馈时,这种方法通常是有效的。王等[ 13]提出了一种利用句法结构来寻找相似问题的方法。该方法在Yahoo Answers上进行了测试,结果表明,使用语法结构比传统的“词袋”特征表示表现得更好。崔等[ 6 14他最近提出了另一种使用多主题导航来帮助消费者浏览问题档案的方法。

这些方法为不同领域的问答检索提供了不同的解决方案,如问题分类和排名。然而,医疗保健Q&As通常包含具有挑战性的医疗信息,这些信息难以封装,无法有效地进行标准语言处理和信息检索[ 14- 16(如疾病、体征和症状、药理反应等的描述)。在本文中,我们提出了一种不同的方法,利用统一医学语言系统(UMLS)的语义网络[ 17为消费者健康问题分配语义注释。将语义特征与统计句法分析结果相结合,计算相似度得分,检索相似问题。目标是提供类似的问答,帮助消费者更好地了解自己的健康问题。

方法 挑战

提交到NetWellness网站的问题以自由文本形式撰写,其中包含复杂的语法结构和语义元素。分析消费者问题的相似性并不是一项简单的任务,因此我们提出了一种结合语义注释技术和句法自然语言处理方法来分析问题相似性的方法。 图1显示了我们的方法的整体框架,称为SimQ。我们使用“AQUA”解析器[ 18来提取句子的句法结构。UMLS [ 17]用于标注句子,生成语义特征。将自然语言解析器(Natural Language Parser, NLP)解析结果与语义注释相结合,创建用于估计问题句之间相似性分数的特征。

消费者健康问题相似度分析的SimQ框架概述。

语义标注与医疗实体识别

语义标注是问答相似度分析的基础步骤。注释过程旨在从自由文本消费者问题中识别与健康相关的实体,并为所识别的实体分配语义类型。我们使用从UMLS开发的语义注释工具来执行命名实体识别[ 19 20.].注释工具将生物医学术语映射到UMLS概念和语义类型[ 17].事实证明,基于umls的词汇涵盖了广泛的医学概念[ 19- 21可以注释的。每个提取的实体都被分配了UMLS中定义的概念唯一标识符(CUI)。随后,我们根据识别出的短语和单词将句子分成更小的片段[ 19].例如,“叶酸会导致苦味和体味吗?”“可能// |叶酸/C0016410/药理物质|原因/C0678227/功能概念| a// |苦味/C0235290/体征和症状|和// |体味/C0085595/发现”。每个块由“|”标记分隔,由三个元素组成:名称实体(例如,叶酸,苦味),概念标识符(例如,C0016410, C0235290)和语义类型(例如,药理物质,体征和症状)。UMLS中没有对应语义映射的词也被保留以保持句子的句法结构,如助动词“could”和连接词“and”。在此步骤中,标识的名称实体增强了以下语法解析。然后利用标注的语义类型生成语义特征,分析消费者问题的相似度。

句法功能

为了分析消费者问题的语言结构和成分,我们将问题句解析为句法树。AQUA解析器[ 18由斯坦福解析器[ 22],然后用于构造句法树和分配词性标注。解析树是表示句子组成部分的句法关系的形式化结构。例如,语法树中的 图2为“Could chronic arthritis cause constant pain below the left knee?”样本句的解析结果。句根被标记为一个SQ(简单问题)。进一步分析为三个部分:VBZ (3理查德·道金斯人称动词),NP(名词短语)和VP(动词短语)。语法树将展开,直到所有叶节点都包含一个组成部分。与将每个单词视为一个组成部分的标准语法分析不同,我们的方法使用语义注释结果,并将UMLS可识别实体视为语法组成部分。最后一步使我们能够检索已标识的命名实体之间的关系。

解析的语法树和语义依赖关系。

语义特征

我们构建了依赖语法[ 22]从语法树中提取,表示已识别成分之间的语法关系。研究表明,依赖解析可以方便地从医疗记录中的自由文本中检索信息,例如从出院摘要中检索信息[ 18]或临床研究资格准则[ 23].依赖语法结构由调控器、依赖项和关系名组成。在 图2,调控器和依赖元素由虚线包围并链接在一起。例如,依赖性“慢性关节炎”是调控器“原因”的名义主体(nsubj),而“持续疼痛”是调控器“原因”的直接对象(dobj)。通过将依赖关系应用于语义注释,我们可以提取实体之间的语义关系。例如,我们可以提取语义关系,“疾病或综合征(慢性关节炎)-功能概念(原因)-发现(持续疼痛)”,这表明疾病对临床发现具有功能影响。同样,我们可以提取另一个关系,“发现(持续疼痛)-空间概念(下图)-身体位置或区域(左膝)”,它指定了临床发现的空间位置。然后利用提取的语义关系中的语义类型对表示语义特征,进行相似度计算。

问题相似

本文采用的相似度计算算法是骰子系数和余弦相似度。骰子系数(DC)和余弦相似度(CS)(见 图3)用于评定问题之间的相似度。相似度取值范围为0 ~ 1。0分意味着两个问题完全不相似,1分意味着它们完全相同。假设有两个特征集1而且2由两个不同的消费者问题生成,然后我们可以通过中的公式计算DC和CS相似性得分 图3

我们对语法和语义特征都使用二进制表示。如果一个特征在一个问题中出现在消费者面前,那么它的值为1;否则,值为0。从二进制表示中,我们可以生成包含句法和语义特征的向量来比较这两个问题之间的相似性,如式1和式2所示 图3

骰子系数(1)和余弦相似度(2)公式。

结果 数据源

我们将我们的方法(SimQ)应用于Netwellness网站上发布的消费者问题,该网站已经存档了超过70,000个问题和由领域专家撰写的600多篇健康信息文章。所有的问答和文章被分为121个健康主题。然后通过使用2000个随机选择的NetWellness问题来评估所提出的SimQ方法的性能。精确度,召回率,以及 F-分数进行测量。此外,我们还为“饮食和营养”类别的聚合语义类型模式创建了一个插图,其中包含2335个问题(参见 图4).

“饮食与营养”主题的语义依赖网络概述。

语义依赖概述

图4显示主题组“饮食与营养”中语义类型模式的概述。图中的节点表示语义类型(如Food、Population Group、Qualitative Concept等),连接两个节点的边表示两种类型之间的依赖关系。节点的大小表示问题中语义类型的频率,边的宽度表示两种类型之间依赖关系的频率。通过使用依赖关系(边)连接所有语义类型(节点),我们能够产生语义模式的概述。结果清楚地显示了“饮食与营养”类别中的主要主题及其联系。在UMLS中定义的135种语义类型中,只有37种用于此类别。例如,在语义类型“食品和药品”中,质量和数量属性是最突出的主题,如依赖对“大蒜-益处”、“蛋白质-量”、“葡萄籽提取物-益处和风险”。与食物相关的疾病、症状和医学发现也是非常受欢迎的问题,例如“胆结石-饮食”、“心脏病-酒”和“低血糖-食物”。这一结果表明,同一主题组中的消费者问题具有许多相似的模式。我们假设语义特征可以进一步用于改进相似度分析。

类似问题的示例结果

表1显示了从NetWellness网站检索到的类似问题的一些示例结果。给定一个特定的消费者问题,我们的算法将遍历NetWellness上的所有存档问题,以检索排名最高的类似问题。相似度最高的5个问题及其相似度得分见 表1使用两个消费者健康问题的例子:“我的喉腺肿了,有什么办法吗?”和“血小板计数低”。

SimQ计算类似问题的例子。

排名 类似的问题 相似性得分
输入问题:“我的喉腺肿了,可以帮忙吗?”
1 喉腺肿痛吗? 0.7368
2 喉咙痛、腺体肿大? 0.6718
3. 喉咙肿,不能很好地吞咽? 0.6545
4 我的喉咙一直痛,腺体也痛。 0.5901
5 小舌肿痛,请帮忙? 0.5611
输入问题:“血小板计数低?”
1 血小板计数减少? 0.8235
2 血小板计数低的原因是什么? 0.7906
3. 血小板计数极低? 0.7726
4 血小板计数下降? 0.7003
5 食物增加血小板计数? 0.5957
评价

为了评估SimQ方法的性能,从Yahoo Answers中选择了12个种子消费者问题作为输入问题。这些问题是从妇女健康、疾病和状况以及心理健康等不同类别中挑选出来的。两名独立于该项目的生物医学信息学家被招募来生成一个金标准,以评估SimQ问题检索引擎的结果。他们被要求手动选择与种子问题非常相似的网络问题。共有2000个随机选择的网络问题被用作候选库。评估者共选取246个消费者问题作为SimQ检索性能的正金标准。两个评估者之间的初始一致性为83%。然而,他们被允许讨论并就所有类似的消费者问题达成最终一致的协议,然后将其用作黄金标准。

我们还比较了使用不同特征表示的相似性分析的性能。 表2显示了使用Dice系数和余弦相似度算法的SimQ结果。基线特征(B)是问题的词袋表示,这是NLP分析的标准表示。归一化特征(N)是经过专业词汇工具归一化的单词。词汇工具将复数术语和过去时态规范化为词干形式。概念特征(C)是语义标注过程中识别的UMLS概念。N+POS (P)特征是规范化术语及其句法词性标记的组合。N+Concept (NC)特性是标准化术语及其映射的UMLS概念的组合。N+C+Type (NCT)特征是珍贵特征(NC)和语义特征一节中描述的提取的语义类型特征的组合。

表2,我们可以看到,在这个任务中,Dice相似度比cos相似度表现得更好。结果表明,词汇规范化、UMLS概念和语义类型提高了相似度分析。词性标注对相似性分析没有贡献。表现最好的是N+C+Type (NCT)特征,该系统的准确率为75.0% F-得分,准确率72.2%,召回率78.0%。

句法分析用于方便识别命名实体,并支持语义特征的构建[ 24].词性标注被评价为一种句法特征。评价结果表明,词性并没有提高检索的性能。语义特征是由语义类型对构造的,这些类型对是从解析的依赖树中提取出来的。评价结果表明,语义特征改善了检索结果,而句法分析对检索结果影响不大。从我们的分析来看,语义特征的贡献主要体现在两个方面:(1)语义特征强化了关键的医学概念,降低了非医学概念的权重;(2)语义特征提高了无法直接从文本中确定的消费者问题的语义相似性分析。例如,“我眼睛模糊是高血压引起的吗?”和“HBP导致视力模糊?”“模糊视觉(CID:C0344232)高血压病(CID:C0020538)”具有相同的语义概念,以及相同的语义类型模式,“疾病-病因-征兆-症状”。 图4表明在密切相关的主题组中存在许多重叠的语义关系(语义依赖对)。

评估消费者问答相似度分析的不同特征表征(使用12个种子问题的平均12个实验)。

功能 真正的积极的 积极的 真正的 精密% 记得% F分数%
算法-余弦相似度
基线(B) 12.83 7.67 1969.33 7.67 62.6% 62.6% 62.6%
归一化(N) 12.67 6.67 1970.33 7.83 65.5% 61.8% 63.6%
概念(C) 14.00 8.33 1968.67 6.50 62.7% 68.3% 65.4%
N + POS (P) 11.67 7.67 1969.33 8.83 60.3% 56.9% 58.6%
N+概念(NC) 15.00 7.50 1969.50 5.50 66.7% 73.2% 69.8%
N + C +类型(NCT) 15.33 6.67 1970.33 5.17 69.7% 74.8% 72.1%
算法-骰子相似度
基线(B) 11.33 3.17 1973.83 9.17 78.1% 55.3% 64.7%
归一化(N) 15.50 10.33 1966.67 5.00 60.0% 75.6% 66.9%
概念(C) 15.33 8.00 1969.00 5.17 65.7% 74.8% 70.0%
N + POS (P) 11.67 5.67 1971.33 8.83 67.3% 56.9% 61.7%
N+概念(NC) 14.33 3.83 1973.17 6.17 78.9% 69.9% 74.1%
N + C +类型(NCT) 16.00 6.17 1970.83 4.50 72.2% 78.0% 75.0%
SimQ应用程序

为了演示SimQ的使用,我们开发了一个应用程序来补充NetWellness网站上现有的问答服务。 图5SimQ的Web界面。NetWellness上最初的问答服务提示用户从120个类别中选择一个主题类别,然后允许消费者将他们的问题提交到特定的类别。协调器检查问题,然后确定用户分配的类别是否正确。如果问题被提交到正确的类别,协调员将把问题转发给卫生专家。

这个新的应用程序通过语义相似性分析增强了工作流(参见 图5消费者首先向SimQ问题检索引擎提交他们的健康问题。SimQ分析问题并计算与Netwellness上存档的所有问题的相似性( 图5,步骤2)。将为消费者检索一个密切相关的相似问题列表。然后用户可以浏览过去发布的类似问题,并阅读相关的Q&As。此步骤使用历史知识提高消费者对运行状况问题的理解。用户还可以直接从存档的Q&As中找到问题的正确答案。在消费者阅读了类似的问答,并确定他们希望继续提交新的问题后,系统将自动推荐一个或多个主题类别,供他们考虑使用过去分配的最常见的主题,应用类似的问题( 图5这个重要的步骤解决了类别选择错误的问题,这个问题在基于web的公共问答服务中非常常见。错误的类别提交可能导致没有答案,甚至需要手动更正。上述应用表明,我们的方法可以集成到现有系统中,以提高问答工作流程的服务质量。

SimQ在网络健康中的应用。

讨论 问答检索

目前,在网上查找健康信息最常见的方式之一是通过搜索引擎。搜索引擎使用基于关键字的信息检索技术[ 25],返回包含搜索关键字的排名Web页面。虽然返回排名靠前的文档在某些情况下是有用的,但这种类型的搜索通常不能满足用户的信息需求[ 26],正如国际信息检索联盟TREC所讨论的那样。因此,尽管普遍使用搜索引擎,但基于社区的问答平台正变得越来越受欢迎,因为它们解决了人类(消费者或专家)回答健康问题的基本需求[ 7 27].NetWellness是一个非营利性平台,为消费者提供专家回答的建议,以解决他们的健康问题,这为消费者提供了宝贵的资源。

相关工作

SimQ方法与问答机(QAMs)有关,但本质上不同[ 16 26].QAMs旨在利用人工智能技术支持的计算机程序自动回答人类的问题[ 28].目前存在各种类型的qam。在生物医学信息领域,AskHERMES [ 29是一个自动查找和过滤临床信息的系统,以帮助医生获得相关信息。帕特里克和李[ 30.]开发了一种本体论,对重症监护病房的问题进行分类。MiPACQ [ 31 32是一个集成不同数据源来回答临床问题的系统。MEDLINE是最大的QAM数据库,包含2000万篇PubMed文章的引用。斯奈德曼等[ 33]评估了三种方法在使用MEDLINE回答临床问题时的表现,发现外部语义知识提高了其中两种方法的表现。机器自动回答问题仍然是一个非常具有挑战性的任务,特别是对于健康信息学应用。大多数机器回答系统只能对问题提供事实性的答案。对于涉及就消费者健康问题提出建议和/或意见的任务,特别是当问题以自由文本格式提出时,这些系统的表现仍不能令人满意[ 34].例如,要回答“为什么福善美不能与雌激素同时服用?”这个问题,就需要复杂的推理能力和专业的药学知识。SimQ是完全不同的,因为它从存档的知识库中重用类似的问题来满足消费者的信息需求,以补充现有的机器应答系统的研究。因此,我们的研究重点是改进基于社区的问答服务而不是QAMs的信息检索。SimQ方法在存档的问答数据库中分析问题对问题的相似性,并检索相关的问答,以解决消费者的健康问题。据我们所知,这是第一个主要关注分析消费者健康问题相似性的研究。

误差分析

我们从SimQ检索结果中观察到两种类型的错误:假阳性结果和假阴性结果。假阳性结果(错误地包含问题)通常是由具有微小但重要差异的问题产生的。例如,SimQ检索查询,“我如何在一个月内减肥?”,因为“lose weight”和“gain weight”都有相同的语义类型,即发现。这两个问题包含相同的语义类型,患者群体和时间概念。唯一的主要区别是“减肥(CUI:C0043096)”和“增重(CUI:C0043094)”的概念。对于这种类型的错误,一个潜在的解决方案是将概念重要性排名纳入相似度分析。在生成特征向量时,重要概念具有较高的权重,用于计算相似度得分,从而提高检索结果。假阴性结果(错误排除的问题)通常是由复杂的问题引起的。例如,“我乳房有个肿块,是淋巴结还是肿瘤?”在语义上与“乳房肿胀是乳腺癌的征兆吗?”以人类的标准。 However, the SimQ similarity score is not very high. To address this problem, we need to add concept reasoning ability to the similarity analysis. In this example, the concept “breast lump (CUI:C0424849)” is a descendent of the concept “swelling (CUI:C0038999)”, and “breast cancer (CUI:C0006142)” is a descendent of “tumor (CUI:C0027651)”.

简短含糊的问题也会导致假阴性和假阳性错误。例如,在分析问题“Vitamin B6 deficiency”时,SimQ检索到假阳性结果“Vitamin B12 deficiency?”以及假阴性结果“维生素B6缺乏的症状是什么?”我们认为,解决由简短的模糊问题造成的错误的潜在方法包括根据重要性对问题元素进行加权和/或应用查询扩展技术。例如,扩展网络性问题的一种直观的方法是包括之前相似度分析的答案。然而,答案通常比问题复杂和长得多,因此要获得良好的结果仍然具有挑战性,特别是需要实时检索响应。整合问题和答案以改善检索结果将在我们计划进行的后续研究中进行检查。

限制

SimQ使用UMLS作为标准化的语义知识库。未来,我们计划利用其他医学知识资源进行语义标注,可以提供更细粒度的语义赋值,提高语义分析能力。此外,一些研究者指出,消费者健康词汇(CHV) [ 35]可以促进与消费者相关的自由文本的自然语言处理。由于提交给NetWellness的大多数问题都是关于消费者健康的问题,我们当前方法的自然延伸将是在未来的研究中评估消费者健康词汇的有效性。

结论

对消费者健康问题进行相似性分析,可以显著提高在线社区问答服务的质量和可及性。在本研究中,我们提出了一个新的应用程序SimQ,它结合自然语言处理和语义模式技术,分析消费者健康问题的语义相似性。评估结果表明,我们的方法有效地检索了NetWellness上的类似问题。结果表明,SimQ法的精密度最高,为72.2%,查全率为78.0% F-得分75.0%。我们通过为NetWellness网站设计一个新的问答管道演示了一个用例应用程序,该管道检索与用户的医疗保健类似的以前的问答。我们为NetWellness设计了一个新的问答管道,它可以检索以前类似于用户的医疗保健问题的问答。然后,我们通过一个特定的案例演示了SimQ的附加特性如何应用于健康消费者的查询,并将其集成到现有系统中,以提高问答工作流的服务质量。因此,我们已经证明SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟,而且还帮助消费者提高对其健康问题的理解。

多媒体附件1

相似度分析的源代码。

缩写 CTSC

临床和转化科学合作克利夫兰

NCATS

国家推进转化科学中心

NLP

自然语言处理

NP

名词短语

POS

词性

常见问题

问答

平方

简单的问题

uml

统一医学语言系统

VB

动词词组

VBZ

第三人称动词

这项工作得到了临床和转化科学合作(CTSC)的支持,授权号为UL1TR000439。CTSC得到了国家促进转化科学中心(NCATS)的支持,该中心是美国国立卫生研究院和NIH医学研究路线图的组成部分。

没有宣布。

Y 信息偏好对消费者在线健康信息搜索行为的影响 J医疗互联网服务 2013 15 11 e234 10.2196 / jmir.2783 24284061 v15i11e234 PMC3869058 谢长廷 G 计数 年代 mimir:基于市场的实时问答服务 计算机系统中的人为因素SIGCHI会议论文集 2009 气09年 2009 波士顿 769 778 10.1145/1518701.1518820 亚当 J Bakshy E 阿克曼 女士 知识共享和雅虎问答:每个人都知道一些东西 第十七届万维网国际会议论文集 2008 WWW 08年 2008 北京 665 674 10.1145/1367497.1367587 Berland 门将 艾略特 莫拉莱斯 LS Algazy J Kravitz RL 布罗德 女士 Kanouse 穆尼奥斯 晶澳 普约尔 晶澳 劳拉 沃特金斯 H 麦格琳 EA 互联网上的卫生信息:英语和西班牙语的可访问性、质量和可读性 《美国医学会杂志》 2001 285 20. 2612 21 11368735 joc02274 PMC4182102 莫里斯 助教 警卫 海洋 SA 锡克 l Haag D Tsipis G 卡亚 B 鞋匠 年代 消费者健康信息传递中的公平性:NetWellness 美国医学信息协会 1997 4 1 6 13 8988468 PMC61192 l R Z Wentz 年代 Scarberry K 《GQ》 使用形式化概念分析对NetWellness中消费者健康信息进行探索性导航的多主题作业 BMC Med通知Decis Mak 2014 14 63 10.1186 / 1472-6947-14-63 25086916 1472-6947-14-63 PMC4131492 海洋 年代 Embi PJ McCuistion Haag D 警卫 NetWellness 1995 - 2005:作为一个非营利性的消费者健康信息和专家咨询服务,十年的经验和发展 AMIA年度诉讼程序 2005 1043 16779330 58376 PMC1560438 Coiera 电子战 网络搜索和社会反馈对消费者决策的影响:一个前瞻性的在线实验 J医疗互联网服务 2008 10 1 e2 10.2196 / jmir.963 18244893 v10i1e2 PMC2483845 J 克罗夫特 白平衡 JH 在大型问答档案中寻找类似的问题 第十四届ACM信息知识管理国际会议论文集 2005 CIKM 05 2005 德国不莱梅 84 90 10.1145/1099554.1099572 麦茨勒 D 克罗夫特 白平衡 基于事实问题的统计问题分类分析 正检索 2005 1 8 3. 481 504 10.1007 / s10791 - 005 - 6995 - 3 斯奈德 E 使用涵盖数据库概念模型的问题模板自动回答问题 自然语言处理与信息系统“, 2002 2553 235 239 10.1007 / 3 - 540 - 36271 - 1 -大于 J Y Agichtein E H 在人群中找到正确的事实:在社交媒体上回答事实 第十七届万维网国际会议论文集 2008 WWW 08年 2008 中国,北京 467 476 10.1145/1367497.1367561 K Z TS 在基于社区的QA服务中查找类似问题的语法树匹配方法 第32届国际ACM SIGIR信息检索研究发展会议论文集 2009 " 09年 2009 马萨诸塞州的波士顿 187 194 10.1145/1571941.1571975 l 卡特 R 《GQ》 消费者健康信息的新型联合探索性导航界面的评估:一项众包比较研究 J医疗互联网服务 2014 16 2 e45 10.2196 / jmir.3111 24513593 v16i2e45 PMC3936301 奥尔布赖特 D Lanfranchi 一个 Fredriksen 一个 斯泰勒 W 华纳 C J J Dligach D 尼尔森 R 马丁 J 病房 W 帕尔默 Savova G 临床叙述的句法语义综合注解 美国医学信息协会 2013 20. 5 922 30. 10.1136 / amiajnl - 2012 - 001317 23355458 amiajnl - 2012 - 001317 PMC3756257 Athenikos SJ H 生物医学问题回答:一项调查 计算方法程序生物医学 2010 07 99 1 1 24 10.1016 / j.cmpb.2009.10.003 19913938 s0169 - 2607 (09) 00287 - 9 麦克雷 UMLS语义网络 1989 计算机在医疗保健中的应用年度研讨会 1989 华盛顿特区 503 507 坎贝尔 约翰逊 某人 基于转换的出院总结依赖语法学习器 2002 生物医学领域自然语言处理研讨会论文集 2002 费城 37 44 10.3115/1118149.1118155 Z 达菲 R 约翰逊 某人 C 基于语料库的方法为UMLS的临床研究资格标准创建语义词汇 AMIA世界传播科学峰会 2010 2010 26 30. 21347142 PMC3041551 约翰逊 某人 用于医学语言处理的语义词典 美国医学信息协会 1999 6 3. 205 18 10332654 PMC61361 R 为了 沙阿 NH 使用一千八百万次MEDLINE引用对五百万个UMLS变义龙术语进行全面分析 AMIA年度诉讼程序 2010 2010 907 11 21347110 PMC3041393 Marneffe 价格上调 MacCartney B 曼宁 CD 从短语结构解析生成类型化依赖项解析 LREC会议记录 2006 第五届国际语言资源与评价会议 2006 意大利的热那亚 C X Z 博兰 先生 Theodoratos D 约翰逊 某人 EliXR:一种资格标准提取和表示的方法 美国医学信息协会 2011 12 18补充1 i116 24 10.1136 / amiajnl - 2011 - 000321 21807647 amiajnl - 2011 - 000321 PMC3241167 Z Yetisgen-Yildiz C 基于层次聚类的临床研究资格标准的动态分类 J生物医学信息 2011 12 44 6 927 35 10.1016 / j.jbi.2011.06.001 21689783 s1532 - 0464 (11) 00101 - 8 PMC3183114 页面 l 布林 年代 Motwani R Winograd T 技术报告 1999 2015-02-08 斯坦福InfoLab PageRank引用排名:为网络带来秩序 http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf 6 wcjwjidj vooorhees 新兴市场 TREC中的问题回答 第十届信息与知识管理国际会议论文集 2001 ACM CIKM 2001 亚特兰大,乔治亚州 535 537 Y Agichtein E 雅虎的发展历程QA社区 第31届国际ACM SIGIR信息检索研究与发展会议论文集 2008 " 08年 2008 新加坡 10.1145/1390334.1390478 布瑞尔 E 杜迈 年代 Banko AskMSR问答系统分析 自然语言处理经验方法的ACL-02会议论文集 2002 EMNLP 02 2002 斯特劳斯堡,宾夕法尼亚州 257 264 10.3115/1118693.1118726 Y F 辛普森 P Antieau l 班尼特 一个 西米洛 JJ 伊利 J H AskHERMES:复杂临床问题的在线问答系统 J生物医学信息 2011 04 44 2 277 88 10.1016 / j.jbi.2011.01.004 21256977 s1532 - 0464 (11) 00006 - 2 PMC3433744 帕特里克 J 关于病人病历内容的临床问题的本体 J生物医学信息 2012 04 45 2 292 306 10.1016 / j.jbi.2011.11.008 22142949 s1532 - 0464 (11) 00196 - 1 尼尔森 理查德·道金斯 Masanz J Ogren P 病房 W 马丁 JH Savova G 帕尔默 用于复杂临床问题回答的架构 第一届ACM国际卫生信息学研讨会论文集 2010 IHI的10 2010年11月11日至12日 弗吉尼亚州阿灵顿 美国弗吉尼亚州阿灵顿市 395 399 10.1145/1882992.1883050 凯恩斯 提单 尼尔森 理查德·道金斯 Masanz JJ 马丁 JH 帕尔默 女士 病房 WH Savova 门将 MiPACQ临床问答系统 AMIA年度诉讼程序 2011 2011 171 80 22195068 PMC3243235 Sneiderman CA Demner-Fushman D Fiszman Ide 数控 Rindflesch TC 以知识为基础的方法,帮助临床医生在MEDLINE中找到答案 美国医学信息协会 2007 14 6 772 80 10.1197 / jamia.M2407 17712086 M2407 PMC2213491 C O 焊接 DS 将问题回答扩展到网络 ACM Trans Inf系统 2001 19 3. 242 262 10.1145/502115.502117 QT 谢霆锋 T 探索和发展消费者健康词汇 美国医学信息协会 2006 13 1 24 9 10.1197 / jamia.M1761 16221948 M1761 PMC1380193
Baidu
map