卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析JMIR出版公司

加拿大多伦多

v17i2e43

25689608

10.2196 / jmir.3388

原始论文

SimQ:实时检索相似的消费者健康问题

Eysenbach

冈瑟

余

在香港

Rethlefsen

梅丽莎

罗

杰克

博士学位 1

生物医学数据和语言处理中心卫生信息与管理系“，威斯康星大学密尔沃基分校

新港大道2025号E

UWM NWQB 6469房间

密尔沃基，威斯康星州，53211

美国 1 6462283142 1 (414) 229 3373 luojake@gmail.com

http://orcid.org/0000-0002-3900-643X

张

Guo-Qiang

博士学位 2

http://orcid.org/0000-0003-3241-5377

Wentz

苏珊

医学博士 3.

http://orcid.org/0000-0001-8930-7743

崔

Licong

博士学位 2

http://orcid.org/0000-0001-5549-8780

徐

荣

博士学位 2

http://orcid.org/0000-0003-3127-4795

¹ 生物医学数据和语言处理中心卫生信息与管理系“，威斯康星大学密尔沃基分校

密尔沃基WI

美国 ² 临床研究中心医学信息部“，医学院凯斯西储大学

克利夫兰,哦

美国 ^3. Netwellness.org 医学院凯斯西储大学

克利夫兰,哦

美国

通讯作者:Jake Luo luojake@gmail.com

02 2015

17 02 2015

17 2

e43

09 03 2014 25 07 2014 30. 08 2014 08 11 2014

©Jake Luo，张国强，Susan Wentz，崔立聪，徐荣。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2015年2月17日。

2015

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

为消费者提供医疗保健信息的基于web的问答(Q&A)服务的普及程度显著增加。这些在线社区中存档了大量的问答，为寻求医疗保健问题答案的消费者形成了有价值的知识库。然而，由于消费者可能缺乏专业知识，要找到与自身健康问题密切相关的问答仍然很有挑战性。消费者经常反复问类似的问题，而这些问题之前已经被其他用户回答过了。

客观的

在这项研究中，我们的目标是开发有效的信息学方法，可以检索类似的基于web的消费者健康问题使用句法和语义分析。

方法

我们提出“SimQ”来实现这一目标。SimQ是一个信息学框架，它比较存档健康问题的相似性并检索答案以满足消费者的信息需求。采用统计句法分析的方法分析每个问题的句法结构。采用标准化统一医学语言系统(UMLS)对语义类型进行标注，提取医学概念。最后，利用语义特征和句法特征计算句子之间的相似度。

结果

我们使用了2000个随机选择的消费者问题来评估系统的性能。结果表明，在使用成分特征表示时，SimQ达到了最高的精密度(72.2%)、召回率(78.0%)和F-score(75.0%)。

结论

我们演示了SimQ对Netwellness现有的问答服务的补充，Netwellness是一个非营利性的基于社区的消费者健康信息服务，由近70,000个问答组成，每年为超过300万用户提供服务。SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟，而且还帮助消费者提高对其健康问题的理解。

网上健康资讯搜寻健康信息传递消费者健康信息学消费者问题检索相似性分析 Netwellness.org 医疗保健问题查询及查询

简介

基于网络的健康相关问答服务越来越受欢迎。一些消费者健康网站每年获得数百万的页面浏览量，如NetWellness、WebMed和EverydayHealth。成千上万的用户访问这些网站，寻找与他们的健康问题有关的答案[ 1］．许多健康信息网站都是基于社区的，这意味着用户可以向公共论坛提交问题，然后等待其他用户或专家回答这个问题。

基于社区的问答平台的服务模式有几个独特的优势。首先，用户保持他们的身份匿名，这保护了用户的隐私，鼓励信息共享。例如，许多人在面对面的医生咨询中感到压力太大或不好意思问某些类型的问题(例如，与性有关的问题，与体重有关的问题，或情感问题)，可以从网络社区寻求帮助。其次，问答平台可以作为获取新知识的信息源。它增强了用户对许多不同主题的医疗保健的理解，如营养、病人护理或疾病管理。第三，与面对面的医生咨询相比，基于社区的服务通常能提供更快的反应和更广泛的视角。例如，用户问了一个关于“儿童营养”的问题，可能会得到儿童护理专家和营养学家的回答。最后，在线社区为消费者提供了一个分享他们的健康问题和健康兴趣的平台。这不仅创造了一个分享新知识的环境，还为医疗保健消费者提供了情感支持。因此，基于社区的问答是向广泛的公共用户传递医疗保健信息的极好方式。 It could help reduce the time and cost of information delivery, such as those services provided by MIMIR [ 2]和Yahoo Answers [ 3.］．

尽管基于社区的在线卫生信息服务有许多优点，但仍有许多具有挑战性的问题需要解决，以提高服务质量和可获得性[ 4］．消费者往往没有意识到存档历史问题的巨大价值。此外，许多消费者可能缺乏专业知识，这使得他们很难找到与自己特定的健康问题相关的问答。通常情况下，这些用户会发布之前已经回答过的类似问题。因此，重复的问题延误了服务响应，给服务平台增加了额外的负担，严重浪费了宝贵的资源。此外，领域专家和管理员还强烈需要检索和分组类似的q&a，以支持内容管理。为了解决这些问题，基于相似性的问答检索系统非常适合健康消费者和域管理员，以满足他们的特定需求。

许多基于社区的服务平台现在已经存档了数千个问答，这创建了一个有价值的知识库。Berland等人发表了一项研究[ 4评估互联网上的消费者健康平台。结果表明，相关信息的检索是有效地向消费者传递健康信息的关键因素。开发有效的方法来检索问答平台上的类似问题，可以帮助释放归档问答作为重要知识库的力量，并使存档信息更容易为消费者所用。在本文中，SimQ项目被提出作为一个有用的框架，重点是开发从大型健康信息平台NetWellness检索类似问题的新方法[ 5， 6］．

NetWellness是一家非营利性的健康信息网站，自1995年以来一直为消费者提供始终如一的高质量服务。该服务平台由来自凯斯西储大学、俄亥俄州立大学、辛辛那提大学等三所大学的专业医疗专家运营。NetWellness网站提供的健康信息已由专家按照高质量标准进行评估和维护，专家定期审查内容，以确保信息是最新的。包括医生、护士、药剂师、营养师、牙医、遗传学顾问、验光师、运动教练和社会工作者在内的500多名健康专家为公众问答做出了贡献，更重要的是，他们提供了专业的健康保健信息，直接解决了消费者的健康问题。已回答超过70,000个消费者问题，其中约1,400,000个[ 7)每月访问该网站的访问量。NetWellness通过网络调查不断收集用户反馈。近80%(28,137/35,719)的用户表示，NetWellness问答对他们非常有用，但令人惊讶的是，约67%(17,647/26,257)的用户报告说，他们在网站上发现的健康信息对他们来说是“新的”。与Lau和Coiera的报告相似[ 8]，调查清楚表明，迫切需要开发先进的信息学工具，以提供更翔实和相关的知识，以教育用户并满足消费者的健康信息需求。本论文的目标是开发一个语义相似度分析方法，以支持从NetWellness检索类似问题的需求，它补充了现有的服务，并能够有效地重用积累的问答知识(源代码可在多媒体附件1）.

问答的相似性分析仍然是一项具有挑战性的任务[ 9］．在信息检索研究领域，有一些相关的研究旨在开发改进问答系统的新方法。梅茨勒和克罗夫特[ 10]提出了一种基于支持向量机(SVM)的问题分类方法，在这种方法中，训练过的分类器有助于确定基于事实的问题类型，例如“世界最高峰是什么?”，可分为“位置”类问题。斯奈德( 11]提出了一种使用问题模板将问题转换为数据库查询的方法，数据库查询根据模板中预定义的变量槽查询答案。该方法提供了一种从结构化问题变量构造数据库查询的正式方法。然而，由于需要为每种类型的问题开发模板，该方法对于大型和开放的问题数据库是不可扩展的。最近，一个排名框架[ 12]，通过社区反馈(如用户体验、声誉和投票)从社交媒体中检索相关内容。当社区允许用户公开评估问题并提供反馈时，这种方法通常是有效的。王等[ 13]提出了一种利用句法结构来寻找相似问题的方法。该方法在Yahoo Answers上进行了测试，结果表明，使用语法结构比传统的“词袋”特征表示表现得更好。崔等[ 6， 14他最近提出了另一种使用多主题导航来帮助消费者浏览问题档案的方法。

这些方法为不同领域的问答检索提供了不同的解决方案，如问题分类和排名。然而，医疗保健Q&As通常包含具有挑战性的医疗信息，这些信息难以封装，无法有效地进行标准语言处理和信息检索[ 14- 16(如疾病、体征和症状、药理反应等的描述)。在本文中，我们提出了一种不同的方法，利用统一医学语言系统(UMLS)的语义网络[ 17为消费者健康问题分配语义注释。将语义特征与统计句法分析结果相结合，计算相似度得分，检索相似问题。目标是提供类似的问答，帮助消费者更好地了解自己的健康问题。

方法挑战

提交到NetWellness网站的问题以自由文本形式撰写，其中包含复杂的语法结构和语义元素。分析消费者问题的相似性并不是一项简单的任务，因此我们提出了一种结合语义注释技术和句法自然语言处理方法来分析问题相似性的方法。图1显示了我们的方法的整体框架，称为SimQ。我们使用“AQUA”解析器[ 18来提取句子的句法结构。UMLS [ 17]用于标注句子，生成语义特征。将自然语言解析器(Natural Language Parser, NLP)解析结果与语义注释相结合，创建用于估计问题句之间相似性分数的特征。

图1

消费者健康问题相似度分析的SimQ框架概述。

语义标注与医疗实体识别

语义标注是问答相似度分析的基础步骤。注释过程旨在从自由文本消费者问题中识别与健康相关的实体，并为所识别的实体分配语义类型。我们使用从UMLS开发的语义注释工具来执行命名实体识别[ 19， 20.］．注释工具将生物医学术语映射到UMLS概念和语义类型[ 17］．事实证明，基于umls的词汇涵盖了广泛的医学概念[ 19- 21可以注释的。每个提取的实体都被分配了UMLS中定义的概念唯一标识符(CUI)。随后，我们根据识别出的短语和单词将句子分成更小的片段[ 19］．例如，“叶酸会导致苦味和体味吗?”“可能// |叶酸/C0016410/药理物质|原因/C0678227/功能概念| a// |苦味/C0235290/体征和症状|和// |体味/C0085595/发现”。每个块由“|”标记分隔，由三个元素组成:名称实体(例如，叶酸，苦味)，概念标识符(例如，C0016410, C0235290)和语义类型(例如，药理物质，体征和症状)。UMLS中没有对应语义映射的词也被保留以保持句子的句法结构，如助动词“could”和连接词“and”。在此步骤中，标识的名称实体增强了以下语法解析。然后利用标注的语义类型生成语义特征，分析消费者问题的相似度。

句法功能

为了分析消费者问题的语言结构和成分，我们将问题句解析为句法树。AQUA解析器[ 18由斯坦福解析器[ 22]，然后用于构造句法树和分配词性标注。解析树是表示句子组成部分的句法关系的形式化结构。例如，语法树中的图2为“Could chronic arthritis cause constant pain below the left knee?”样本句的解析结果。句根被标记为一个SQ(简单问题)。进一步分析为三个部分:VBZ (3^{理查德·道金斯}人称动词)，NP(名词短语)和VP(动词短语)。语法树将展开，直到所有叶节点都包含一个组成部分。与将每个单词视为一个组成部分的标准语法分析不同，我们的方法使用语义注释结果，并将UMLS可识别实体视为语法组成部分。最后一步使我们能够检索已标识的命名实体之间的关系。

图2

解析的语法树和语义依赖关系。

语义特征

我们构建了依赖语法[ 22]从语法树中提取，表示已识别成分之间的语法关系。研究表明，依赖解析可以方便地从医疗记录中的自由文本中检索信息，例如从出院摘要中检索信息[ 18]或临床研究资格准则[ 23］．依赖语法结构由调控器、依赖项和关系名组成。在图2，调控器和依赖元素由虚线包围并链接在一起。例如，依赖性“慢性关节炎”是调控器“原因”的名义主体(nsubj)，而“持续疼痛”是调控器“原因”的直接对象(dobj)。通过将依赖关系应用于语义注释，我们可以提取实体之间的语义关系。例如，我们可以提取语义关系，“疾病或综合征(慢性关节炎)-功能概念(原因)-发现(持续疼痛)”，这表明疾病对临床发现具有功能影响。同样，我们可以提取另一个关系，“发现(持续疼痛)-空间概念(下图)-身体位置或区域(左膝)”，它指定了临床发现的空间位置。然后利用提取的语义关系中的语义类型对表示语义特征，进行相似度计算。

问题相似

本文采用的相似度计算算法是骰子系数和余弦相似度。骰子系数(DC)和余弦相似度(CS)(见图3)用于评定问题之间的相似度。相似度取值范围为0 ~ 1。0分意味着两个问题完全不相似，1分意味着它们完全相同。假设有两个特征集问₁而且问₂由两个不同的消费者问题生成，然后我们可以通过中的公式计算DC和CS相似性得分图3．

我们对语法和语义特征都使用二进制表示。如果一个特征在一个问题中出现在消费者面前，那么它的值为1;否则，值为0。从二进制表示中，我们可以生成包含句法和语义特征的向量来比较这两个问题之间的相似性，如式1和式2所示图3．

图3

骰子系数(1)和余弦相似度(2)公式。

结果数据源

我们将我们的方法(SimQ)应用于Netwellness网站上发布的消费者问题，该网站已经存档了超过70,000个问题和由领域专家撰写的600多篇健康信息文章。所有的问答和文章被分为121个健康主题。然后通过使用2000个随机选择的NetWellness问题来评估所提出的SimQ方法的性能。精确度，召回率，以及 F-分数进行测量。此外，我们还为“饮食和营养”类别的聚合语义类型模式创建了一个插图，其中包含2335个问题(参见图4）.

图4

“饮食与营养”主题的语义依赖网络概述。

语义依赖概述

图4显示主题组“饮食与营养”中语义类型模式的概述。图中的节点表示语义类型(如Food、Population Group、Qualitative Concept等)，连接两个节点的边表示两种类型之间的依赖关系。节点的大小表示问题中语义类型的频率，边的宽度表示两种类型之间依赖关系的频率。通过使用依赖关系(边)连接所有语义类型(节点)，我们能够产生语义模式的概述。结果清楚地显示了“饮食与营养”类别中的主要主题及其联系。在UMLS中定义的135种语义类型中，只有37种用于此类别。例如，在语义类型“食品和药品”中，质量和数量属性是最突出的主题，如依赖对“大蒜-益处”、“蛋白质-量”、“葡萄籽提取物-益处和风险”。与食物相关的疾病、症状和医学发现也是非常受欢迎的问题，例如“胆结石-饮食”、“心脏病-酒”和“低血糖-食物”。这一结果表明，同一主题组中的消费者问题具有许多相似的模式。我们假设语义特征可以进一步用于改进相似度分析。

类似问题的示例结果

表1显示了从NetWellness网站检索到的类似问题的一些示例结果。给定一个特定的消费者问题，我们的算法将遍历NetWellness上的所有存档问题，以检索排名最高的类似问题。相似度最高的5个问题及其相似度得分见表1使用两个消费者健康问题的例子:“我的喉腺肿了，有什么办法吗?”和“血小板计数低”。

表1

SimQ计算类似问题的例子。

排名	类似的问题		相似性得分
	输入问题:“我的喉腺肿了，可以帮忙吗?”
1		喉腺肿痛吗?	0.7368
2		喉咙痛、腺体肿大?	0.6718
3.		喉咙肿，不能很好地吞咽?	0.6545
4		我的喉咙一直痛，腺体也痛。	0.5901
5		小舌肿痛，请帮忙?	0.5611
	输入问题:“血小板计数低?”
1		血小板计数减少?	0.8235
2		血小板计数低的原因是什么?	0.7906
3.		血小板计数极低?	0.7726
4		血小板计数下降?	0.7003
5		食物增加血小板计数?	0.5957

评价

为了评估SimQ方法的性能，从Yahoo Answers中选择了12个种子消费者问题作为输入问题。这些问题是从妇女健康、疾病和状况以及心理健康等不同类别中挑选出来的。两名独立于该项目的生物医学信息学家被招募来生成一个金标准，以评估SimQ问题检索引擎的结果。他们被要求手动选择与种子问题非常相似的网络问题。共有2000个随机选择的网络问题被用作候选库。评估者共选取246个消费者问题作为SimQ检索性能的正金标准。两个评估者之间的初始一致性为83%。然而，他们被允许讨论并就所有类似的消费者问题达成最终一致的协议，然后将其用作黄金标准。

我们还比较了使用不同特征表示的相似性分析的性能。表2显示了使用Dice系数和余弦相似度算法的SimQ结果。基线特征(B)是问题的词袋表示，这是NLP分析的标准表示。归一化特征(N)是经过专业词汇工具归一化的单词。词汇工具将复数术语和过去时态规范化为词干形式。概念特征(C)是语义标注过程中识别的UMLS概念。N+POS (P)特征是规范化术语及其句法词性标记的组合。N+Concept (NC)特性是标准化术语及其映射的UMLS概念的组合。N+C+Type (NCT)特征是珍贵特征(NC)和语义特征一节中描述的提取的语义类型特征的组合。

在表2，我们可以看到，在这个任务中，Dice相似度比cos相似度表现得更好。结果表明，词汇规范化、UMLS概念和语义类型提高了相似度分析。词性标注对相似性分析没有贡献。表现最好的是N+C+Type (NCT)特征，该系统的准确率为75.0% F-得分，准确率72.2%，召回率78.0%。

句法分析用于方便识别命名实体，并支持语义特征的构建[ 24］．词性标注被评价为一种句法特征。评价结果表明，词性并没有提高检索的性能。语义特征是由语义类型对构造的，这些类型对是从解析的依赖树中提取出来的。评价结果表明，语义特征改善了检索结果，而句法分析对检索结果影响不大。从我们的分析来看，语义特征的贡献主要体现在两个方面:(1)语义特征强化了关键的医学概念，降低了非医学概念的权重;(2)语义特征提高了无法直接从文本中确定的消费者问题的语义相似性分析。例如，“我眼睛模糊是高血压引起的吗?”和“HBP导致视力模糊?”“模糊视觉(CID:C0344232)高血压病(CID:C0020538)”具有相同的语义概念，以及相同的语义类型模式，“疾病-病因-征兆-症状”。图4表明在密切相关的主题组中存在许多重叠的语义关系(语义依赖对)。

表2

评估消费者问答相似度分析的不同特征表征(使用12个种子问题的平均12个实验)。

功能		真正的积极的	假积极的	真正的负	假负	精密%	记得%	F分数%
算法-余弦相似度
	基线(B)	12.83	7.67	1969.33	7.67	62.6%	62.6%	62.6%
	归一化(N)	12.67	6.67	1970.33	7.83	65.5%	61.8%	63.6%
	概念(C)	14.00	8.33	1968.67	6.50	62.7%	68.3%	65.4%
	N + POS (P)	11.67	7.67	1969.33	8.83	60.3%	56.9%	58.6%
	N+概念(NC)	15.00	7.50	1969.50	5.50	66.7%	73.2%	69.8%
	N + C +类型(NCT)	15.33	6.67	1970.33	5.17	69.7%	74.8%	72.1%
算法-骰子相似度
	基线(B)	11.33	3.17	1973.83	9.17	78.1%	55.3%	64.7%
	归一化(N)	15.50	10.33	1966.67	5.00	60.0%	75.6%	66.9%
	概念(C)	15.33	8.00	1969.00	5.17	65.7%	74.8%	70.0%
	N + POS (P)	11.67	5.67	1971.33	8.83	67.3%	56.9%	61.7%
	N+概念(NC)	14.33	3.83	1973.17	6.17	78.9%	69.9%	74.1%
	N + C +类型(NCT)	16.00	6.17	1970.83	4.50	72.2%	78.0%	75.0%

SimQ应用程序

为了演示SimQ的使用，我们开发了一个应用程序来补充NetWellness网站上现有的问答服务。图5SimQ的Web界面。NetWellness上最初的问答服务提示用户从120个类别中选择一个主题类别，然后允许消费者将他们的问题提交到特定的类别。协调器检查问题，然后确定用户分配的类别是否正确。如果问题被提交到正确的类别，协调员将把问题转发给卫生专家。

这个新的应用程序通过语义相似性分析增强了工作流(参见图5消费者首先向SimQ问题检索引擎提交他们的健康问题。SimQ分析问题并计算与Netwellness上存档的所有问题的相似性( 图5，步骤2)。将为消费者检索一个密切相关的相似问题列表。然后用户可以浏览过去发布的类似问题，并阅读相关的Q&As。此步骤使用历史知识提高消费者对运行状况问题的理解。用户还可以直接从存档的Q&As中找到问题的正确答案。在消费者阅读了类似的问答，并确定他们希望继续提交新的问题后，系统将自动推荐一个或多个主题类别，供他们考虑使用过去分配的最常见的主题，应用类似的问题( 图5这个重要的步骤解决了类别选择错误的问题，这个问题在基于web的公共问答服务中非常常见。错误的类别提交可能导致没有答案，甚至需要手动更正。上述应用表明，我们的方法可以集成到现有系统中，以提高问答工作流程的服务质量。

图5

SimQ在网络健康中的应用。

讨论问答检索

目前，在网上查找健康信息最常见的方式之一是通过搜索引擎。搜索引擎使用基于关键字的信息检索技术[ 25]，返回包含搜索关键字的排名Web页面。虽然返回排名靠前的文档在某些情况下是有用的，但这种类型的搜索通常不能满足用户的信息需求[ 26]，正如国际信息检索联盟TREC所讨论的那样。因此，尽管普遍使用搜索引擎，但基于社区的问答平台正变得越来越受欢迎，因为它们解决了人类(消费者或专家)回答健康问题的基本需求[ 7， 27］．NetWellness是一个非营利性平台，为消费者提供专家回答的建议，以解决他们的健康问题，这为消费者提供了宝贵的资源。

相关工作

SimQ方法与问答机(QAMs)有关，但本质上不同[ 16， 26］．QAMs旨在利用人工智能技术支持的计算机程序自动回答人类的问题[ 28］．目前存在各种类型的qam。在生物医学信息领域，AskHERMES [ 29是一个自动查找和过滤临床信息的系统，以帮助医生获得相关信息。帕特里克和李[ 30.]开发了一种本体论，对重症监护病房的问题进行分类。MiPACQ [ 31， 32是一个集成不同数据源来回答临床问题的系统。MEDLINE是最大的QAM数据库，包含2000万篇PubMed文章的引用。斯奈德曼等[ 33]评估了三种方法在使用MEDLINE回答临床问题时的表现，发现外部语义知识提高了其中两种方法的表现。机器自动回答问题仍然是一个非常具有挑战性的任务，特别是对于健康信息学应用。大多数机器回答系统只能对问题提供事实性的答案。对于涉及就消费者健康问题提出建议和/或意见的任务，特别是当问题以自由文本格式提出时，这些系统的表现仍不能令人满意[ 34］．例如，要回答“为什么福善美不能与雌激素同时服用?”这个问题，就需要复杂的推理能力和专业的药学知识。SimQ是完全不同的，因为它从存档的知识库中重用类似的问题来满足消费者的信息需求，以补充现有的机器应答系统的研究。因此，我们的研究重点是改进基于社区的问答服务而不是QAMs的信息检索。SimQ方法在存档的问答数据库中分析问题对问题的相似性，并检索相关的问答，以解决消费者的健康问题。据我们所知，这是第一个主要关注分析消费者健康问题相似性的研究。

误差分析

我们从SimQ检索结果中观察到两种类型的错误:假阳性结果和假阴性结果。假阳性结果(错误地包含问题)通常是由具有微小但重要差异的问题产生的。例如，SimQ检索查询，“我如何在一个月内减肥?”，因为“lose weight”和“gain weight”都有相同的语义类型，即发现。这两个问题包含相同的语义类型，患者群体和时间概念。唯一的主要区别是“减肥(CUI:C0043096)”和“增重(CUI:C0043094)”的概念。对于这种类型的错误，一个潜在的解决方案是将概念重要性排名纳入相似度分析。在生成特征向量时，重要概念具有较高的权重，用于计算相似度得分，从而提高检索结果。假阴性结果(错误排除的问题)通常是由复杂的问题引起的。例如，“我乳房有个肿块，是淋巴结还是肿瘤?”在语义上与“乳房肿胀是乳腺癌的征兆吗?”以人类的标准。 However, the SimQ similarity score is not very high. To address this problem, we need to add concept reasoning ability to the similarity analysis. In this example, the concept “breast lump (CUI:C0424849)” is a descendent of the concept “swelling (CUI:C0038999)”, and “breast cancer (CUI:C0006142)” is a descendent of “tumor (CUI:C0027651)”.

简短含糊的问题也会导致假阴性和假阳性错误。例如，在分析问题“Vitamin B6 deficiency”时，SimQ检索到假阳性结果“Vitamin B12 deficiency?”以及假阴性结果“维生素B6缺乏的症状是什么?”我们认为，解决由简短的模糊问题造成的错误的潜在方法包括根据重要性对问题元素进行加权和/或应用查询扩展技术。例如，扩展网络性问题的一种直观的方法是包括之前相似度分析的答案。然而，答案通常比问题复杂和长得多，因此要获得良好的结果仍然具有挑战性，特别是需要实时检索响应。整合问题和答案以改善检索结果将在我们计划进行的后续研究中进行检查。

限制

SimQ使用UMLS作为标准化的语义知识库。未来，我们计划利用其他医学知识资源进行语义标注，可以提供更细粒度的语义赋值，提高语义分析能力。此外，一些研究者指出，消费者健康词汇(CHV) [ 35]可以促进与消费者相关的自由文本的自然语言处理。由于提交给NetWellness的大多数问题都是关于消费者健康的问题，我们当前方法的自然延伸将是在未来的研究中评估消费者健康词汇的有效性。

结论

对消费者健康问题进行相似性分析，可以显著提高在线社区问答服务的质量和可及性。在本研究中，我们提出了一个新的应用程序SimQ，它结合自然语言处理和语义模式技术，分析消费者健康问题的语义相似性。评估结果表明，我们的方法有效地检索了NetWellness上的类似问题。结果表明，SimQ法的精密度最高，为72.2%，查全率为78.0% F-得分75.0%。我们通过为NetWellness网站设计一个新的问答管道演示了一个用例应用程序，该管道检索与用户的医疗保健类似的以前的问答。我们为NetWellness设计了一个新的问答管道，它可以检索以前类似于用户的医疗保健问题的问答。然后，我们通过一个特定的案例演示了SimQ的附加特性如何应用于健康消费者的查询，并将其集成到现有系统中，以提高问答工作流的服务质量。因此，我们已经证明SimQ不仅通过即时提供密切相关的问题和答案来减少响应延迟，而且还帮助消费者提高对其健康问题的理解。

多媒体附件1

相似度分析的源代码。

缩写

CTSC

临床和转化科学合作克利夫兰

NCATS

国家推进转化科学中心

NLP

自然语言处理

名词短语

POS

词性

常见问题

问答

平方

简单的问题

uml

统一医学语言系统

动词词组

VBZ

第三人称动词

这项工作得到了临床和转化科学合作(CTSC)的支持，授权号为UL1TR000439。CTSC得到了国家促进转化科学中心(NCATS)的支持，该中心是美国国立卫生研究院和NIH医学研究路线图的组成部分。

没有宣布。

张

信息偏好对消费者在线健康信息搜索行为的影响

J医疗互联网服务 2013 15 11 e234

10.2196 / jmir.2783

24284061

v15i11e234

PMC3869058

谢长廷

计数

年代

mimir:基于市场的实时问答服务

计算机系统中的人为因素SIGCHI会议论文集 2009

气09年

2009

波士顿

769 778

10.1145/1518701.1518820

亚当

拉

张

Bakshy

阿克曼

女士

知识共享和雅虎问答:每个人都知道一些东西

第十七届万维网国际会议论文集 2008

WWW 08年

2008

北京

665 674

10.1145/1367497.1367587

Berland

门将

艾略特

锰

莫拉莱斯

Algazy

Kravitz

布罗德

女士

Kanouse

德

穆尼奥斯

晶澳

普约尔

晶澳

劳拉

米

沃特金斯

柯

杨

麦格琳

互联网上的卫生信息:英语和西班牙语的可访问性、质量和可读性

《美国医学会杂志》 2001 285 20. 2612 21

11368735

joc02274

PMC4182102

莫里斯

助教

警卫

小

海洋

锡克

Haag

Tsipis

卡亚

鞋匠

年代

消费者健康信息传递中的公平性:NetWellness

美国医学信息协会 1997 4 1 6 13

8988468

PMC61192

崔

徐

罗

Wentz

年代

Scarberry

张

《GQ》

使用形式化概念分析对NetWellness中消费者健康信息进行探索性导航的多主题作业

BMC Med通知Decis Mak 2014 14 63

10.1186 / 1472-6947-14-63

25086916

1472-6947-14-63

PMC4131492

海洋

年代

Embi

McCuistion

米

Haag

警卫

小

NetWellness 1995 - 2005:作为一个非营利性的消费者健康信息和专家咨询服务，十年的经验和发展

AMIA年度诉讼程序 2005 1043

16779330

58376

PMC1560438

刘

唉

Coiera

电子战

网络搜索和社会反馈对消费者决策的影响:一个前瞻性的在线实验

J医疗互联网服务 2008 10 1 e2

10.2196 / jmir.963

18244893

v10i1e2

PMC2483845

全

克罗夫特

白平衡

李

在大型问答档案中寻找类似的问题

第十四届ACM信息知识管理国际会议论文集 2005

CIKM 05

2005

德国不莱梅

84 90

10.1145/1099554.1099572

麦茨勒

克罗夫特

白平衡

基于事实问题的统计问题分类分析

正检索 2005 1 8 3. 481 504

10.1007 / s10791 - 005 - 6995 - 3

斯奈德

使用涵盖数据库概念模型的问题模板自动回答问题

自然语言处理与信息系统“， 2002 2553 235 239

10.1007 / 3 - 540 - 36271 - 1 -大于

扁

刘

Agichtein

咋

在人群中找到正确的事实:在社交媒体上回答事实

第十七届万维网国际会议论文集 2008

WWW 08年

2008

中国,北京

467 476

10.1145/1367497.1367561

王

明

蔡

在基于社区的QA服务中查找类似问题的语法树匹配方法

第32届国际ACM SIGIR信息检索研究发展会议论文集 2009

" 09年

2009

马萨诸塞州的波士顿

187 194

10.1145/1571941.1571975

崔

卡特

张

《GQ》

消费者健康信息的新型联合探索性导航界面的评估:一项众包比较研究

J医疗互联网服务 2014 16 2 e45

10.2196 / jmir.3111

24513593

v16i2e45

PMC3936301

奥尔布赖特

Lanfranchi

一个

Fredriksen

一个

斯泰勒

华纳

黄

崔

Dligach

尼尔森

马丁

病房

帕尔默

米

Savova

临床叙述的句法语义综合注解

美国医学信息协会 2013 20. 5 922 30.

10.1136 / amiajnl - 2012 - 001317

23355458

amiajnl - 2012 - 001317

PMC3756257

Athenikos

汉

生物医学问题回答:一项调查

计算方法程序生物医学 2010 07 99 1 1 24

10.1016 / j.cmpb.2009.10.003

19913938

s0169 - 2607 (09) 00287 - 9

麦克雷

在

UMLS语义网络

1989

计算机在医疗保健中的应用年度研讨会

1989

华盛顿特区

503 507

坎贝尔

达

约翰逊

某人

基于转换的出院总结依赖语法学习器

2002

生物医学领域自然语言处理研讨会论文集

2002

费城

37 44

10.3115/1118149.1118155

罗

达菲

约翰逊

某人

翁

基于语料库的方法为UMLS的临床研究资格标准创建语义词汇

AMIA世界传播科学峰会 2010 2010 26 30.

21347142

PMC3041551

20.

约翰逊

某人

用于医学语言处理的语义词典

美国医学信息协会 1999 6 3. 205 18

10332654

PMC61361

徐

为了

妈

沙阿

使用一千八百万次MEDLINE引用对五百万个UMLS变义龙术语进行全面分析

AMIA年度诉讼程序 2010 2010 907 11

21347110

PMC3041393

Marneffe

价格上调

MacCartney

曼宁

从短语结构解析生成类型化依赖项解析

LREC会议记录 2006

第五届国际语言资源与评价会议

2006

意大利的热那亚

翁

吴

罗

博兰

先生

Theodoratos

约翰逊

某人

EliXR:一种资格标准提取和表示的方法

美国医学信息协会 2011 12 18补充1 i116 24

10.1136 / amiajnl - 2011 - 000321

21807647

amiajnl - 2011 - 000321

PMC3241167

罗

Yetisgen-Yildiz

米

翁

基于层次聚类的临床研究资格标准的动态分类

J生物医学信息 2011 12 44 6 927 35

10.1016 / j.jbi.2011.06.001

21689783

s1532 - 0464 (11) 00101 - 8

PMC3183114

页面

布林

年代

Motwani

Winograd

技术报告 1999

2015-02-08

斯坦福InfoLab

PageRank引用排名:为网络带来秩序 http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

6 wcjwjidj

vooorhees

新兴市场

TREC中的问题回答

第十届信息与知识管理国际会议论文集 2001

ACM CIKM

2001

亚特兰大,乔治亚州

535 537

刘

Agichtein

雅虎的发展历程QA社区

第31届国际ACM SIGIR信息检索研究与发展会议论文集 2008

" 08年

2008

新加坡

10.1145/1390334.1390478

布瑞尔

杜迈

年代

Banko

米

AskMSR问答系统分析

自然语言处理经验方法的ACL-02会议论文集 2002

EMNLP 02

2002

斯特劳斯堡,宾夕法尼亚州

257 264

10.3115/1118693.1118726

曹

刘

辛普森

Antieau

班尼特

一个

西米洛

伊利

余

AskHERMES:复杂临床问题的在线问答系统

J生物医学信息 2011 04 44 2 277 88

10.1016 / j.jbi.2011.01.004

21256977

s1532 - 0464 (11) 00006 - 2

PMC3433744

30.

帕特里克

李

米

关于病人病历内容的临床问题的本体

J生物医学信息 2012 04 45 2 292 306

10.1016 / j.jbi.2011.11.008

22142949

s1532 - 0464 (11) 00196 - 1

尼尔森

理查德·道金斯

Masanz

Ogren

病房

马丁

Savova

帕尔默

米

用于复杂临床问题回答的架构

第一届ACM国际卫生信息学研讨会论文集 2010

IHI的10

2010年11月11日至12日

弗吉尼亚州阿灵顿

美国弗吉尼亚州阿灵顿市

395 399

10.1145/1882992.1883050

凯恩斯

提单

尼尔森

理查德·道金斯

Masanz

马丁

帕尔默

女士

病房

Savova

门将

MiPACQ临床问答系统

AMIA年度诉讼程序 2011 2011 171 80

22195068

PMC3243235

Sneiderman

Demner-Fushman

Fiszman

米

Ide

数控

Rindflesch

以知识为基础的方法，帮助临床医生在MEDLINE中找到答案

美国医学信息协会 2007 14 6 772 80

10.1197 / jamia.M2407

17712086

M2407

PMC2213491

郭

他

焊接

将问题回答扩展到网络

ACM Trans Inf系统 2001 19 3. 242 262

10.1145/502115.502117

曾

谢霆锋

探索和发展消费者健康词汇

美国医学信息协会 2006 13 1 24 9

10.1197 / jamia.M1761

16221948

M1761

PMC1380193