医学互联网研究杂志-消费者健康词汇发展的术语识别方法

原始论文

¹决策系统组，布里格姆妇女医院，哈佛医学院，波士顿，马萨诸塞州，美国

²LHNCBC，国家医学图书馆，NIH, DHHS, Bethesda, MD, USA

^3.管理系统设计师公司，费尔法克斯，弗吉尼亚州，美国

⁴Aquilent, Inc, Laurel, MD, USA

通讯作者:

曾庆涛博士

哈佛医学院

决策系统组

布莱根妇女医院

弗朗西斯街75号，索恩304号

波士顿，马萨诸塞州02115

美国

电话:+1 617 732 7694

传真:+1 617 739 3672

电子邮件:qzeng@dsg.harvard.edu

背景:健康教育网站等消费者健康信息应用的发展，推动了消费者健康词汇的研究。词汇识别是词汇发展的一项重要任务。由于消费者表达的异质性和模糊性，CHV的术语识别比专业健康词汇更具挑战性。

摘要目的:为了开发CHV，我们探索了几种术语识别方法，包括协作人工审查和自动术语识别方法。

方法:建立了一套标准，以确保协作审查的一致性，该审查分析了1893字符串。利用人工评审的结果，我们测试了两种自动化方法——c值公式和逻辑回归模型。

结果:研究确定了753个消费者术语，发现logistic回归模型对CHV术语识别非常有效(接受者工作特征曲线下面积= 95.5%)。

结论:协作的人类回顾和逻辑回归方法对于识别CHV发展的术语是有效的。

医学信息学报，2007;9(1):1 - 4

doi: 10.2196 / jmir.9.1.e4

关键字

消费者健康信息；词汇表；自然语言处理

词汇发展的两个重要步骤是:(1)识别一个领域中的候选字符串(即单词或短语);(2)确定其中哪些应该作为“有效”术语包含在词汇表中，也称为“术语确定”。卫生词汇的发展有着悠久的历史，在收集候选术语和确定术语期限方面需要付出巨大的努力[1］．虽然诸如《医学系统化命名法》和《国际疾病分类第九次修订版》等词汇包括许多卫生术语，但对术语标准(即什么构成“术语”)尚无共识[2］．在词汇表中包含术语的决定是针对特定领域的某些任务(例如，索引或计费)做出的。因此，词汇表开发人员使用的审查标准和程序(通常没有公布)不可避免地会有所不同。健康词汇中包含的术语也有很大的不同。例如，在统一医学语言系统(UMLS)中，相同的概念通常在不同的源词汇表中用不同的术语表示。术语“头痛”和“颅痛”都是UMLS概念“头痛”的同义词。“头痛”的源词汇是DXplain，“颅痛”的源词汇是MeSH(医学主题标题)。

受控消费者健康词汇(CHVs)的研究和开发是健康词汇领域的一个相对较新的尝试[3.］．在一般的生物医学文献中，关于消费者对医学词汇和概念的理解的研究主要集中在不同专业中相对较短的离散术语列表上。在信息学领域，一些公司(如Apelon和WellMed)提供专有的CHV产品，尽管这些产品尚未公开评估。

我们CHV研究的总体目标是帮助克服消费者与信息学应用提供的健康信息之间的词汇差距。本文的具体目的是阐明chv的术语识别方法。CHV研究在很大程度上受到以下因素的推动:网上健康相关资料的激增、电子个人健康记录的出现，以及各种消费者健康应用程序(如决策支持工具)的日益普及。在过去的五年里，研究人员发现，现有的健康词汇并没有很好地涵盖消费者术语，这些词汇大多代表了健康专业人士的语言[4-9］．事实上，消费者用来描述与健康有关的概念以及这些概念之间的关系的表达，往往在多个层面(即句法、概念和解释)上与专业人员的表达不同。因此，消费者健康信息学研究和应用开发将受益于chv的发展。

开发和验证全面的CHV具有挑战性，因为“消费者”构成了大量高度多样化的群体。此外，个人从正式和非正式来源(例如媒体接触)和个人经历中独特地获得与健康有关的术语和概念。然而，有强有力的证据表明，在特定人群中，对于特定任务，非专业健康语言是稳定的[3.］．

我们一直致力于一个开放获取和协作(OAC) CHV项目。创建OAC CHV的第一步是识别消费者术语，因为表面形式(在书面文本中表示为字符串)比概念(即潜在含义)或语义关系更容易处理，这两者都需要深入了解术语用法、修辞意图和解释模型。因为消费者术语是多种多样的，甚至不如专业术语定义得好[10]，期限确定任务被证明是特别具有挑战性的。我们的术语识别工作遵循两个原则:

1.chv由消费者(在任何特定话语组中)常用的实际术语组成。

2.CHV条款必须允许计算机处理消费者语言。

由于许多专业健康词汇已经被消费者使用，尽管在某些情况下具有不同或更广泛的语义(例如，“糖尿病”用于糖尿病，1型和2型)，我们关注的是尚未在现有词汇中表示的消费者术语(例如，“手指骨折”用于“远端”，“中间”或“近端”指骨的任何类型的骨折)。

由于候选字符串的数量在任何领域通常都非常大，研究人员已经探索了使用基于语料库的自动术语识别(ATR)方法从特定领域的文档中提取最有希望的字符串供人类审查[11，12］．atr不同于基于统计或信息理论的方法(例如，t(测试)13]到基于语法的方法(例如，名词短语提取和上下文分析)[14]和混合机制(例如c值公式)[15，16］．这两个t试验和c值公式已成功地用于期的测定。这些研究强化了一般的概念，即通常被视为术语的字符串具有一些共同的特征，例如术语中的单词往往更频繁地出现在一起，术语通常是名词短语，术语可能是几个较长的字符串的一部分。

在生物医学领域，ATR方法已应用于Medline文献[17]及临床报告[15］．虽然生物医学领域之外的大多数ATR方法都是通用的，但生物医学领域的ATR方法往往更狭隘[18］．ATR针对的术语类型各不相同，在最近的一些研究中包括基因和蛋白质名称[18-21］．

在这项研究中，我们首先通过协作审查来自消费者健康网站查询日志的字符串来确定CHV术语[22］．由于非专业健康用语有相当大的可变性，因此制定了标准化的审查标准和程序，以确保选择CHV用语的一致性。在获得人类审查的n-gram(即n个单词字符串)之后，我们实验了两种ATR方法:逻辑回归和c值公式。回归模型中使用的初始特征是由现有的ATR方法告知的，特别是c值模型[16]和Wermter和Hahn提出的期限公式[12］．我们还评估了流行的c值方法。

我们在本研究中使用的atr与之前在生物医学领域的研究在两个方面有所不同:(1)使用查询日志中的短句作为文本语料库，而不是使用全文来源的完整句子;(2)识别尚未成为现有词汇表一部分的“新”CHV术语，而不是“已有”术语，如UMLS术语。

术语识别研究有三个组成部分:

从无法映射到UMLS的查询日志数据集中提取候选字符串
协作手动审查候选字符串子集和CHV术语的识别
ATR方法(c值公式和逻辑回归模型)在人工评审CHV项中的应用

候选字符串提取

我们获得了一组查询日志文件[22]，涵盖2002年10月至2003年10月期间，由美国国家医学图书馆(NLM)提供。日志数据经过预处理，过滤掉所有非英语查询，似乎是机器生成的查询(例如，在一分钟内来自同一IP地址的大量查询)，以及冗余的查询(即，来自同一主机的时间间隔少于5分钟)。

然后使用词法方法(即删除非字母数字符号、词根提取、规范化和截断)将预处理后的查询映射到2004年aa版的UMLS元词库。没有映射到UMLS元词典的查询被分解成n-gram。meta - thesaurus中匹配的n-gram被删除，剩下的n-gram根据单词的频率和数量被收集到集合中。

我们使用n-gram分析从未映射的查询字符串中查找候选术语。n-gram分析使用文本样本中n个单词的n-gram和文本片段的频率来估计字符串是潜在术语的可能性。一般来说，n-gram在文本文档中出现的频率越高，n-gram是“有用”术语的可能性就越大。

协同手工评审

六位研究人员(前六位作者)合作审查候选字符串(n-grams)。首先，每个审稿人独立审查n-gram (n = 1至4，频率> 50)中的一个子集，并投票决定是否应将其视为CHV术语。对n-gram的一致投票，至少有三个人审查，作为“主”投票。否则，任期由整个小组讨论，直到达成共识并投票表决。为了支持来自不同地理位置的审稿人并计算投票，一个专门设计的基于web的应用程序[23]被利用了图1）.

经过多次投票和讨论，我们确立了以下评审标准:

CHV术语应该是语法成分或短语，如名词短语或形容词短语(例如，“搭桥手术”是一个短语，但“发烧”不是)。要特别注意名词短语。
CHV术语应该具有独立的语义，不应该仅仅作为较长的有效术语的一部分或作为通配符搜索的一部分出现(例如，[chicken-， small-]“pox vaccine”不被认为是CHV术语)。
CHV术语应该是特定于医疗领域的(例如，“Google”和“Yahoo”是通用词，而不是CHV术语)。
CHV术语除了具有句法成分外，还应具有语义成分(例如，停止词“the”和“a”以及空动词“make”和“take”不被视为CHV术语)。
表示现有UMLS医学概念的n图被认为是CHV术语，但CHV术语可能表示非UMLS概念。
CHV术语的同名形式被认为是CHV术语(例如，“帕金森病”)。
CHV术语可能包括拼写错误(例如，“Chron’s disease”)。这些拼写错误的术语被贴上“贬损”的标签。
具有不同临床语义的术语(如“结果”)被认为是CHV术语，而不考虑其他领域的歧义和/或模糊。

我们挑出了几种类型的术语供未来研究，并为它们分配了特殊的标签:

meta:通常用来表示搜索或呈现的信息的类别/类型的术语(例如，“图片”、“指南”和“教程”)。
修饰语:通常不单独使用的术语，但用于限制或修饰其他术语(例如，“性的”，如“性活跃的”)。
关系:一个通常不单独使用的术语，但用于描述概念之间的关系(例如，“由”和“结果”)。我们还在这个集合中包括一元关系“not”。

目前，我们认为分类为元和修饰语的术语是CHV术语，但关系不被认为是CHV术语。

一旦建立了这些审查标准，研究人员就会再次检查之前投出的主票是否符合规定。第二轮讨论对投票结果进行了一些调整。

自动词汇识别(ATR)的应用

我们探索了使用两种ATR方法来促进人类评审的候选选择:(1)C值方法(C松散代表“候选集合”)和(2)逻辑回归。

我们将c值方法应用于已经检查过的字符串。首先，对字符串进行解析，过滤掉单个单词字符串和非名词短语的字符串。c值的计算采用公式[16]在文本框1中给出。

用此公式计算c值

值(一个) =日志₂|一个| * f (一个）如果一个没有嵌套

(当一个的子串是b,我们指的是一个嵌套的和b作为一个嵌套字符串。)

值(一个) =日志₂|一个| * (f (一个) - 1/p(T一个) *总和(f (b)）)如果一个是嵌套

一个=候选字符串(例如，" failure ")

b=嵌套字符串(例如，“心力衰竭”)

|一个| =的长度(字数)一个

f (一个) =的频率一个语料库中

T一个=组b包含一个

P (T一个) =的数量b在T一个

f (b) =的频率b语料库中

文本框1。用此公式计算c值

创建预测候选字符串的期限的逻辑回归模型一个,的句法类别、出现频率、词长、字数和词数、词频和词性状态一个将嵌套字符串作为变量，并使用主投票作为结果。人工审查字符串被用作训练和测试数据集。初始特征变量如下:

第一个词的词性标签(如名词或形容词)
最后一个单词的POS标签
名词短语状态(如yes/no)
字数(即文章中的字数)一个）
不同的数目一个嵌套字符串b
重复次数b
不同百分比b已知有效(UMLS)术语
重复百分比b已知有效(UMLS)术语
不同的数目一个嵌套字符串c
重复次数c
不同百分比c已知有效(UMLS)术语
重复百分比c已知有效(UMLS)术语
的频率一个
不同主机数h那一个起源于
包含的不同查询的平均数目一个每个主机

POS标记(变量1和2)的频率分布要求将它们分解为更少的类别以进行建模。最初的标签来自Mark Hepple开发的brill风格，基于规则的POS标记器[24］．我们首先将它们转换成一组较小的标签，供国家医学图书馆(NLM)的UMLS专家词典使用[25］．(有关转换规则的详情，请参阅[26]。)有几个标签出现频率较低，然后进行合并:将助动词和MODAL标签与动词合并，将连接词、限定词、NUMBER、SYM、UNKNOWN、PRONOUN和PREP标签合并为一个新的类别OTHER。

连续变量(变量4 ~ 15)根据中位数进行二分类。在逻辑回归中使用二分类变量来预测或解释一个术语被投票为“是”的可能性。

采用逐步回归方法建立logistic回归模型。在计算优势比估计值后，大多数变量被删除。剩余的变量1、2、3、6、10、15在回归公式中分别表示为FirstPOS、LastPOS、np_value、repeat_sup_gt_median、repeat_sub_gt_median和distinct_perhost_gt_median。

对于c值公式和回归模型，我们计算了不同阈值下的敏感性和特异性，以创建受试者工作特征(ROC)曲线。为了估计logistic回归的ROC曲线下面积，我们使用c-statistic [27(注意，这与C-value不同)。它有以下含义。从最后的多变量逻辑回归模型中，可以计算出每个任期被投票为“是”的预测概率。对于任意两个项，一个投“是”票，另一个投“否”票，如果预测投“是”票的概率高于预测投“否”票的概率，那么我们就有一个一致的对。如果预测投“不”票的概率更高，那么我们就有一个不一致的配对。如果这一对既不和谐也不不和谐，那么它就被捆绑了。让T是所有项中所有可能的是-否对的总数。让C为一致对的个数，和D不一致对的数目。c统计量计算为c= (C+ 0.5 (T−C−D)) /T。

我们确定了18454个候选n-grams (n = 1至5);7967个至少被一个审稿人审查过，1893个不同的n-gram获得了主投票(表1）.在主投票的n个gram中，元投票23个，修饰语39个，关系投票5个。

表1。主投票的n克数和作为CHV项投票的n克数

语法	总票数	CHV条款数目
掉落	379	261
2克	1101	303
3-gram	356	154
4克	57	35
总计	1893	753

逻辑回归模型见图2。在这个逻辑回归模型中，语法信息(前9个变量)和嵌套模式(后3个变量)决定了术语期。语法信息的重要性早已被c值等模型所认识。值得注意的是，我们的模型中缺少单词计数和频率，尽管更长的和更频繁的字符串更有可能被视为术语。在很大程度上，长度和频率由嵌套模式反映:非常短的字符串可能是许多嵌套字符串的一部分，而不太频繁的字符串可能是更常见的单词的巧合组合，这意味着它将有更多的嵌套字符串。

c值与回归模型的ROC曲线见图3。c值法的ROC曲线下面积(AUC)为70.9%，回归模型为95.5%。AUC越高，区分能力越强:100% =完全区分能力，50% =没有能力，< 50% =预测方向错误。因此，AUC结果表明回归模型在识别CHV项方面非常有效，并且优于c值。

本文报道了OAC CHV项目的几种术语识别方法。我们建立了一套标准和程序来进行人工审查，结果多名审稿人就1893 n-gram达成了共识，包括确定了753个新的术语，这些术语没有在2004AC版本的UMLS中纳入OAC CHV。

OAC任期标准是合作建立的，反映了审稿人在几个不同领域的背景:控制词汇、健康信息学、语言学、认知科学和计算机科学。虽然OAC的术语标准可以进一步完善，而且卫生词汇的术语标准往往没有公布，但我们认为公布这些标准可以有利于词汇研究。例如，许多文章评价词汇和研究将一个词汇映射到另一个词汇的方法[28-31］．这些评价和映射方法可以更好地以目标词汇的术语标准为指导。

在CHV研究中，期限问题特别重要，因为关于什么应该被视为消费者期限的讨论有限，几乎没有共识。“太阳中毒”是一个可以接受的术语吗?那“皮肤状况”呢?正如引言中所指出的，卫生专业词汇并不总是一致的术语。然而，消费者表达式需要更多的审查，因为很难确定它们的语义和使用上下文。

我们测试了两种ATR方法(c值和逻辑回归)对人类审查的n-图。c值可用于确定期，但其鉴别能力不高(AUC = 70.9%)。logistic回归模型的AUC为95.5%，相当令人满意。

这些结果表明，根据我们的标准，一个特殊拟合的逻辑回归模型比一般的c值方法更适合于识别CHV项的任务。c值方法的性能问题部分是由该数据集特有的问题引起的，其中包括不常见的拼写错误和大多数候选词的高频率，这使得频率成为不太可靠的预测因子。虽然相对较短的查询字符串给解析带来了更大的挑战，但名短语解析中的缺陷并不意外。与许多词汇表一样，OAC包括单个单词而不是名词短语的字符串，而c值通常是为多单词名词短语计算的。

logistic回归模型对OAC期限的确定具有良好的适用性。由于基于查询的语料库属性的特殊性，例如文档的长度较短，因此可能必须对其进行修改，以便与其他语料库或其他类型的词汇表一起使用。尽管如此，为特定的语料库和词汇训练预测模型是一种可推广的策略。尽管存在一般原则，但确定哪些字符串应被视为合法的词汇表术语通常取决于领域和词汇表开发人员的标准(例如，包括动词短语[15[或不]。

回归模型利用了句法和嵌套模式特征;这两种特征都是公认的期限指标。在CHV研究中经常出现的一个问题是，消费者短语的语法和语义太难以控制，无法用可计算的词汇表来表示。许多消费者用语具有共同的术语特征，这一事实表明它们是易于处理的术语。

我们的研究有一些局限性。由于消费者的话语不容易作为医学文献或临床记录的语料库获得，我们使用了包含相对较少完整句子的查询日志。随后，这导致了许多词性和名词短语分析错误。此外，由于预算和物流限制，我们只有研究人员而不是普通消费者来审查候选条款。然而，该分析是基于数万名消费者提交的查询中的话语。

基于本研究的结果，我们计划将逻辑回归模型应用于候选n-gram，并选择那些预测为人工评审的术语。我们还计划将确定的CHV术语添加到OAC中。与NLM相关的作者有兴趣研究类似的技术，以帮助识别候选术语，以便纳入NLM的专家词典，并进行质量控制。

致谢

我们感谢国家医学图书馆(NLM)分享MedlinePlus查询日志数据。这项工作得到了美国国立卫生研究院(NIH)拨款R01 LM07222和美国国立卫生研究院(NIH)内部研究计划(NLM)的支持。

利益冲突

没有宣布。

槽CG。临床分类和术语:一些历史和目前的观察。中华医学杂志，2009;7(3):391 - 391 [J]免费全文] [Medline］
西米洛JJ。二十一世纪受控医学词汇的需要。方法中华医学杂志1998年11月;37(4-5):394-403。［Medline］
曾秋冬，谢涛。消费者健康词汇的探索与发展。中华医学杂志，2006;13(1):24-29 [J]免费全文] [Medline] [CrossRef］
链接病人和临床信息:检测电子邮件中的UMLS概念。中华生物医学杂志2003;36(4):334-341。［Medline] [CrossRef］
曾琦，高根S, Ash N, Greenes RA, Boxwala AA。健康信息检索用消费者术语的特点。方法中华医学杂志2002;41(4):289-298。［Medline］
麦克雷AT, Loane RF，布朗AC，班加罗尔AK。用户访问基于web的医疗信息中的术语问题。协会会议1999:107-111 [免费全文] [Medline］
谢涛。“消费者医学词汇”的识别与表征。马里兰大学;2003.
Patrick TB, Monga HK, Sievert ME, Houston Hall J, Longo DR.开发糖尿病消费者入门词汇的受控词汇资源评估。[J] .中国医学信息学报，2001;3(3):824 [J]免费全文] [Medline] [CrossRef］
史密斯CA，斯塔夫里PZ，查普曼WW。用他们自己的话说?给癌症信息服务的电子邮件的术语分析。程序AMIA Symp 2002:697-701。［Medline］
消费者健康的受控词汇。中华生物医学杂志2003;36(4):326-333。［Medline] [CrossRef］
王晓明，王晓明。生物医学文献中术语识别的研究进展。中华生物医学杂志，2004;37(6):512-526。［Medline] [CrossRef］
王晓华，王晓华。生物医学文献中学期期的有效评分。中国科学院学报，2005:809-813。［Medline］
邱琪，韩汉平，韩德德。统计学在词汇分析中的应用。编辑:Zernik U。词汇习得:利用网络资源构建词典。希尔斯代尔，新泽西州:Lawrence Erlbaum Associates, Inc;1991.
Basili R, Pazienza MT, Zanzotto FM。对术语提取的语法上下文信息进行建模。In: In:自然语言处理最新进展会议(RANLP2001)。保加利亚齐吉夫·查克;2001年9月5日
Harris MR, Savova GK, Johnson TM, Chute CG。用于扩展功能、残疾和健康领域内容的术语提取工具:概念证明。中华生物医学杂志2003;36(4):250-259。［Medline] [CrossRef］
Frantzi KT, Ananiadou S, Mima H.多词术语自动识别:c值/ nc值方法。数字图书馆[J]; 2000;3(2):115-130。［CrossRef］
张建军，张建军，张建军，等。生物医学文献中分子结合术语的挖掘。会议议程1999:127-131 [免费全文] [Medline］
冯德华，李建军，李建军，等。一种蛋白质名称识别方法及其应用前景。BMC Bioinformatics 2005;6增刊1(增刊1):S15 [j]免费全文] [Medline] [CrossRef］
李建军，李建军，李建军，等。基因调控蛋白网络的提取。生物信息学2006年3月15日;22(6):645-650。［Medline] [CrossRef］
李建军，李建军，李建军，等。模型生物基因调控的大规模提取。中国生物医学工程学报，2005;5(1):21-32 [j]免费全文] [Medline］
Cohen AM, Hersh WR, Dubay C, Spackman K.利用共现网络结构从MEDLINE摘要中提取同义基因和蛋白质名称。生物医学信息学报，2005;6(1):103 [j]免费全文] [Medline] [CrossRef］
曾国涛，谢涛，郭卫东，陈建平，陈建平。基于CFD的健康概念显示名称识别。中国科学院学报，2005:859-863。
郭文杰，曾强，谢涛。一个支持消费者健康词汇发展的web应用。AMIA年度会议程序2005:932。［Medline］
独立与承诺:基于规则的词性标注器快速训练与执行的假设。计算语言学协会第38届年会论文集(ACL-2000)。二零零零年十月，香港。Midtown, NJ:计算语言学协会;2000:278 - 285。
布朗A，麦克雷A，斯里尼瓦桑S.专家词典。报告号码:NLM-LHC-93-1。Bethesda, MD: Lister Hill国家生物医学传播中心，国家医学图书馆;2000.
标签集成的注意事项。URL:http://mmtx.nlm.nih.gov/taggerNotes.shtml[2006年10月23日访问]
汉利JA，麦克尼尔BJ。接受者工作特征曲线下面积的意义和用途。放射学杂志1982;143(1):29-36。［Medline］
生物医学文本到UMLS元词典的有效映射:元地图程序。AMIA会议2001:17-21。［Medline］
西米洛JJ。用语义方法审核统一医学语言系统。中华医学杂志，1998,5(1):41-51 [J]免费全文] [Medline］
Bodenreider O, Nelson SJ, Hole WT, Chang HF。超越同义词:在映射词汇表中利用UMLS语义。会议1998:815-819。［Medline］
张建军，张建军，张建军。健康数据术语覆盖的评价:NLM/AHCPR大量表词汇测试结果报告。中华医学杂志，1997;4(6):484-500 [J]免费全文] [Medline］

‎

ATR:自动文本识别

AUC:曲线下面积

CHV:消费者健康词汇

国家卫生研究院:美国国立卫生研究院

NLM:国家医学图书馆

OAC:开放获取和协作

POS:词性

中华民国:接收机工作特性

uml:统一医学语言系统

G·艾森巴赫编辑;提交23.10.06;Patrick的同行评审;对作者的评论21.11.06;修订版本收到21.11.06;接受22.02.07;发表14.03.07

©曾庆t, Tony Tse, Guy Divita, Alla Keselman, Jon Crowell, Allen C Browne, Sergey Goryachev, Long Ngo。原发表于2007年3月14日的《医学互联网研究杂志》(//www.mybigtv.com)。除非另有说明，发表在《医学互联网研究杂志》上的文章是在知识共享署名许可(http://www.creativecommons.org/licenses/by/2.0/)的条款下发布的，该许可允许在任何媒体上不受限制地使用、分发和复制，前提是正确引用原创作品，包括完整的参考书目细节和URL(见上面的“请引用”)，并包括本声明。

本文内容如下e-collection /主题问题:

消费者健康词汇开发的术语识别方法