医学互联网研究杂志——通过挖掘社交网络数据计算机辅助更新消费者健康词汇

原始论文

犹他大学生物医学信息系，犹他州盐湖城，美国

*所有作者贡献相同

通讯作者:

Kristina M do - harris, BCompSci硕士，硕士，博士

犹他大学

生物医学信息系

HSEB 5775室

26 s 2000 e

盐湖城，德州，84112

美国

电话:1 801 518 8636

传真:1 801 581 4297

电子邮件:kristina.doing-harris@utah.edu

背景:消费者健康词汇表(chv)已被开发用于帮助消费者健康信息学应用。如果词汇表随着消费者语言的变化而变化，就能最好地达到这个目的。

摘要目的:我们的目标是创建一个计算机辅助更新(CAU)系统，该系统与实时语料库一起工作，以确定新的候选术语，以纳入开放获取和协作(OAC) CHV。

方法:CAU系统由三个主要部分组成:Web爬虫程序和HTML解析器、利用自然语言处理工具(包括术语识别方法)的候选术语过滤器以及人工审阅界面。在评价中，CAU系统应用于与健康相关的社交网站PatientsLikeMe.com。系统的效用是通过将其生成的候选术语列表与从抓取的网页文本中手工提取的有效术语列表进行比较来评估的。

结果:CAU系统在300个爬行的PatientsLikeMe.com网页中识别出88,994个1- 7克的独特术语(“n-grams”是句子中n个连续的单词)。对抓取的网页的人工审查确定了651个有效术语尚未包括在OAC CHV或统一医学语言系统(UMLS) mettathesaurus中，这是一个合并形成医学术语本体的词汇集合，(即每136.7个候选n-grams中有一个有效术语)。词汇过滤器筛选出774个候选词汇，其中有效词汇237个，即每3个或4个候选词汇中就有一个有效词汇。

结论:在CHV开发过程中，CAU系统对于生成供人工审查的候选术语列表是有效的。

中国医学杂志，2011;13(2):e37

doi: 10.2196 / jmir.1636

关键字

消费者健康信息；词汇表；自然语言处理；自动术语识别；数据挖掘；社交网络

受控词汇表在生物医学信息学应用的发展中扮演着重要的角色，因为临床、文献计量和研究应用需要对数据进行编码，以便于检索和分析。已经开展了研究和开发活动，以提供标准化的卫生词汇表，例如，SNOMED(医学系统化命名法)和LOINC(逻辑观察标识符名称和代码)。在过去，这些词汇集中于专业人士的语言，但最近消费者健康词汇(CHV) [1]的重要性日益突出，因此CHV研究得到了认可。

由于语言本身的不断发展，控制词汇需要维护和更新。2-4］．几个世纪以来，这种演变一直体现在词典的定期更新和修订上[5，6］．服务于电子应用程序的受控词汇表也不例外。在与正在进行的研究和开发相关的领域，维护和更新词汇表的需求特别高。随着新发现的出现，新词被添加到词汇表中。特别是在医疗保健领域，有源源不断的新名称(例如，新的药物、疾病和测试)[7］．

专业人员使用的新健康术语经常以某种形式迁移到流行用语中。例如，这个术语质谱计30年前闻所未闻，但现在很多外行人都能认出它是一件实验室设备。虽然脱氧核糖核酸DNA是学龄儿童的词汇。媒体在术语迁移中也发挥了作用。例如，在2009年，媒体报道引入了新的词汇，如流感大流行，猪流感，甲型H1N1流感，能量消耗,统一支付系统变成流行的语言。同样，健康术语的含义和流行程度也在外行使用中发生变化或演变。例如，外行使用这个词是很常见的厌食症指概念神经性厌食症尽管是在医学文献中厌食症只指食欲不振。

为了有效，CHV必须跟上消费者使用的语言的变化[1］．本文描述了一个计算机辅助更新(CAU)系统，该系统使用在线社交网络作为健康相关术语的活语料库。该系统使用字典查找和自动术语识别的自然语言处理(NLP)技术来解析和筛选术语。因此，新的候选术语被确定为开放获取和协作(OAC) CHV。

背景

在本背景部分中，我们将首先简要回顾用于更新受控健康词汇表的先前研究和当前实践。接下来，我们将讨论用于从文本语料库中识别有效术语的自动化方法。然后，我们将重点转移到提供OAC CHV研究的背景信息。最后，我们将描述使用带有自动术语识别的实时语料库来更新OAC CHV的基本原理。

更新受控运行状况词汇表

先前的研究发现，几乎所有大型受控健康状况词汇表都有类似的核心维护过程[8］．Bakhshi-Raiez等人描述了一个用于维护受控健康状况词汇表的框架。他们将受控的健康词汇表称为医学术语系统。他们的框架由四个部分组成。他们框架的主要组件是“执行”。这涵盖了维护过程的核心活动，包括:更改建议的收集、更改建议的验证、更改的实施、更改的验证、建议和已实现的更改的文档化，以及版本管理。另外三个组件，即“过程管理”、“变更规范”和“编辑工具”，支持“执行”。Bakhshi-Raiez等人对37个TSs进行了调查。他们根据每个系统中包含的概念数量将TSs组分为四分位数。与本文相关的四分位数是四分位数IV，其中包含了超过46155个概念的系统。 Quartile IV would include the OAC CHV, which has 58,319 concepts. For the execution component, almost all of the quartile IV systems satisfied the main criteria, that is, 67% included standardized change proposals, 100% validated the change proposals, 100% had maintenance teams that verified accepted proposals, 100% had structured and standardized documentation, 100% documented changes made, and 100% produced new versions with unique id’s, while only 70% produced twice yearly updates. The CAU system we describe here is designed to automate the production and collection of change proposals and then assist with the validation of those proposals.

TS变更提案的生成和收集及其验证的当前实践通常涉及通过电子邮件或互联网收集提案，并由专家团队对其进行验证。例如，有一个基于web的语义MediaWiki系统，用于维护国家癌症研究所的mettathesaurus条目[9］．统一医学语言系统(UMLS)中包含的专家词典从文献和多个词典中收集词汇[10］．医学主题标题(MeSH)部分工作人员根据新兴研究领域的科学文献不断修订和更新MeSH词汇，在现有词汇的上下文中定义这些术语，并建议将其添加到MeSH [11］．在一次个人交流中，MeSH的负责人Stuart Nelson估计，他有20%的时间用于更新和修订。还有6名全职MeSH分析师。显然，词汇表维护是一个劳动密集型的过程，其效率可以通过所提出的CAU系统得到提高。自动化的第一步是生成和收集变更建议，在所有大型词汇表的维护过程中，有三分之一缺乏标准化[8］．

生物医学领域的术语自动识别

自动生成更改建议的一种方法是通过自动术语识别(ATR)在文本语料库中识别有效的候选术语[12，13］．ATR研究与命名实体识别(NER)学科重叠。ATR指的是搜索一般类型的术语而不是命名实体的系统。当一个术语被映射到一个本体或术语字典时，它就成为一个命名实体，这将给出该术语在其所在文档之外的上下文中的含义。一般术语没有如此广泛的含义。生物医学NER系统的例子包括Termoid、MetaMap和Bio-tagger [14-16］．生物医学atr的例子有Collier等人用于识别基因名称和基因产物的隐马尔可夫模型，以及Frantzi等人的“c值”和Zeng等人的“期限”评分[17-19］．

由于在我们的研究中使用了c值和学期分数，我们将在这里简要地描述它们。c值方程使用部分语音标记数据，并将候选术语限制为名词短语。使用一个开放的语言过滤器可以获得最好的结果，该过滤器返回名词短语，其中包括多个形容词和名词[18］．然后，使用候选词的出现频率，结合其作为其他较长的候选词的一部分的出现频率，以及较长的候选词的数量及其长度，计算出c值。扩展c值，术语逻辑回归方程(术语评分)由Zeng等人开发，用于识别多词消费者健康术语，包括那些非名词短语[19］．用于训练基于逻辑的模型的特征包括术语组件的词性，候选术语出现的频率，以及所述候选术语在较大和较小的替代候选术语中出现的频率。Zeng等人使用已经经过人工审核的字符串比较了c值和任期评分，发现在他们的数据集上，任期评分优于c值[19］．

消费者健康词汇

该CAU系统的开发是OAC CHV研究计划的一部分。OAC CHV的开发采用了一种分阶段的、分布式的、基于用户源的方法[1］．为纳入新术语，我们制定了七项人工评审准则[19:(1) CHV词应是句法成分或短语，如名词短语或形容词短语;(2) CHV术语应该具有独立的语义，不应该仅作为较长有效术语的一部分或作为通配符搜索的一部分出现;(3) CHV术语应针对医疗领域;(4) CHV术语应发挥语义成分的作用;(5)代表UMLS概念的“n-grams”(n-grams是一个句子中连续的n个单词)被认为是CHV术语，但CHV术语可以代表非UMLS概念;(6) CHV术语可以是同名形式;(7) CHV术语可能包括拼写错误。这些标准指导了本研究中的人工审查;当前版本的CHV包含152,778个条目，代表58,319个概念。

生活全集

从一开始，对CHV的研究依赖于包含消费者话语的文本语料库。尽管大多数文本语料库是从患者电子邮件、在线论坛、查询日志和社交网络等实时来源收集的[16-20.]，它们被视为静态数据集进行分析。在这项研究中，我们的目标是直接利用实时资源。由于社交网站(包括与健康相关的社交网站)的快速增长及其公共可用性[21，我们选择在社交网站PatientsLikeMe上测试CAU系统。我们的实验室与PatientsLikeMe有合作关系，这促进了使用网站的许可。然而，CAU系统也可以与其他类型的活动源一起工作。

patientslikeme是一个在线社区，用于支持患者之间的信息交换。该网站提供针对特定疾病的定制结果和可视化工具，以帮助患者了解和分享有关其病情的信息[22，23］．该网站的私人页面是为患者输入症状和跟踪他们的疾病而设计的。另一方面，公共页面包括站点管理提供的信息和用户共享的信息摘录。因此，公共页面包含专业人士和非专业人士使用的语言。专业人士使用的一个例子是，“ALS，或肌萎缩性侧索硬化症，是一种由运动神经元退化引起的神经退行性疾病。”外行用语的一个例子是，“……我首先想到的可能是你的问题是营养不良。天啊，你瘦得真快。如果你愿意的话，我想你最好考虑买支管。”通过坚持使用公共页面，我们计划在不侵犯用户隐私的情况下利用网站的社交网络方面。

我们设计了CAU系统，使用NLP方法的组合来挖掘Web内容:字典查找、c值ATR和术语ATR。我们的目标是发现消费者使用但尚未包含在现有词汇中的与健康相关的新术语。最佳的候选术语列表应该包含少量的术语，同时在人工审查后提供合理的高有效术语的产量。

系统架构

CAU系统架构如图所示图1．它由三个处理阶段组成，阶段1、阶段2和阶段3。阶段1是获取原始文本、解析和提取n-gram(即一组单词)的阶段。这个阶段包括三个子阶段:爬行、解析和n-gram提取。

爬行

在爬行子阶段，系统对Web上的公共页面进行爬行。爬行包括导航到主页，收集到队列中其他页面的所有链接，依次导航到这些页面，并将找到的任何链接添加到队列的末尾。这个循环一直持续到队列的末尾，或者直到访问了预定义数量的页面。处理每个页面的其余内容的方法是删除HTML标记，在文本块的末尾添加句点，然后添加多个新行，并保存生成的文本。

解析

在解析子阶段，系统使用开源的自然语言处理应用程序Health Information Text Extractor (HITEx) [24来识别词性、名词短语和命名实体。HITEx是一个NLP系统，它包含一个OpenNLP解析器，并为NER使用MetaMap。

语法提取

在n克提取子阶段，系统提取重叠的n克(1 ~ 7克)。重叠是指一个单词可以包含在多个n音节中。对n-gram进行过滤，以保留由HITEx标识为名词短语、包含动词的n-gram(即潜在的动词短语)和包含单词的n-gram症状．包含数字或符号的N-grams在这一点上被排除。这种语言过滤策略是基于Frantzi等人的发现，c值ATR在开放语言过滤器下产生了更好的结果[18］．从英语中最常见的1000个短语(如:一个小，几，我们非常喜欢它) [25］．在停止列表中找到的术语将被排除，并在此时收集频率信息。

阶段2是进一步使用NLP技术识别n-grams列表中的候选术语的阶段。该阶段包括三个子阶段，两个字典类型的查找阶段，UMLS/CHV筛选子阶段和VA医疗记录术语筛选子阶段，以及一个ATR阶段，ATR筛选子阶段。

uml / CHV过滤器

鉴于我们对发现新术语的兴趣，我们在当前的CHV列表和UMLS Metathesaurus中查找了n-grams。为了确保使用最新版本的UMLS (2010AA)，使用UMLS Web服务检查n-grams。UMLS或CHV中不存在的n-gram标记为非CHV。

VA医疗记录术语过滤器

为了从非chv n-grams中过滤非医疗术语，我们从美国退伍军人事务部获得的70000例肌萎缩性侧索硬化症(ALS)、帕金森症和多发性硬化症(MS)患者的医疗记录数据库中查找了它们，这些患者的日期为1998年1月1日至2008年12月31日。这些记录包含广泛的医疗主题和笔记类型。它们并不局限于神经病学或三大疾病。这些记录是由我们部门内部审查委员会(IRB)批准的另一个小组获得的。IRB批准该组的一名成员为我们将术语与此数据库进行比较，并返回是/否的答案。所有的项，返回是的被输入数据库以供将来比较。我们将此数据库称为VA医疗记录术语数据库。

ATR过滤器

计算出两个ATR评分，即term和C-value。使用Zeng等人[19］．c值的计算采用Frantzi等人[18］．

第三个阶段是人工(专家)审查阶段。在此阶段，候选条款将提交给专家合作审查。为了帮助这个过程，我们为OAC CHV创建了一个互动网站。经过批准的审查人员可以访问站点并推荐url以包含在爬虫中，审查候选术语，审查最近的候选术语评论，并审查CHV首选名称。在审查候选术语时，审查员可以投票支持或反对将某个术语纳入OAC CHV，查看所有术语的频率和票数，并在该术语所在网页的上下文中获得该术语的三个示例。审查人员也可以在不注册投票的情况下对候选术语进行评论。每个评审员只能为一个术语投票一次。公众可在CHV Wiki上浏览术语列表，选择候选术语，并点击他们想要评论的术语，对候选术语进行评论。

评价

通过爬取patientslikeme网站，检查确定的候选术语并计算有效术语率(即有效术语占总候选术语的百分比)，对系统进行了评估。出于本文的目的，协作性人工评审的最后阶段被创建有效术语列表所取代，该列表作为本研究的黄金标准。有效的术语列表由第一作者手动从网页中提取，并过滤以排除已经在UMLS/CHV中表示的术语。通过查看爬行中遇到的前300个页面，生成了一个包含651个术语的有效术语列表，我们认为这个列表对于这个实验来说已经足够大了。因此，我们将系统的处理限制在这些页面上。

为了评估有效术语列表的准确性，一个专家评审员小组(两名医生和两名联合医疗人员)审查了在我们的VA医疗记录术语数据库中从网页的初始解析中发现的100个随机的非chv术语。使用Hripcsak和Rothschild中讨论的平衡f测度来评估每个专家对金本位有效术语表的同意[26］．f值分别为0.94、0.86、0.94和0.91，这表明被选为有效的术语确实有效，有效的术语并没有被遗漏。

阶段1

爬虫访问了PatientsLikeMe.com网站(标记为A在图1)公众网页。解析和n-gram提取阶段(在中标记为B和C)图1)发现了88,994个n-grams。n-gram列表包含有效术语列表中的所有651个术语。

第二阶段

在UMLS/CHV滤波阶段，CHV/UMLS中发现了1045个(总数的1%)n-grams。非chv任期的总数仍然很大，为87,949个。

VA医疗记录术语过滤阶段过滤掉了大部分n-grams。它消除了除923个n-grams(减少了99%)以外的所有术语，并从有效术语列表中消除了除215个术语以外的所有术语(减少了67%)。

在这个阶段，被淘汰的有效术语列表中的大部分术语都很长(例如，下颌骨注射麻痹了吞咽肌)、品牌名称(例如:Nurofen)、组合术语(例如:脂肪代谢障碍脂肪萎缩)，或生化术语(例如，L-methyfolate Metafolin)．这些术语的丢失令人担忧，但如果与更大的医疗记录数据库进行比较，就有可能找到它们。其他有效术语列表中的术语被排除在外的是消费者术语(例如，脑雾而且时间损失)，这些情况通常不会记录在医疗记录中。

在ATR过滤阶段，通过对ATR评分应用阈值来构建两个过滤器。使用的第一个过滤器是基于术语评分，并应用于VA医疗记录术语数据库中发现的每个非ch n-gram。从图2可以看出，超过阈值的词汇数逐渐下降。阈值在3.4和3.6之间时，有效术语的产量最高。选择这些阈值中较高的阈值(3.6)可以识别出622个候选术语(累计减少99.3%)，其中189个来自有效术语列表(累计减少69%)，有效术语产量为30%。被排除的有效条款包括衰弱症状而且母乳喂养．

第二种滤波器基于c值，适用于所有非chv n-grams。从图3可以看到，超过这一阈值的术语数也逐渐下降。有效术语的最佳产量在阈值为15时(170个术语，减少93.7%，有效术语列表中有62个，减少90%)，产量为36%。这一结果比使用VA病历术语过滤器的术语率高，但返回的候选术语数要低得多。这里排除的一些有效术语是包含该单词的格式错误短语症状(例如,衰弱症状，抽筋的症状)，而其他人可能更令人担忧(例如，步履蹒跚，抬不起脚)．

当c值阈值与期限阈值相结合时，在有效期限收益率保持在30%左右的情况下，备选期限增加，剩余期限为774个，有效期限为237个。结合过滤器仅通过术语过滤器就可以捕获48个以上的有效术语，包括膝盖以下腿冷，语音增强装置，反酸GER胃食管反流x。

研究结果总结在表1．表2包含标识的候选术语的示例列表。

表1。CAU处理每个阶段的结果

处理阶段	系统阶段 (详见图1）	候选人条款	有效的条款
1.最初的解析	1	88994年	651
2.CHV / uml过滤器	2	87949年	651
3.退伍军人事务部医疗记录术语过滤器	2 b	923	215
4.ATR过滤器1:任期评分(阈值3.6)(仅限VA医疗记录术语)	2摄氏度	622	189
5.ATR滤波器2:c值(阈值15)(所有术语)	2摄氏度	170	62
阶段4和5滤波器组合	2摄氏度	774	237

表2。已识别的有效和无效候选术语的示例列表(按发现它们的格式和无特定顺序显示)

已识别的候选术语样本
有效的条款	无效的条款
管理副作用 Bi-Pap 手的弱点迪维克(氏)视神经脊髓炎	没有保护职业调查机动的躺椅箴0 MSA多系统健身根据尤其癫痫大发作唾液控制	酸化 Permobil 左乙拉西坦治疗报告普拉提治疗报告将对乙酰氨基酚一直以来 Hoveround 应对海参III GR

第三阶段，专家评审阶段，在本研究中被有效术语列表作为金标准的使用所取代。

主要结果

我们开发了一个词汇维护系统，并在patientslikeme网站上进行了测试。系统首先识别出非常多的n-grams (n = 88,994)，然后创建了一个合理大小(n = 774)的候选术语列表，具有相对较高的有效术语收益率(31%或237/774)。该系统和实验是使用活语料库和ATR辅助词汇维护来获取新术语的概念验证。

该系统采用了包括解析、字典查找、与医疗记录数据库比较和ATR在内的自然语言处理方法，过滤掉与健康无关的n-grams和格式不良的句子片段。在所有筛选之后，审稿人在每3到4个候选术语中发现一个有效术语。这比最初的n-gram列表好得多，n-gram列表平均每137个候选术语返回1个有效术语。

在每个维护周期后，系统将变得更加高效。所有被拒绝的候选词都将被添加到停止列表中，这应该会减少候选词的数量。例如，在论文中描述的实验之后，我们对300页进行了第二次抓取，获得了240个候选术语用于人工审查，其中71个潜在有效术语，其产量保持在30%(71/240)。然而，由于候选术语中有88个是地名，将停止列表扩展到包括地名，将候选术语列表减少到212个，其中有71个潜在有效术语，有效术语收益率为33%(72/212)。

此前曾有报道称，使用c值和期限评分可获得更高的收益率[18，19］．然而，收益率对每项研究涉及的数据和任务很敏感。Spasic等人使用c值从全文期刊文章中提取术语，据报道产量为61%。然而，他们针对的是所有有效的术语，而不是新术语(即尚未包含在词汇表中的术语)，因为新术语更少，也更难找到。在我们之前的研究中，我们使用了术语评分和c值评分来确定新的CHV术语。学期评分收益率为38%，c值评分更低。该研究中使用的数据集是MEDLINEPlus的查询日志。与查询日志相比，PatientsLikeMe页面包含更多“噪音”(即，与我们所寻找的术语结构相似但与健康相关的术语)，这增加了找到的候选术语的数量。我们选择在这些数据上不使用c值或学期分数，因为产生的结果远低于我们在这里报告的31%。

对系统的影响

本研究的结果指出了同时使用术语法和c值法的必要性。任期评分要求首先匹配术语与VA医疗记录术语数据库，以提供一个简明的列表。这可能会有问题，因为消费者术语可能不会出现在医生的记录中。他们缺席的证据是，退伍军人事务部医疗记录词条过滤后，有效词条从651个下降到215个。c值通过不需要预过滤来平衡术语。然而，C-value生成一个简洁的列表，太多的有效术语被排除在外，651个中只有62个。

本研究针对这类系统的一个具体含义是阈值的选择。我们从经验上发现，任期得分的阈值为3.6,c值得分的阈值为15，可以产生一个保留足够多有效术语同时排除足够多无效术语的列表。可以操纵这些阈值。看着图1，可以看出，任期阈值为4产生了一个95%有效任期的候选任期列表。不幸的是，在可能的651个术语中，有效术语的总数只有42个。我们认为仅识别6%的可用术语效率太低。增加c值阈值也会产生类似的结果。虽然有效期限收益率增加到78%，但只有44个有效期限被识别出来。通过处理大量的网页，可以提高这些阈值，并减少漏掉的有效术语的数量。

一般意义

该系统可以潜在地用于CHV以外甚至超出卫生领域的词汇维护。由于越来越大比例的当代写作是在互联网上发表的，因此可以通过抓取开放获取的期刊、博客和Web新闻频道来确定新的候选术语，以包含在各种词汇表中。

这个系统也可能被用来追踪健康语言的演变。一旦系统是最新的，每一组新的更新都将代表消费者术语中发生的变化。利用这些信息可以根据患者的词汇量来识别他们的理解和信息需求。

限制

使用PatientsLikeMe网站的一个潜在限制是“高级”语言出现在网站运营商而不是用户生产的内容中。高级指的是直接从医生的词汇中提取的语言。在这种情况下，该术语很可能会包含在UMLS mettathesaurus中，从而在新术语的集合中被忽略。此外，更广泛地接触高级语言可能会导致术语迁移的增加。这些术语的迁移将反映在使用频率数据中，这些数据用于推荐在引用概念时使用的首选名称(消费者首选的CHV名称)。不管怎样，这种语言对CAU系统来说都不应该是问题。

CAU系统在解析和过滤阶段受到错误的限制。虽然词性和名词短语解析是相对成熟的自然语言处理技术[27]，由于不完整和不合语法的句子普遍存在，对网页的解析会带来额外的挑战。HITEx系统中使用的解析器OpenNLP经过了处理一般文本的训练。HITEx是为处理临床记录而开发的，它可能更符合语法或遵循不同的子语法。合并到CAU中的HITEx NER系统的持续开发将允许它利用与HITEx相关的解析器或映射器的任何进步。

使用医疗记录数据进行过滤受到医疗记录数据库中表示的患者群体的大小和临床特征的限制。如果机构审查委员会适当批准，数据库可以扩大。将C-value与未经过滤的项一起使用也降低了这种限制的影响。

两种ATR方法[18，19也是不完美的。他们的表现可以通过预先选择文本来提高其在社交网络环境中的实用性。可能有一种方法可以定位网站或网页上的特定位置，可能是通过搜索关键部分标题或HTML标签。

CAU系统的另一个限制是持续需要人工审查。所有自动化系统的宏伟目标都是完全不需要人工干预或可能只需要最少的专家审查就能运行。我们目前的发展还远远没有达到零人工审查的目标，但也没有达到最小化审查时间的目标。

该方法在PatientsLikeMe以外的语料库上的结果需要进一步研究。为了评估该技术的潜在稳健性，我们处理了YahooHealth.com网站爬行时遇到的前300个页面。我们发现了309个潜在期限，其中72个有效期限可纳入CHV，即有效期限收益率为23%。这比patientslikeme网站的产量要低。然而，如前所述，我们选择的阈值会影响产量。

未来的研究

我们未来努力的一个方向将是进一步分析所发现的术语，并将它们映射到现有的概念或创建新的概念。CAU识别的术语尚未包含在UMLS或CHV中。因此，有必要确定如何将它们集成到CHV中。由于这些新术语中的大多数是专业受控词汇表中已经存在的健康概念的同义词，因此将它们包括进来是一个简单的映射。然而，可能会遇到一些全新的概念，在这种情况下，我们将利用Keselman等人所描述的有效的新消费者概念的特征[28，以帮助指导他们的纳入。

未来，我们还计划在协同评审阶段探索公众参与。除了发现新术语外，我们还计划使用动态语料库来估计健康术语和收获解释的熟悉程度。

结论

社交网络数据可以用来提供一个活的语料库，可以挖掘这些语料库来提供新的消费者健康词汇。使用ATR和字典查找可以缩小所发现的候选术语的范围，从而生成一个简明的列表，从而允许词汇随着语言的发展而发展，而不需要大量的人工检查时间。

致谢

这项工作由美国国立卫生研究院(NIH)拨款RO1 LM07222的补充资助。我们要感谢patientslike.com的合作，尤其是Paul Wicks, Brant Chee和Sally Okun。我们还要感谢JMIR审稿人，他们的想法被纳入了本文。

利益冲突

没有宣布

‎

多媒体附件1

CAU演示文稿

PPT文件(microsoftpowerpoint file)， 1,406 KB

曾秋冬，谢涛。探索和发展消费者健康词汇。中国医学信息杂志2006;13(1):24-29。［CrossRef] [Medline］
克里斯汀森MH，查特N.语言是由大脑塑造的。行为脑科学2008 10月31日(5):489-508;讨论509年。［CrossRef] [Medline］
Atkinson QD, Meade A, Venditti C, Greenhill SJ, Pagel M.语言在标点符号爆发中进化。科学2008年2月1日;319(5863):588 [免费全文] [CrossRef] [Medline］
赫尔福德，学生肯尼迪M，奈特C.语言进化的途径:社会和认知基础。英国剑桥:剑桥大学出版社;1998.
辛普森，2010。《牛津英语大词典》季刊http://www.oed.com/news/updates/revisions0906.html[访问2010-08-16][WebCite缓存］
牛津英语词典。修订计划。英国牛津:牛津大学出版社;2010.URL:http://www.oed.com/about/revision.html[访问2010-08-16][WebCite缓存］
西米洛JJ。21世纪对受控医学词汇的需求。方法中华医学杂志1998 11月37(4-5):394-403。［Medline］
Bakhshi-Raiez F, Cornet R, de Keizer NF。医学术语系统维护框架的开发和应用。中华医学杂志2008;15(5):687-700。［CrossRef] [Medline］
国家癌症研究所。项建议。贝塞斯达，马里兰州:美国国立卫生研究院网址:http://ncitermform.nci.nih.gov/ncitermform/?dictionary=NCI%20Metathesaurus&code=C0006826［WebCite缓存］
事实说明:专家词典。贝塞斯达，马里兰州:美国国家医学图书馆;2006.URL:http://www.nlm.nih.gov/pubs/factsheets/umlslex.html[访问2010-08-16][WebCite缓存］
医学主题标题更改建议。贝塞斯达，马里兰州:美国国家医学图书馆;2008.URL:http://www.nlm.nih.gov/mesh/meshsugg.html[访问2010-08-16][WebCite缓存］
刘国强，刘国强。词汇自动识别方法的研究进展。术语1996;3(2):259-289 [免费全文］
生物医学文献中的术语识别。生物医学通报2004 12月37(6):512-526。［CrossRef] [Medline］
Harkema H, Gaizauskas R, Hepple M, Roberts A, Roberts I, Davis N，等。生物医学文本处理的大规模术语资源。: BioLink。2004年发表于:HLT/NCAAL 2004研讨会;2004年5月6日;波士顿,MA。
Aronson AR, Lang FM。MetaMap概述:历史视角和最新进展。美国医学信息杂志2010年5月1日;17(3):229-236。［CrossRef] [Medline］
胡忠，吴春春，刘慧。一种基于生物标记的基因/蛋白质名称识别系统。中国医学杂志2009;16(2):247-255。［CrossRef] [Medline］
柯立尔，李志强，王志强。基于隐马尔可夫模型的基因和基因产物名称提取。In: Proceedings of COLING。2000发表于:COLING 2000，第18届国际计算语言学会议;2000年7月31日- 8月4日;Saarbruecken,德国。［CrossRef］
Frantzi KT, Ananiadou S, Mima H.多词术语的自动识别:C-value/NC-value方法。国际数字图书馆学报2003;3(2):115-130 [免费全文] [CrossRef］
曾秋冬，谢涛，Divita G, Keselman A, Crowell J, Browne AC，等。消费者健康词汇开发术语识别方法。中国医学杂志，2007;9(1):e4 [免费全文] [CrossRef] [Medline］
spasiic I, Schober D, Sansone SA, Rebholz-Schuhmann D, Kell DB, Paton NW。利用文本挖掘促进代谢组学技术控制词汇的发展。BMC Bioinformatics 2008;9增刊5:S5 [免费全文] [CrossRef] [Medline］
Lenhart A, Purcell K, Smith A, Zickuhr K.社会媒体和年轻人。华盛顿特区:皮尤互联网和美国生活项目;2010年2月3日。URL:http://www.pewinternet.org/Reports/2010/Social-Media-and-Young-Adults.aspx[访问2011-04-25][WebCite缓存］
Frost JH, Massagli MP。在线患者社区PatientsLikeMe中个人健康信息的社交使用:当患者可以访问彼此的数据时会发生什么?中国医学杂志，2008;10(3):e15 [免费全文] [CrossRef] [Medline］
李文杰，马萨利，李文杰，等。在PatientsLikeMe上分享健康数据以获得更好的结果。中国医学杂志，2010;12(2):e19 [免费全文] [CrossRef] [Medline］
曾志峰，李志强，李志强，李志强，李志强。基于自然语言处理的哮喘主诊断、共发病和吸烟状况提取方法研究。BMC Med Inform Decis Mak 2006;6:30 [免费全文] [CrossRef] [Medline］
englishspeak.com。2011.1000个最常用的英语短语http://www.englishspeak.com/english-phrases.cfm[访问2011-04-25][WebCite缓存］
赫里普萨克，罗斯柴尔德。信息检索中的一致性、f测度与可靠性。中华医学杂志2005;12(3):296-298。［CrossRef] [Medline］
Nordstrom B, Ranta A.自然语言处理的进展。在:诺德斯特龙B，兰塔A，编辑。第六届国际会议，GoTAL 2008，哥德堡，瑞典，2008年8月25-27日，会议记录(讲座笔记在…/人工智能课堂讲稿)。德国柏林:施普林格;2008.
Keselman A, Smith CA, Divita G, Kim H, Browne AC, Leroy G，等。没有映射到UMLS的消费者健康概念:它们适合在哪里?中国医学杂志2008;15(4):496-505。［CrossRef] [Medline］

‎

肌萎缩性侧索硬化症:肌萎缩性侧索硬化症

ATR:自动术语识别

标出:计算机辅助更新

CHV:消费者健康词汇

HITEx:运行状况信息文本提取器

IRB:机构检讨委员会

LOINC:逻辑观察标识符名称和代码

网:医学学科标题

ML:机器学习

女士:多发性硬化症

语法:一组n个连续的单词

Non-CHV:未包含在开放获取协作式消费者健康词汇表中

尼珥:命名实体识别

国家卫生研究院:美国国立卫生研究院

NLP:自然语言处理

OAC:开放获取协作

snom):系统化的医学命名法

TS:术语系统

uml:统一医学图书馆系统

G·艾森巴赫(G Eysenbach)编辑;提交25.08.10;同行评议:L Slaughter, A Keselman, P Wicks, H Hochhiser;对作者17.09.10的评论;修订版本收到22.02.11;接受29.03.11;发表17.05.11

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

通过挖掘社交网络数据的计算机辅助更新消费者健康词汇