JMIR医学信息学-消费者在社交媒体上使用UMLS概念:博客和社交问答网站中的糖尿病相关文本数据分析

原始论文

¹美国佛罗里达州塔拉哈西佛罗里达州立大学信息学院

²成功长寿研究所，佛罗里达州立大学，佛罗里达州塔拉哈西，美国

^3.佛罗里达州立大学计算机科学系，佛罗里达塔拉哈西，美国

⁴美国佛罗里达州盖恩斯维尔佛罗里达大学健康结果和政策系

*这些作者贡献相同

通讯作者:

何哲，博士

信息学院

佛罗里达州立大学

Louis Shores大楼

142大学环路

塔拉哈西，佛罗里达州，32306

美国

电话:1 850 644 5775

传真:1 850 644 9763

电子邮件:zhe.he@cci.fsu.edu

背景:众所周知，卫生专业人员和卫生消费者之间的术语差距阻碍了消费者有效的信息搜索。

摘要目的:本研究的目的是通过评估统一医学语言系统(UMLS)在两种社交媒体(博客和社交问答)中糖尿病相关帖子的概念和语义类型的覆盖率，更好地了解消费者对医学概念的使用情况。

方法:我们收集了两种类型的社交媒体数据:(1)2015年2月至10月期间在Tumblr上发布的3711个标记为“糖尿病”的博客;(2) 2009年至2014年间在雅虎糖尿病类别中发布的共计58,422个问题和相关答案。的答案。我们使用广泛采用的生物医学文本处理框架Apache cTAKES及其扩展YTEX分析数据集。首先，我们应用YTEX中实现的命名实体识别(NER)方法来识别数据集中的UMLS概念。然后，我们通过两个数据集(即博客和社交问答)分析了UMLS源词汇表中概念的覆盖率和受欢迎程度。此外，我们在SNOMED临床术语(SNOMED CT)和开放获取协同消费者健康词汇(OAC CHV)(在我们的数据集上覆盖最多的前2个UMLS源词汇)之间进行了概念级的比较覆盖分析。我们还分析了在我们的数据集中经常观察到的UMLS语义类型。

结果:我们从博客文章中确定了2415个UMLS概念，从社交问答问题中确定了6452个UMLS概念，从答案中确定了10378个UMLS概念。博客中确定的医学概念可以由UMLS中的56个源词汇表覆盖，而问答中的医学概念可以由58个源词汇表覆盖。就所有数据集的覆盖率而言，SNOMED CT是占主导地位的词汇，范围为84.9%至95.9%。其次是OAC CHV(73.5% ~ 80.0%)和Metathesaurus Names (MTH)(55.7% ~ 73.5%)。所有社交媒体数据集都共享常见的语义类型，如“氨基酸、肽或蛋白质”、“身体部位、器官或器官成分”和“疾病或综合征”。

结论:尽管这3个社交媒体数据集在规模上差异很大，但它们在UMLS源词汇表中表现出相似的概念覆盖，所识别的概念表现出相似的语义类型分布。因此，可以向OAC CHV建议消费者经常使用的概念，以及在SNOMED CT等专业词汇表中发现的概念，以提高其覆盖率。

JMIR Med Inform 2016;4(4):e41

doi: 10.2196 / medinform.5748

关键字

受控词汇表；消费者健康词汇；概念范围

背景

众所周知，保健消费者和保健专业人员之间存在着语言差距[1-3.］．这一差距可能会阻碍两组人之间的有效沟通[4-7];因此，影响消费者的健康信息搜索[3.，8，9]以及随后就其健康问题作出的决定[10］．为了评估差距，Roberts和Demner-Fushman [11]使用各种自然语言处理(NLP)技术来分析消费者和卫生专业人员在不同的在线问答(Q&A)网站(如Yahoo!答案和WebMD)。他们发现，消费者的问题往往包含更多拼写错误的医学术语，有更长的背景信息，并且与专业人士撰写的文本更接近于开放领域语言。造成这种差距的一个主要方面是消费者和卫生专业人员使用的医学词汇不同。曾及同事[12他观察到，在搜索在线健康信息时，只使用消费者术语会导致较差的信息检索结果。普罗夫尼克和曾[13后来用专业术语重新定义了消费者的健康问题，大约40%的重新定义的问题产生了更好的搜索性能。

为了弥合卫生专业人员和消费者之间的词汇差距，早期的研究人员收集并分析了消费者产生的各种文本数据，以确定消费者使用的医学术语。布伦南和阿伦森[14]使用MetaMap工具从消费者的电子邮件信息中提取护理词汇中的显著概念。史密斯及其同事[15]还使用MetaMap成功地识别了消费者在提交给匹兹堡大学癌症研究所癌症信息和转诊服务的电子邮件中使用的统一医学语言系统(UMLS)概念。这些研究旨在通过识别与开发面向消费者的健康信息应用程序相关的常用消费者健康术语，并将免费文本与复杂的临床知识资源联系起来，弥合卫生专业人员和消费者之间的词汇差距。这些特别的这些研究代表了弥合词汇差距的早期努力。

受控词汇表是“用于索引内容和/或通过浏览或搜索检索内容的单词和短语的有组织的排列[16)。”为了使各种应用程序的消费者词汇表正式化，最近开发了一个受控词汇表，称为“开放获取协作消费者健康词汇表”(“OAC CHV”，简称“CHV”)，作为普通健康信息用户常用的表达和概念的集合[17］．此外，CHV已被集成到最大的医学术语系统UMLS中，UMLS通过美国国家医学图书馆(NLM)将具有相同含义的不同来源词汇表中的术语映射到相同的概念中。因此，在专业词汇表(如SNOMED Clinical terms (SNOMED CT))中，消费者术语与其相应的专业术语相关联。使用UMLS中的CHV，可以自动地将含有消费者术语的句子翻译为含有专业术语的句子。

领域覆盖——受控词汇表覆盖预期领域的程度——是受控词汇表最需要的属性之一[18］．受控词汇表的可用性和整体结构在很大程度上依赖于它的覆盖范围[19］．传统上，受控词汇开发采用自上而下的方法，它反映了一组专家在各自主题方面的知识[20.，21］．然而，对于CHV的发展，采取了自下而上的方法，强调了2个基本性质:(1)CHV应捕捉反映消费者健康信息需求的实际消费者术语和表达方式;(2)表达方式应为消费者所熟悉和使用[17］．

为了跟上医学知识的不断发展，CHV需要通过纳入新的消费者提供的术语和表达来更新和维护[17，22-24］．现有的研究在从社交媒体中发现CHV的消费者术语方面显示出了有希望的结果。维迪斯瓦兰等人[7]应用了一种基于模式的文本挖掘方法，从维基百科中识别消费者和专业术语对。希克斯等[25]分析了消费者在推特上交换的信息，以评估与摄入表格上的性别识别相关的术语。doin - harris及Zeng-Treitler [24]开发了一个计算机辅助CHV更新系统，可以自动识别来自社交媒体的潜在术语。在消费者生成的文本中以总体方式识别消费者使用的术语可以解释健康语言的可变性。这些术语可用于细化和丰富CHV [17］．

然而，消费者也可以学习和使用专业术语[17，24，26］．从这个意义上说，可以使用消费者所熟悉的并且已经在其他受控词汇表中建立的医学术语来提高CHV的覆盖率。术语重用是本体/术语开发中的原则和最佳实践，因为它承诺支持语义互操作性并减少工程成本[27］．研究人员以前开发了半自动化的方法来促进系统的术语重用。他等人28]开发了一种基于拓扑模式的方法来识别UMLS源词汇表中的术语，以丰富SNOMED CT [28，29]和国家癌症研究所同义词典[30.］．

然而，这种方法不能直接应用于CHV，因为它没有层次关系(如CHV)。父子关系)，以构建拓扑模式[28-30.］．最近，Chandar等人[31]介绍了一种基于相似度的术语推荐方法，该方法将从临床试验的自由文本资格标准中提取的n-grams表示为一组语言和上下文特征。采用k -均值聚类对SNOMED CT项进行聚类。新术语是按它们到最近的聚类质心的距离排序的，表示它们与现有SNOMED CT术语的相似性。该方法在自由文本临床研究资格标准语料库上表现良好，因为它们大多是由卫生专业人员撰写的简短和部分句子，具有丰富的医学术语，噪音小。它还没有在自由形式的消费者文本上进行测试，这些文本通常包含长句子和外行术语。

以前大多数关于CHV发展的研究都集中在识别消费者使用的新术语[17，22-24］．据我们所知，此前没有研究对社交媒体上用户生成文档中医学概念的覆盖率和受欢迎程度进行深入评估。在这方面，有必要了解消费者对现有受控词汇表中术语的使用情况，并了解是否有可能通过合并专业词汇表所涵盖的消费者使用的与健康相关的概念来改善CHV。因此，在这项研究中，我们进行了这样的分析，以评估消费者在有关健康问题的社交媒体帖子中对医疗概念的使用情况，并评估有多少流行的消费者术语被包括在UMLS的现有源词汇表中[32］．

在这项研究中，我们将重点放在糖尿病上，这是世界卫生组织(WHO)公认的最重要的公共卫生问题之一，人们对健康的关注不断升级[33］．仅2012年，糖尿病就导致150万人死亡。众所周知，它会导致残疾和一系列严重的健康问题，如高血压、肾病和中风[34］．全球糖尿病病例从1980年的1.08亿例飙升至2014年的4.22亿例。到2025年，糖尿病发病人数可能达到7亿人[35］．糖尿病及其并发症不仅损害人口健康，而且给患者、其家庭和社会带来巨大的经济负担[33］．

在这项研究中，我们从Tumblr收集了与糖尿病相关的消费者博客帖子，从Yahoo!的答案。我们进行了文本挖掘，从我们的数据集中识别UMLS概念。因此，我们制定了2个研究问题(rq):(1) UMLS源词汇表中的概念在多大程度上涵盖了消费者在社交媒体(尤其是博客和社交问答)上描述其糖尿病相关问题时所使用的概念?哪些概念重叠或不重叠?(2) UMLS语义类型在多大程度上适用于分析消费者在社交媒体(尤其是博客和社交问答)中描述糖尿病相关担忧时所使用的概念?观察到哪些语义类型?

在第一个研究问题中，我们评估了来自Tumblr和Yahoo!的答案。在第二个研究问题中，我们分析了在我们的数据集中识别的UMLS概念的语义类型。

本研究主要调查UMLS中来自社交媒体的消费者概念与专业概念的重叠。事实上，消费者经常主动在社交媒体上寻求和分享在线健康信息。36，37］．他们对专业术语的使用可能很复杂，既包括外行人的表达，也包括医学术语。事实上，不仅消费者，医疗保健专业人员也积极参与在社交媒体上创建健康帖子[38，39］．然而，他们在社交媒体上使用的术语可能更以消费者/患者为中心，用于健康教育和向公众宣传。对比分析社交媒体中消费者与专业词汇的概念覆盖，或许有助于理解现象的规模。这种比较还有助于深入了解词汇差距的本质，这将有助于CHV的持续发展。特别是，目前的研究可以揭示社交媒体用户在网络上使用UMLS源词汇表中的现有术语有多少。同时，当前研究的结果可以说明利用现有UMLS源词汇表来丰富CHV的可行性。

统一医学语言系统

UMLS由美国国立卫生研究院的NLM维护，是最大的生物医学术语系统。它的2级结构由异义词和语义网络组成。UMLS mettathesaurus是“一个大型的、多用途的、多语言的同义词词典，包含数百万个生物医学和健康相关的概念、它们的同义词及其关系”[40］．UMLS Metathesaurus将170多个英语词汇来源的910多万个术语集成到310万个医学概念中(2015AA版本)。除了英语，UMLS还包含20种其他语言的源词汇表。UMLS集成了大多数精心设计和维护的医学术语，如SNOMED CT，国际疾病分类9^th修订，临床修改(ICD-9-CM)， NCIt和RxNORM。SNOMED CT是世界上最全面、最精确的临床术语，拥有超过31万个活跃概念[41］．ICD-9-CM主要用于编码诊断和程序，以供计费用途[42］．另一方面，RxNORM规范了美国市场上所有临床药物的名称及其与药房管理中常用的许多药物词汇表的链接[43］．最重要的是，具有相同含义的术语映射到UMLS中的相同概念。由于其原生术语映射，UMLS是支持生物医学互操作性和翻译的宝贵资源[32］．NLM每年发布两次UMLS的新版本。

UMLS语义类型代表了“一组广泛的主题类别，为UMLS metthesaurus中表示的所有概念提供了一致的分类”[44］．UMLS中的每个概念都被分配了1个或多个语义类型。在UMLS的2015AA版本中，共有127种语义类型，描述实体和事件级别的概念。实体包括物理对象，如有机体、解剖结构和物质。事件描述活动、现象和过程。例如，语义类型“疾病或综合征”在UMLS中对一组概念进行了分类，这些概念表示“改变或干扰有机体的正常过程、状态或活动的条件”。

消费者健康词汇及其在面向消费者的健康应用程序中的使用

OAC CHV已用于各种与健康相关的应用，以改善患者对健康信息的获取。Zeng等人开发了一种翻译器，专门将电子健康记录中的文本转换为患者健康记录中的消费者友好文本，方法是将UMLS术语替换为相应的OAC CHV术语[45］．许多UMLS概念与OAC CHV概念有一对一的匹配。所有OAC CHV概念都有预定义的用户友好的显示名称。除了OAC CHV之外，还开发了其他专有的消费者健康词汇表。例如，Apelon开发了CHV，并将其CHV术语映射到SNOMED RT (SNOMED CT的早期版本，由美国病理学家学院开发)、ICD-9-CM和医师当前程序术语(CPT)管理代码中相应的临床概念。Apelon的CHV已用于各种应用，如消费者健康数据输入、患者结果报告临床记录翻译和基于web的信息检索[46］．梅奥诊所还开发了自己的消费者健康词汇，其中包含丰富的疾病概念以及疾病的遗传和非遗传风险因素[8］．在本文中，我们使用OAC CHV，因为它是我们(通过UMLS)能够访问的唯一公开可用的消费者健康词汇表。

数据收集

本研究分析了两种类型的社交媒体，即博客和社交问答，因为它们允许消费者以文本形式生成和自由交换健康信息。与健康有关的博客是传播健康资讯最受欢迎的社交媒体之一。博客通常会描述他们与疾病相关的个人经历，以及与医护人员的接触[47］．医护专业人士亦会建立部落格，与病人分享他们的医疗知识和资讯[48］．部落格亦广泛用于健康推广和教育，成为消费者和医护专业人员的合作工具[49-51］．另一方面，社交问答是一种基于社区的在线问答服务，人们通过提出问题和接受其他人的回答来获得知识，这些人愿意就包括健康在内的广泛主题分享他们的知识、经验和意见。社交问答被认为是外行知识形成的领域[52］．消费者使用社交问答的动机是，他们在网络搜索引擎上搜索的简短问题往往无法检索到针对特定问题的有用信息，而社交问答可以让他们用自然语言和完整的句子提问[11］．为了收集数据，我们使用了2个数据集:(1)Tumblr，一个流行的博客服务;(2)雅虎!Answers是北美的社交问答服务。

Tumblr和雅虎!之所以选择这些答案进行当前研究，是因为它们的受欢迎程度和使用其应用程序接口(api)的便利性，这使我们能够自动从这些网站收集数据。此外，Tumblr和Yahoo!回答不限制字数。因此，他们的用户可以详细阐述他们的健康问题和帖子上的信息，从而为我们提供充足的机会从帖子中提取和分析相关概念。

Tumblr是增长最快的博客网站之一，从2012年10月到2015年10月，博客数量增长了近20倍[53］．与其他网站如WordPress和Blogger相比，它在市场上推出相对较晚，但由于其易于设置、时尚的界面设计和对微博的支持，它被公认为最好的博客网站之一。54，55］．截至2016年2月，它拥有超过2.27亿博客和3700万独立访问者[53］．从Tumblr上，我们收集了2015年2月至10月间发布的3711个带有“糖尿病”标签的英文文本博客(如“糖尿病”、“糖尿病”和“2型糖尿病”)。

雅虎Answers是最受欢迎的社交问答网站之一，截至2016年2月，每月约有560万人次访问[56］．从雅虎从2009年到2014年，我们在雅虎的糖尿病类别中收集了总共58,422个问题和相关答案。的答案。在数据分析中，我们将问题和答案(特别是最佳答案)分开进行文本挖掘，因为问题和答案中的信息可能不同。问题可以捕捉健康问题和相关问题，而答案可以主要讨论旨在解决问题的信息资源。需要注意的是，一个问题可能有多个答案。在这项研究中，我们将答案限制在提问者选择的最佳答案。数据收集自雅虎!在随后的分析中，将答案分为问题和答案。

分析单元

有一次我们从Tumblr和Yahoo!答案是，我们从文本数据中挖掘“概念”，这是一个代表术语基本组成部分的理解单位[57]或本体论中的意义单位[31］．概念与“术语”的不同之处在于，术语指的是一个实体或“物理对象”，以书面或口头的文本表示一个概念或思想[58］．在UMLS中，术语被描述为“包含一个表达式的单词或单词的集合”，它表示一类所有的词汇变体(例如，“眼睛”，“眼睛”)[59］．UMLS为每个术语分配了一个原子唯一标识符(AUI)，并将具有相同含义的术语分组为一个具有概念唯一标识符(CUI)的概念。我们还分析了提取的概念的语义类型，以便了解消费者经常使用的术语的广泛语义类别。

文本数据处理

我们使用了广泛采用的生物医学文本处理框架Apache cTAKES™[60]及其延伸YTEX [61]以识别数据集中的UMLS术语。Apache cTAKES被设计为一个自然语言处理(NLP)系统，用于从电子医疗记录(EMRs)中可用的自由文本数据中提取信息。它提供了一个基于非结构化信息管理体系结构(UIMA)和丰富的NLP库的灵活平台。YTEX是cTAKES的一个模块，提供了词义消歧(WSD)、数据挖掘和特征工程功能。我们主要使用YTEX的WSD函数，当自由文本中的一个术语可以匹配多个模糊概念时，识别出最可能的UMLS概念。我们使用cTAKES和YTEX的3.2.2版本，并使用名为“聚合明文UMLS处理器”的默认工作流配置。

图1说明了我们的整体分析过程。首先，每个文档都是来自Tumblr的一篇博文，来自Yahoo!的答案。每篇博客文章可以包含一个或多个句子。然后，cTAKES检测每个文档，并使用OpenNLP的句子检测器将每个文档分割成单独的句子[62，63，默认配置为英文文本。对于每个句子，cTAKES使用OpenNLP的默认标记器执行标记化，使用美国国家医学图书馆提供的带有默认配置的词汇工具生成词汇变体。然后，cTAKES使用OpenNLP中的POS标记器和基于信息熵的英语模型进行词性标注，生成候选词供进一步处理。然后，YTEX将候选术语与所有可能的UMLS术语进行匹配，这些术语是从UMLS 2015AA发行版的MRCONSO表中预加载的。然后将匹配结果存储到MySQL数据库中。对于每个候选术语，可能有0、1或多个具有不同语义的匹配UMLS术语。为了识别语义合理的术语，我们使用YTEX进行词义消歧(WSD)，其中使用固有信息含量(IC)度量作为语义相似度度量，并以50个单词为窗口作为上下文。内在信息内容是根据生物医学术语的分类法结构计算出的概念特异性的度量，不依赖于语料库中的术语频率。内在IC度量的细节可以在Garla等人[64］．最后，利用UMLS CUI提取每条记录中的所有UMLS术语。

图1。研究的概念框架。点指的是从数据集中提取的概念，灰点指的是映射到UMLS源词汇表之一中的概念的概念。

概念覆盖分析

我们首先分析了从Tumblr和雅虎收集的数据集中总体概念覆盖率的基本特征。答案:(1)来自Tumblr的博客帖子，(2)雅虎的问题!答案，和(3)在雅虎!的答案。然后，我们分析了UMLS中每个源词汇在数据集中的覆盖率。SNOMED CT和CHV是我们数据集中概念覆盖率最高的两个词汇。因此，基于我们的数据集，我们对SNOMED CT和CHV进行了概念覆盖分析。我们还分析了从我们的数据集中识别的概念的语义类型。

数据集的聚合特征

我们从博客文章中确定了2415个UMLS概念，从问题中确定了6452个UMLS概念，从答案中确定了10378个UMLS概念。表1显示我们数据集中的文档和句子的总数(即，博客帖子，问题，答案)。这些数字与“# with UMLS concepts”进行比较，“# with UMLS concepts”是包含已识别的UMLS概念的唯一文件和句子数量。注意，我们只能提取UMLS中给出的概念。因此，在我们的数据集中概念的总数(可以包括不在UMLS中的概念)没有提供表1．

数据集之间有明显的变化。超过80%的问答文档包含一个或多个UMLS概念，而来自博客的文档只有不到一半。超过一半的问答句子包含至少一个UMLS概念，而只有27%的博客文章包含至少一个UMLS概念。

表1。数据集中UMLS概念覆盖的基本特征。

	Tumblr		雅虎答案
	博客		问题		答案
	#总	# UMLS概念	#总	# UMLS概念	#总	# UMLS概念
文档	3711	1388例(37.4%)	58422年	51850例(88.8%)	58422年	51550例(88.2%)
句子	47413年	12802例(27.0%)	249013年	142802例(57.3%)	348793年	216736例(62.1%)
概念	- - - - - -	2415	- - - - - -	6452	- - - - - -	10378年

UMLS源词汇表的覆盖

博客中的概念由56个UMLS源词汇表涵盖，而问答中的概念由58个源词汇表涵盖。表2说明了覆盖最多的前20个UMLS源词汇表(源词汇表的全名和版本信息可以在多媒体附件1表a1)。SNOMED CT在我们所有的数据集中占主导地位，范围从84.9%到95.9%。其次是CHV(73.5% ~ 80.0%)和MTH(55.7% ~ 73.5%)。我们所有数据集中排名前10的其他来源词汇包括:NCIt、医学主题词(MeSH)、科学项目信息计算机检索词库(CSP)、国会图书馆主题词西北大学子集(LCH NW)、逻辑观察标识符名称和代码(LOINC)和国家药物文件参考术语(NDFRT)，尽管不同数据集的排名顺序略有不同。多媒体附件1表a2提供了涉及最多的3个源词汇表中的示例概念。

表2。前20个主要涵盖了UMLS源词汇表。

	Tumblr			雅虎答案
排名	博客(n = 2415)			问题(n = 6452)			答案(n = 10378)
排名	源的词汇	概念数量	％	源的词汇	概念数量	％	源的词汇	概念数量	％
1	snom CT	2315	95.9	snom CT	5476	84.9	snom CT	9032	87.0
2	CHV	1931	80.0	CHV	4928	76.4	CHV	7625	73.5
3.	m	1774	73.5	m	3899	60.4	m	5780	55.7
4	NCIt	1156	47.9	网	2957	45.8	网	4796	46.2
5	网	1130	46.8	NCIt	2917	45.2	NCIt	4485	43.2
6	CSP	812	33.6	CSP	1840	28.5	NDFRT	2999	28.9
7	大气气溶胶	775	32.1	NDFRT	1775	27.5	CSP	2839	27.4
8	LCH_NW	771	31.9	LCH_NW	1627	25.2	LCH_NW	2436	23.5
9	LOINC	697	28.9	大气气溶胶	1585	24.6	大气气溶胶	2335	22.5
10	NDFRT	659	27.3	LOINC	1510	23.4	RXNORM	2099	20.2
11	华尔街日报	587	24.3	RXNORM	1421	22.0	LOINC	2081	20.1
12	NCI_NCI-GLOSS	475	19.7	华尔街日报	1187	18.4	华尔街日报	1730	16.7
13	医疗在线	402	16.6	NCI_NCI-GLOSS	952	14.8	NCI_FDA	1387	13.4
14	中科	365	15.1	NCI_FDA	868	13.5	DXP	1322	12.7
15	配角	362	15.0	配角	835	12.9	NCI_NCI-GLOSS	1321	12.7
16	NCI_FDA	345	14.3	DXP	830	12.9	配角	1257	12.1
17	人类	342	14.2	中科	794	12.3	人类	1234	11.9
18	RXNORM	338	14.0	人类	790	12.2	中科	1206	11.6
19	DXP	326	13.5	医疗在线	721	11.2	VANDF	1117	10.8
20.	ICD9CM	241	10．0	VANDF	644	10．0	MTHSPL	1033	10．0

表3。snoomed CT和CHV所涵盖的十大常见概念。

排名	Tumblr		雅虎答案
			问题		答案
	概念	频率。	概念	频率。	概念	频率。
1	血液(C0005767)	816	血液(C0005767)	30654年	血液(C0005767)	54689年
2	疼痛(C0030193)	798	糖(C0242209)	29593年	糖(C0242209)	49207年
3.	胰岛素(C0021641)	744	胰岛素(C0021641)	10816年	胰岛素(C0021641)	27887年
4	药物制剂(C0013227)	719	葡萄糖(C0017725)	7394	葡萄糖(C0017725)	26420年
5	糖(C0242209)	699	问题(C0033213)	5111	药物制剂(C0013227)	11571年
6	疾病(C0012634)	617	水(C0043047)	4781	疾病(C0012634)	9733
7	问题(C0033213)	568	药物制剂(C0013227)	4456	碳水化合物(C0007004)	9517
8	糖尿病(C0011849)	501	血液测试(C0018941)	3784	问题(C0033213)	9248
9	齿结构(C0040426)	424	疼痛(C0030193)	3625	水(C0043047)	5994
10	手术手术程序(C0543467)	375	尿液(C0042036)	2550	禁食(C0015663)	5848

表4。CHV而非SNOMED CT所覆盖的10个经常观察到的概念。

	Tumblr		雅虎答案
排名			问题		答案
排名	概念(崔)^一个	频率。	概念(崔)	频率。	概念(崔)	频率。
1	苹果醋(C0937941)	54	胃(C0038351)	1050	应用(C0876064)	689
2	苹果醋(C1178459)	54	应用(C0876064)	571	匹格列酮(C0875954)	659
3.	应用(C0876064)	15	优泌林(C0528249)	260	文迪雅(C0875967)	628
4	温柔(C0720654)	11	NovoLog (C0939412)	180	优泌林(C0528249)	289
5	纠正(C0719519)	9	二甲双胍能够(C0591573)	131	NovoLog (C0939412)	255
6	肉毒杆菌(C0700702)	9	Levemir (C1314782)	122	Levemir (C1314782)	184
7	消除(C0073361)	6	匹格列酮(C0875954)	95	二甲双胍能够(C1314782)	161
8	优泌林(C0528249)	5	思瑞康(C0287163)	78	Novolin (C0028467)	112
9	珠子剂型(C0991566)	3.	Synthroid (C0728762)	62	伟哥(C0663448)	105
10	匹格列酮(C0875954)	3.	香豆素(C0699129)	54	Triphosphat (C0146894)	77

^一个CUI:概念唯一标识符

来自前两个源词汇表SNOMED CT和CHV的概念之间存在显著重叠- 78.2%(1889/2415)来自博客文章的概念，70.0%(4518/6452)来自问题的概念，68.4%(7095/ 10378)来自回答的概念。表3显示前10个概念。注意，我们在整个论文中只显示UMLS中概念的首选术语。糖尿病相关的概念，如血，糖，胰岛素，葡萄糖,糖尿病经常被提及(UMLS概念的首选名称用斜体表示)。同时，它还包括一些一般的医学概念，如疾病，制剂,问题。与血液中葡萄糖水平相关的概念，如血液，糖，葡萄糖，而且碳水化合物也出现频率很高。

少数概念仅被CHV覆盖:博客文章中1.7%(40/2415)个概念，问题中6.3%(409/6452)个概念，答案中5.1%(529/ 10378)个概念。表4显示了我们的数据集中CHV覆盖的前10个最常观察到的UMLS概念，而不是SNOMED CT。

所有的概念表4都是关于药理物质或有机化学物质，除了胃在问题中找到。关于胰岛素治疗糖尿病的三个概念，例如应用(即甘精胰岛素注射)，优泌林(即利斯普罗胰岛素注射液)，以及匹格列酮(即盐酸吡格列酮)在博客帖子和问答中出现频率较高。与糖尿病治疗相关的概念，例如NovoLog而且二甲双胍能够，在问答中比博客文章中更常见。总的来说，在问答的前10个概念中，有9个是糖尿病药物。只有2个概念，即胃在疑问句和伟哥在回答中，与糖尿病治疗没有直接关系。另一方面，博客中的一些概念与糖尿病间接相关。例如,苹果醋，苹果醋,肉毒杆菌也经常出现。

SNOMED CT也涵盖了一些概念，但CHV没有涵盖:17.6%(424/2415)的概念来自博客文章，957/6452(14.8%)的概念来自问题，18.7%(36% /10,378)的概念来自答案(见表5)．人体相关概念，如背部结构，不包括颈部，整个心脏，整个胰腺，整个肾脏,整个皮肤,而且整个眼睛，经常被用来在博客帖子或问题/答案中描述他们的糖尿病问题。三个概念,完整的皮肤，症状而且脂肪酸甘油酯从我们所有的数据集中观察到。按摩而且培训在博客帖子中经常被提及，而注塑过程而且保护杯在问答中经常被提及，但在博客帖子中被提及的频率不高。由于这些概念在社交媒体上经常被观察到，CHV应该考虑将其引入，以丰富其概念内容。

表5所示。前10个常被SNOMED CT覆盖但不包括CHV的概念。

	Tumblr		雅虎答案
排名			问题		答案
排名	概念(崔)^一个	频率。	概念(崔)	频率。	概念(崔)	频率。
1	整个皮肤(C1278993)	524	症状(C1457887)	7690	症状(C1457887)	12727年
2	症状(C1457887)	393	脂肪酸甘油酯(C0015677)	1789	脂肪酸甘油酯(C0015677)	8727
3.	背部结构，不包括颈部(C1995000)	236	整脚(C1281587)	1647	整个细胞(C1269647)	6435
4	按摩(C0024875)	217	背部结构，不包括颈部(C1995000)	1589	整颗心脏(C1281570)	3204
5	脂肪酸甘油酯(C0015677)	210	整个肾脏(C1278978)	1368	整个胰腺(C1278931)	3003
6	培训(C0220931)	163	全眼(C1280202)	1210	整个皮肤(C1278993)	2614
7	整个胰腺(C1278931)	157	保护杯(C1533124)	1159	保护杯(C1533124)	2178
8	整颗心脏(C1281570)	156	整个下肢(C1269079)	985	全胃(C1278920)	1876
9	整个口腔(C1278910)	138	整只手(C1281583)	969	注射程序(C1533685)	1561
10	整个脊柱(C1280065)	137	整个皮肤(C1278993)	912	整个骨骼(C1266909)	1501

^一个CUI:概念唯一标识符

已识别概念的语义类型

在127个UMLS语义类型(STY)中，大约有一半在我们的数据集中被识别出来:博客文章中有52个STYs(40.9%)，问题中有59个STYs(46.5%)，答案中有54个STYs(42.5%)。总的来说，我们的数据集中有52个共享的STYs, STYs有显著的重叠。然而，仅在问题中就确定了七个STYs，包括“功能概念”、“智力产品”、“实验室程序”、“器官或组织功能”、“有机体属性”、“社会行为”和“物质”。两个STYs，“完全形成的解剖结构”和“细胞或分子功能障碍”，在问题中没有找到，但在答案数据集和博客数据集中都有。表6分别为不同数据集中UMLS概念出现频率最高的20种语义类型。

在比较数据集中最常观察到的前10个STYs时，10个STYs中有9个(即“发现”、“药理学物质”、“治疗或预防程序”、“疾病或综合征”、“有机化学”、“身体部位、器官或器官成分”、“体征或症状”、“医疗设备”和“氨基酸、肽或蛋白质”)通常出现在数据集中，在频率方面存在微小差异。“实验室程序”经常出现在问题中，但在博客和回答中却很少出现。“病理功能”经常出现在回答中，而不是在博客和问题中。经常观察到的STYs的例子概念表明，外行倾向于在社交媒体上频繁使用常见概念来描述他们与糖尿病相关的问题。为了说明这一点,糖，胰岛素，葡萄糖在STY的“药理学物质”概念中排名前5。类似地，概念如疾病而且传染病经常出现在STY“疾病或综合征”的概念中。我们为最常观察到的10种语义类型提供了最常见的5个概念多媒体附件1表A3。

表6所示。识别概念中最常观察到的20种语义类型。

排名	Tumblr			雅虎答案
	博客			问题			答案
	语义类型	概念^一个		语义类型	概念		语义类型	概念
	语义类型	n (%)	频率。	语义类型	n (%)	频率。	语义类型	n (%)	频率。
1	发现	380 (15.7)	5277	药物的物质	1240 (19.2)	53976年	药物的物质	1995 (19.2)	185880年
2	药物的物质	307 (12.7)	4413	有机化学	1006 (15.6)	41255年	有机化学	1692 (16.3)	123509年
3.	治疗或预防程序	241 (10.0)	3184	发现	895 (13.9)	30458年	疾病或综合症	1511 (14.6)	57379年
4	疾病或综合症	239 (9.9)	2923	疾病或综合症	743 (11.5)	28041年	发现	1302 (12.5)	76765年
5	有机化学	225 (9.3)	2737	身体的一部分、器官或器官组成部分	484 (7.5)	27172年	身体的一部分、器官或器官组成部分	666 (6.4)	48584年
6	身体的一部分、器官或器官组成部分	208 (8.6)	2566	征兆或症状	338 (5.2)	19601年	治疗或预防程序	583 (5.6)	16555年
7	征兆或症状	145 (6.0)	2214	治疗或预防程序	331 (5.1)	16372年	氨基酸，肽或蛋白质	495 (4.8)	40521年
8	医疗设备	134 (5.5)	1319	氨基酸，肽或蛋白质	305 (4.7)	13178年	征兆或症状	436 (4.2)	38905年
9	氨基酸，肽或蛋白质	70 (2.9)	1112	医疗设备	201 (3.1)	12862年	医疗设备	347 (3.3)	20391年
10	生物活性物质	69 (2.9)	1093	实验室程序	180 (2.8)	10580年	病理功能	292 (2.8)	12551年

^一个百分比是根据UMLS概念的唯一标识的总数计算出来的:Tumblr上的博客:n=2415, Yahoo!答案:n=6452，答案在雅虎!答案:n = 10378

主要研究结果

以往的研究[12-15]利用用户生成的文件，包括社交媒体。然而，他们主要是基于所选择的试验台能恰当地反映人们的医学观念的假设，使用单一的试验台。我们的研究涉及不同类型的社交媒体，其中包含外行出于不同目的生成的文本:问题是为了表达他们寻求健康信息的需求;博客和答案更有可能与他人分享他们的知识、经验和观点。本研究通过识别UMLS概念及其语义类型，调查了社交媒体中消费者生成文本中的术语覆盖率。我们的研究结果表明，消费者使用的医学概念不仅来自为消费者开发的受控词汇表(即CHV)，还来自为卫生专业人员开发的受控词汇表(例如SNOMED CT)。我们的研究结果与之前的观察结果一致，即消费者同时使用非专业术语和专业术语[24，26，65]，并证明了CHV可以通过UMLS中的其他源词汇表来丰富。

UMLS概念在博客和社交问答中的使用是不同的，UMLS概念在社交问答帖子中出现的频率更高(几乎90%的问题和答案)，而在博客帖子中(约30%)。社交问答用户在帖子中主要讨论与健康相关的问题(在本研究中是糖尿病相关的问题)，因为他们参与问答是有目的的。另一方面，博客用户经常在他们的帖子中阐述与健康无关的话题，尽管他们用“糖尿病”来标记他们的帖子。

尽管博客和社交问答之间的UMLS概念覆盖总体存在差异，但我们发现，在不同的数据集中识别的UMLS概念可以被相似数量的UMLS源词汇所覆盖。两个UMLS源词汇表，即SNOMED CT和CHV，显示了最好的覆盖率。我们数据集中的社交媒体用户可能拥有先进的医学知识，因为他们经常使用专业术语。CHV对所有数据集的覆盖范围第二大，尽管CHV的概念和术语数量比SNOMED CT少得多(1:6比)。开发CHV是为了合并消费者生成的文本数据中呈现的消费者表达式。我们的研究结果表明，不同的社交媒体平台可能扮演着消费者生成的CHV丰富文献的类似角色，这证实了文献[66］．

通过比较数据集中SNOMED CT和CHV之间的概念覆盖率，我们研究了博客和社交媒体用户之间概念使用的差异。例如,苹果醋，苹果醋，按摩,培训在博客帖子中经常被提及，而在问答中却很少被提及。然而，有关胰岛素治疗的概念，如应用,优泌林,匹格列酮，常用于问答中。消费者经常在社交问答中询问各种胰岛素疗法，而博客中经常包含特定的使用方法醋这是一种常见的糖尿病控制食品成分。肉毒杆菌而且伟哥在博客帖子和回答中经常被提及。它们可能对糖尿病患者很重要，尽管它们可能与控制糖尿病没有密切关系。进一步分析这些术语与糖尿病的关系将是很有趣的。对已识别的概念以及它们在原始帖子中的使用方式进行深入分析，可以为了解消费者的信息需求和使用提供有用的信息。

根据我们的分析，CHV而非SNOMED CT覆盖的独特概念的百分比从1.7%到6.3%不等。在博客数据集中，大约有3000个博客被分析，只有40个概念被CHV专门涵盖。另一方面，在雅虎!CHV覆盖了问题中的409个概念(6.3%)，答案中的529个概念(5.1%)，而SNOMED CT没有覆盖。这些结果表明，更大的数据集将产生更多的外行概念。数据集的大小也会影响语义的多样性。在我们的所有数据集中，都经常观察到同一组9种语义类型。“发现”、“药理学物质”和“疾病和综合征”是最常见的4种语义类型。

也观察到了差异。对于消费者来说，博客可能是更好的平台，可以讨论有机化学物质、药理学物质，或者糖尿病的治疗或预防程序。然而，有机化学和药理物质的概念也经常出现在社会问答中。在社交问答数据中，观察到博客中没有识别的7种语义类型，这表明更大的数据集可能会产生更多样化的医学概念。

限制

这项研究有一些局限性。首先，Tumblr和Yahoo!答案数据在不同的时间范围内收集，大小不同，这可能会影响本研究的结果。本研究中使用的较小容量的博客数据可能会影响所确定的UMLS概念的多样性。虽然写博客和提问/回答对于慢性病患者来说是动态的在线活动，但Tumblr和Yahoo!答案可能不能代表所有健康信息用户的概念使用。数据集可以扩展到包括其他类型的社交媒体，如糖尿病相关的讨论板。这些在线资源的用户可能偏向于那些技术熟练程度较高的人，例如那些更年轻、受教育程度更高或社会经济地位较高的人，他们更有可能在互联网上寻求健康信息。这项研究可能无法反映老年人、受教育程度较低或社会弱势群体的经历。67］．其次，尽管目前研究中采用的自动化NLP技术具有成本效益，但与普通健康信息用户的直接交互将使研究人员能够捕捉这些个人通常用于描述其健康问题的医学概念的更准确含义。此外，内容分析等定性方法也有助于识别概念的上下文语义。第三，虽然YTEX的WSD功能可以有效地为自由文本中的术语选择最可能的UMLS概念，但相同的术语可能匹配不同的模糊的UMLS概念。这主要是因为UMLS可能包含未映射的同义概念。理想情况下，可以应用领域专家的手动审查来进一步完善自动映射结果。

结论

目前的研究考察了社交媒体作为用户生成文件的潜力，在这些文件中，消费者的医学概念可以被观察到，并用于为普通健康信息用户开发受控词汇。我们选择并测试了2个社交媒体场所，分别是博客和社交问答。我们的研究结果显示，在控制词汇的使用上，相似度大于差异。数据集的大小可能会影响识别的概念的数量。然而，源词汇表、常用概念和概念语义类型的相似性表明，社交媒体网站倾向于反映外行的常识。更重要的是，我们发现社交媒体用户不仅使用CHV中的消费者概念，还使用SNOMED CT等专业词汇中的概念。这表明通过合并来自其他UMLS源词汇表的概念，CHV仍然有改进的空间。我们研究的重点不是确定消费者医疗概念的列表，而是测试利用社交媒体数据来确定现有UMLS源词汇表所涵盖的消费者概念的可行性。最终，它将帮助消费者在线搜索健康信息，缩小普通健康信息用户和医疗专业人员之间的差距。在未来的研究中，我们将采用自动化方法从社交媒体中识别和推荐新的医学术语和概念，以丰富CHV。

致谢

我们要感谢沃伦·艾伦博士为这项工作提供的计算资源。这项工作得到了亚马逊网络服务教育和研究赠款奖(PI: He)的部分支持。这项工作也得到了国家促进转化科学中心临床和转化科学奖UL1TR001427 (PI: Nelson & Shenkman)的部分支持。内容仅为作者的责任，不代表美国国立卫生研究院的官方观点。

作者的贡献

MP发起了这项研究的想法。ZH领导了这项研究的概念化、设计和实施。MP收集并提供了tumblr网站上的博客数据。SO收集并提供了来自雅虎的社交问答数据。的答案。ZC对数据集执行自然语言处理，并在关系数据库中结构化结果。MP进行数据分析并起草初始版本;ZH, SO, BJ对重要的知识内容进行了批判性和迭代性的广泛修订。所有作者都对方法开发、结果解释做出了贡献，对论文进行了重大编辑，并最终批准了该版本的出版。ZH对本文报道的研究负主要责任。

利益冲突

没有宣布。

‎

多媒体附件1

表A1。中的UMLS源词汇表的全名表2．表A2。前3个覆盖最多的源词汇表中最常观察到的10个概念。表A3。9种最常用语义类型中出现频率最高的5个概念。

PDF档案(adobepdf档案)，125KB

梅赛R, Simonet M, brison - souf N, Mousseau M.表征乳腺癌领域的消费者健康术语。种马健康技术通报2010;60(Pt 2):991-994。［Medline］
Poikonen T, Vakkari p，俗人?和专业人士吗?与营养相关的词汇表以及它们与一般同义词库和特定同义词库的匹配。信息科学学报2009;35(2):232-243。
史密斯CA，威克斯PJ。PatientsLikeMe:作为大众分类法的消费者健康词汇。AMIA年度诉讼程序2008:682-686 [免费全文] [Medline］
Patrick TB, Monga HK, Sievert ME, Houston HJ, Longo DR.糖尿病消费者入门词汇开发的受控词汇资源评估。中国医学杂志，2001;3(3):E24 [免费全文] [CrossRef] [Medline］
消费者健康受控词汇表。中国生物医学工程学报，2003;36(4):366 - 366 [免费全文] [Medline］
谢涛，Soergel D.探索消费者和媒体使用的医学表达:消费者健康词汇的新兴观点。AMIA年度诉讼程序2003:674-678 [免费全文] [Medline］
韦迪斯瓦兰，梅倩，郑凯。从社区生成的文本中挖掘消费者健康词汇。AMIA年度会议程序2014;2014:1150-1159 [免费全文] [Medline］
西多夫M，彼得森KJ，尼尔森LA，科科斯C，麦考密克JB, Chute CG，等。将专家术语和疾病风险因素纳入消费者健康词汇。Pac Symp Biocomput 2013:421-432 [免费全文] [Medline］
Gross T, Taylor a，我们又有什么损失呢?控制词汇对关键词搜索结果的影响。高校与研究图书馆2005;66(3):212-230。
李国强，李国强，李国强。消费者健康信息学。在:消费者健康信息学:告知消费者和改善医疗保健。纽约州纽约:施普林格;2005:1-7。
罗伯茨K, Demner-Fushman D.在线健康资源的互动使用:消费者和专业问题的比较。J Am Med Inform association 2016 july;23(4):802-811。［CrossRef] [Medline］
曾庆刚，高根，刘志刚，刘志刚。患者和临床医生的词汇:他们有什么不同?种马健康技术通报2001;84(Pt 1):399-403。［Medline］
曾志峰，曾志峰。基于专业术语的消费者健康查询重构:初步研究。J medical Internet Res 2004年9月03日;6(3):e27 [免费全文] [CrossRef] [Medline］
Brennan PF, Aronson AR.实现患者和临床信息的连接:检测电子邮件中的UMLS概念。中国生物医学工程学报，2003;36(4):334-341。［Medline］
史密斯CA，斯塔夫里PZ，查普曼WW。用他们自己的话说?癌症信息服务电子邮件的术语分析。Proc AMIA Symp 2002:697-701 [免费全文] [Medline］
什么是受控词汇?在:巴卡M，编辑。受控词汇导论:艺术、建筑和其他文化作品术语。加州洛杉矶:盖蒂出版社;2010.
曾秋冬，谢涛。探索和发展消费者健康词汇。中国医学信息杂志2006;13(1):24-29 [免费全文] [CrossRef] [Medline］
西米洛JJ。21世纪对受控医学词汇的需求。方法Inf Med 1998 11月;37(4-5):394-403 [免费全文] [Medline］
艺术总监，Cornet R, de Jonge E, de Keizer NF。医学术语体系评价方法——文献综述与个案研究。方法中华医学杂志2005;44(5):616-625。［Medline］
元数据和万维网。入职:德雷克·M，编辑。图书情报百科全书。纽约州纽约:Marcel Deker, Inc;2003:1876 - 1888。
大众分类法——通过共享元数据进行合作分类和通信。2004年12月网址:http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html[已访问2016-11-02][WebCite缓存］
以用户为中心的已发表生物医学图像索引的探索性研究。中国医学图书馆杂志2013年1月;101(1):73-76 [免费全文] [CrossRef] [Medline］
MacLean DL, Heer J.在患者撰写的文本中识别医学术语:基于众包的方法。中国医学信息杂志2013;20(6):1120-1127 [免费全文] [CrossRef] [Medline］
do - harris KM, Zeng-Treitler Q.通过挖掘社交网络数据的计算机辅助更新消费者健康词汇。J Med Internet Res 2011年5月17日;13(2):e37 [免费全文] [CrossRef] [Medline］
谢敏，李志强，李志强，等。挖掘Twitter作为评估入学表格上性别识别术语充分性的第一步。AMIA年度会议程序2015;2015:611-620 [免费全文] [Medline］
刘易斯D，布伦南PF，麦克雷AT，塔特尔M，巴赫曼J.如果我们建立它，他们将标准化的消费者词汇表。卫生技术与信息学研究2001;84:1530 [免费全文］
张志强，张志强，张志强。生物医学本体中术语重用和术语重叠的系统分析。语义Web——互操作性、可用性、适用性2016(即将出版)。［免费全文］
何志，Geller J，陈勇。基于SNOMED CT概念内容密度的语义协调对比分析。Artif Intell Med 2015 May;64(1):29-40 [免费全文] [CrossRef] [Medline］
何泽，李志强，李志强。基于语义协调的术语对结构一致概念间关系的分类。AMIA Jt summit Transl science Proc 2014;2014:48-53 [免费全文] [Medline］
何志勇，陈勇，陈志勇，陈志勇，陈志勇。基于拓扑模式的UMLS概念推荐方法。AMIA年度会议2016(即将到来)。
王志强，王志强，王志强。基于相似度的术语新概念推荐方法。AMIA年度法律程序2015;2015:386-395 [免费全文] [Medline］
Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 1;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline］
世界卫生组织。全球糖尿病报告。世界卫生组织。URL:http://apps.who.int/iris/bitstream/10665/204871/1/9789241565257_eng.pdf?ua=1[已访问2016-11-02][WebCite缓存］
美国糖尿病协会。糖尿病的并发症。URL:http://www.diabetes.org/living-with-diabetes/complications/[已访问2016-11-02][WebCite缓存］
克鲁格如。糖尿病的发展趋势:敲响警钟。柳叶刀2016 Apr 9;387(10027):1485-1486 [免费全文] [CrossRef] [Medline］
社会生活中的健康信息。皮尤研究中心。URL:http://www.pewresearch.org/fact-tank/2014/01/15/the-social-life-of-health-information/[已访问2016-11-02][WebCite缓存］
安德森NB, Söderqvist T.社会媒体和公共卫生研究。哥本哈根，丹麦:哥本哈根大学2012年8月20日。URL:http://www.museion.ku.dk/wp-content/uploads/FINAL-Social-Media-and-Public-Health-Research.pdf[已访问2016-11-02][WebCite缓存］
健康答题者在在线环境中分享信息、知识和经验的特征和动机。j。Soc。科学通报2011年11月1日;63(3):543-557。［CrossRef］
Giustini D. Web 2.0如何改变医学。英国医学杂志2006 Dec 23;333(7582):1283-1284 [免费全文] [CrossRef] [Medline］
美国国家医学图书馆。UMLS变龙的概况介绍。URL:https://www.nlm.nih.gov/pubs/factsheets/umlsmeta.html[已访问2016-11-02][WebCite缓存］
美国国家医学图书馆。临床术语。URL:https://www.nlm.nih.gov/healthit/snomedct/index.html[已访问2016-11-02][WebCite缓存］
Finnegan R. ICD-9-CM医生账单编码。中国医学娱乐杂志1989年2月;60(2):22-23。［Medline］
利用RxNorm支持实际计算应用:在实时电子健康记录中捕获用药历史。J Biomed Inform 2012 Aug;45(4):634-641 [免费全文] [CrossRef] [Medline］
美国国家医学图书馆。UMLS语义网络的事实说明。URL:https://www.nlm.nih.gov/pubs/factsheets/umlssemn.html[访问了2016-07-13][WebCite缓存］
郑崔特勒Q, Goryachev S, Kim H, Keselman A, Rosendale D.使电子健康记录中的文本易于消费者理解:一个原型翻译器。AMIA年度诉讼程序2007:846-850 [免费全文] [Medline］
消费者健康受控词汇表。生物医学信息学杂志2003年8月;36(4-5):326-333。［CrossRef］
Miller EA, Pole A.诊断博客:在博客圈查看健康博客。美国医学杂志公共卫生2010年8月;100(8):1514-1519。［CrossRef] [Medline］
Lagu T, Kaufman EJ, Asch DA, Armstrong K.健康专家撰写的博客内容。J Gen Intern Med 2008 10月;23(10):1642-1646 [免费全文] [CrossRef] [Medline］
Boulos Maged N Kamel, Maramba I, Wheeler S. Wikis，博客和播客:虚拟协作临床实践和教育的新一代基于网络的工具。BMC Med Educ 2006;6:41 [免费全文] [CrossRef] [Medline］
oomene - early J, Burke S.进入博客圈:博客作为健康教育的教学工具。国际健康教育电子杂志2007;10:186-196 [免费全文］
Cobus L.在研究生公共卫生课程中使用博客和维基。医学参考文献2009;28(1):22-32。［CrossRef] [Medline］
Shah C, Oh S, Oh J.社会问答研究议程。图书情报研究2009;31(4):205-209。［CrossRef］
Statista。关于Tumblr的数据和事实。URL:http://www.statista.com/topics/2463/tumblr/[访问时间:2016-02-06][WebCite缓存］
亲爱的博主:博客回答社区。创建博客的最佳地点。URL:http://www.dearblogger.org/blogger-or-wordpress-better[已访问2016-11-02][WebCite缓存］
菲茨帕特里克J.生活黑客，2010年6月20日。五个最好的博客平台。《生活黑客》2010年6月20日。URL:http://lifehacker.com/5568092/five-best-blogging-platforms[已访问2016-11-02][WebCite缓存］
Quantcast。Yahoo!的答案。URL:https://www.quantcast.com/answers.yahoo.com[访问了2016-07-13][WebCite缓存］
迈向术语描述的新方法:社会认知方法。在:迈向术语描述的新方法:社会认知方法。阿姆斯特丹:J. Benjamins;2000.
语言学和语音学词典(语言图书馆)。新泽西州霍博肯:Wiley-Blackwell;2008年6月。
美国国家医学图书馆。uml术语表。URL:https://www.nlm.nih.gov/research/umls/new_users/glossary.html[访问时间:2016-01-08][WebCite缓存］
Apache软件基金会。cTAKES(临床文本分析和知识提取系统)。2016年1月18日。URL:http://ctakes.apache.org[访问时间:2016-01-18][WebCite缓存］
葛兰V，罗RV，多瑞-斯坦因Z，基德瓦伊F，斯考奇M，沃马克J，等。耶鲁cTAKES文档分类扩展:体系结构和应用。中国医学信息杂志2011;18(5):614-620 [免费全文] [CrossRef] [Medline］
Baldridge J. Apache软件基金会。openNLP项目。URL:http://opennlp.apache.org/index[已访问2016-11-02][WebCite缓存］
Apache软件基金会。OpenNLP文档。URL:https://opennlp.apache.org/documentation.html[已访问2016-11-02][WebCite缓存］
Garla VN, Brandt C.生物医学领域的语义相似性:跨知识来源的评估。BMC生物信息学2012 10月10日;13:261 [免费全文] [CrossRef] [Medline］
何卓，朴敏，陈卓。基于umls的糖尿病相关博客标签医学术语覆盖分析。地点:宾夕法尼亚州费城2016年发表于:iConference 2016;2016年3月20-23日https://www.ideals.illinois.edu/handle/2142/89441
病人的智慧:医疗保健遇到在线社交媒体。加州医疗保健基金会，2008年4月，网址:http://www.chcf.org/publications/2008/04/the-wisdom-of-patients-health-care-meets-online-social-media[已访问2016-11-02][WebCite缓存］
张艳。超越质量与可及性:消费者健康信息检索中的来源选择。中国机械工程学报(自然科学版)2014年1月27日;［CrossRef］

‎

api:应用程序语言

AUI:原子唯一标识符

CSP:科学项目信息计算机检索同义词典

崔:概念唯一标识符

集成电路:信息内容

禄思伟西北:国会图书馆主题标题，西北大学子集

LOINC:逻辑观察标识符名称和代码

网:医学学科标题

NCIt:国家癌症研究所同义词典

NDFRT:国家药品档案-参考术语

尼珥:命名实体识别

NLM:国家医学图书馆

NLP:自然语言处理

OAC CHV:开放获取协同消费者健康词汇

POS:词性

问答:问题与答案

snom CT:临床术语

住在猪圈里:语义类型

UIMA:非结构化信息管理体系结构

uml:统一医学语言系统

WSD:词义消歧

G·艾森巴赫(G Eysenbach)编辑;提交10.03.16;C Kruse, H Wu, S Kim同行评审;对作者28.06.16的评论;修订版本收到02.08.16;接受22.10.16;发表24.11.16

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

消费者在社交媒体上使用UMLS概念:博客和社交问答网站中糖尿病相关文本数据分析