这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
消费者健康词汇表(chv)已被开发用于帮助消费者健康信息学应用。如果词汇表随着消费者语言的变化而变化,就能最好地达到这个目的。
我们的目标是创建一个计算机辅助更新(CAU)系统,该系统与实时语料库一起工作,以确定新的候选术语,以纳入开放获取和协作(OAC) CHV。
CAU系统由三个主要部分组成:Web爬虫程序和HTML解析器、利用自然语言处理工具(包括术语识别方法)的候选术语过滤器以及人工审阅界面。在评价中,CAU系统应用于与健康相关的社交网站PatientsLikeMe.com。系统的效用是通过将其生成的候选术语列表与从抓取的网页文本中手工提取的有效术语列表进行比较来评估的。
CAU系统在300个爬行的PatientsLikeMe.com网页中识别出88,994个1- 7克的独特术语(“n-grams”是句子中n个连续的单词)。对抓取的网页的人工审查确定了651个有效术语尚未包括在OAC CHV或统一医学语言系统(UMLS) mettathesaurus中,这是一个合并形成医学术语本体的词汇集合,(即每136.7个候选n-grams中有一个有效术语)。词汇过滤器筛选出774个候选词汇,其中有效词汇237个,即每3个或4个候选词汇中就有一个有效词汇。
在CHV开发过程中,CAU系统对于生成供人工审查的候选术语列表是有效的。
受控词汇表在生物医学信息学应用的发展中扮演着重要的角色,因为临床、文献计量和研究应用需要对数据进行编码,以便于检索和分析。已经开展了研究和开发活动,以提供标准化的卫生词汇表,例如,SNOMED(医学系统化命名法)和LOINC(逻辑观察标识符名称和代码)。在过去,这些词汇集中于专业人士的语言,但最近消费者健康词汇(CHV) [
由于语言本身的不断发展,控制词汇需要维护和更新。
专业人员使用的新健康术语经常以某种形式迁移到流行用语中。例如,这个术语
为了有效,CHV必须跟上消费者使用的语言的变化[
在本背景部分中,我们将首先简要回顾用于更新受控健康词汇表的先前研究和当前实践。接下来,我们将讨论用于从文本语料库中识别有效术语的自动化方法。然后,我们将重点转移到提供OAC CHV研究的背景信息。最后,我们将描述使用带有自动术语识别的实时语料库来更新OAC CHV的基本原理。
先前的研究发现,几乎所有大型受控健康状况词汇表都有类似的核心维护过程[
TS变更提案的生成和收集及其验证的当前实践通常涉及通过电子邮件或互联网收集提案,并由专家团队对其进行验证。例如,有一个基于web的语义MediaWiki系统,用于维护国家癌症研究所的mettathesaurus条目[
自动生成更改建议的一种方法是通过自动术语识别(ATR)在文本语料库中识别有效的候选术语[
由于在我们的研究中使用了c值和学期分数,我们将在这里简要地描述它们。c值方程使用部分语音标记数据,并将候选术语限制为名词短语。使用一个开放的语言过滤器可以获得最好的结果,该过滤器返回名词短语,其中包括多个形容词和名词[
该CAU系统的开发是OAC CHV研究计划的一部分。OAC CHV的开发采用了一种分阶段的、分布式的、基于用户源的方法[
从一开始,对CHV的研究依赖于包含消费者话语的文本语料库。尽管大多数文本语料库是从患者电子邮件、在线论坛、查询日志和社交网络等实时来源收集的[
patientslikeme是一个在线社区,用于支持患者之间的信息交换。该网站提供针对特定疾病的定制结果和可视化工具,以帮助患者了解和分享有关其病情的信息[
我们设计了CAU系统,使用NLP方法的组合来挖掘Web内容:字典查找、c值ATR和术语ATR。我们的目标是发现消费者使用但尚未包含在现有词汇中的与健康相关的新术语。最佳的候选术语列表应该包含少量的术语,同时在人工审查后提供合理的高有效术语的产量。
CAU系统架构如图所示
在爬行子阶段,系统对Web上的公共页面进行爬行。爬行包括导航到主页,收集到队列中其他页面的所有链接,依次导航到这些页面,并将找到的任何链接添加到队列的末尾。这个循环一直持续到队列的末尾,或者直到访问了预定义数量的页面。处理每个页面的其余内容的方法是删除HTML标记,在文本块的末尾添加句点,然后添加多个新行,并保存生成的文本。
在解析子阶段,系统使用开源的自然语言处理应用程序Health Information Text Extractor (HITEx) [
在n克提取子阶段,系统提取重叠的n克(1 ~ 7克)。重叠是指一个单词可以包含在多个n音节中。对n-gram进行过滤,以保留由HITEx标识为名词短语、包含动词的n-gram(即潜在的动词短语)和包含单词的n-gram
阶段2是进一步使用NLP技术识别n-grams列表中的候选术语的阶段。该阶段包括三个子阶段,两个字典类型的查找阶段,UMLS/CHV筛选子阶段和VA医疗记录术语筛选子阶段,以及一个ATR阶段,ATR筛选子阶段。
鉴于我们对发现新术语的兴趣,我们在当前的CHV列表和UMLS Metathesaurus中查找了n-grams。为了确保使用最新版本的UMLS (2010AA),使用UMLS Web服务检查n-grams。UMLS或CHV中不存在的n-gram标记为非CHV。
为了从非chv n-grams中过滤非医疗术语,我们从美国退伍军人事务部获得的70000例肌萎缩性侧索硬化症(ALS)、帕金森症和多发性硬化症(MS)患者的医疗记录数据库中查找了它们,这些患者的日期为1998年1月1日至2008年12月31日。这些记录包含广泛的医疗主题和笔记类型。它们并不局限于神经病学或三大疾病。这些记录是由我们部门内部审查委员会(IRB)批准的另一个小组获得的。IRB批准该组的一名成员为我们将术语与此数据库进行比较,并返回是/否的答案。所有的项,返回
计算出两个ATR评分,即term和C-value。使用Zeng等人[
CAU系统图
第三个阶段是人工(专家)审查阶段。在此阶段,候选条款将提交给专家合作审查。为了帮助这个过程,我们为OAC CHV创建了一个互动网站。经过批准的审查人员可以访问站点并推荐url以包含在爬虫中,审查候选术语,审查最近的候选术语评论,并审查CHV首选名称。在审查候选术语时,审查员可以投票支持或反对将某个术语纳入OAC CHV,查看所有术语的频率和票数,并在该术语所在网页的上下文中获得该术语的三个示例。审查人员也可以在不注册投票的情况下对候选术语进行评论。每个评审员只能为一个术语投票一次。公众可在CHV Wiki上浏览术语列表,选择候选术语,并点击他们想要评论的术语,对候选术语进行评论。
通过爬取patientslikeme网站,检查确定的候选术语并计算有效术语率(即有效术语占总候选术语的百分比),对系统进行了评估。出于本文的目的,协作性人工评审的最后阶段被创建有效术语列表所取代,该列表作为本研究的黄金标准。有效的术语列表由第一作者手动从网页中提取,并过滤以排除已经在UMLS/CHV中表示的术语。通过查看爬行中遇到的前300个页面,生成了一个包含651个术语的有效术语列表,我们认为这个列表对于这个实验来说已经足够大了。因此,我们将系统的处理限制在这些页面上。
为了评估有效术语列表的准确性,一个专家评审员小组(两名医生和两名联合医疗人员)审查了在我们的VA医疗记录术语数据库中从网页的初始解析中发现的100个随机的非chv术语。使用Hripcsak和Rothschild中讨论的平衡f测度来评估每个专家对金本位有效术语表的同意[
爬虫访问了PatientsLikeMe.com网站(标记为A在
在UMLS/CHV滤波阶段,CHV/UMLS中发现了1045个(总数的1%)n-grams。非chv任期的总数仍然很大,为87,949个。
VA医疗记录术语过滤阶段过滤掉了大部分n-grams。它消除了除923个n-grams(减少了99%)以外的所有术语,并从有效术语列表中消除了除215个术语以外的所有术语(减少了67%)。
在这个阶段,被淘汰的有效术语列表中的大部分术语都很长(例如,
任期分数阈值对候选任期数量的影响
c值评分阈值对候选术语数量的影响
在ATR过滤阶段,通过对ATR评分应用阈值来构建两个过滤器。使用的第一个过滤器是基于术语评分,并应用于VA医疗记录术语数据库中发现的每个非ch n-gram。从
第二种滤波器基于c值,适用于所有非chv n-grams。从
当c值阈值与期限阈值相结合时,在有效期限收益率保持在30%左右的情况下,备选期限增加,剩余期限为774个,有效期限为237个。结合过滤器仅通过术语过滤器就可以捕获48个以上的有效术语,包括
研究结果总结在
CAU处理每个阶段的结果
处理阶段 | 系统阶段 |
候选人 |
有效的 |
1.最初的解析 | 1 | 88994年 | 651 |
2.CHV / uml过滤器 | 2 | 87949年 | 651 |
3.退伍军人事务部医疗记录术语过滤器 | 2 b | 923 | 215 |
4.ATR过滤器1:任期评分(阈值3.6)(仅限VA医疗记录术语) | 2摄氏度 | 622 | 189 |
5.ATR滤波器2:c值(阈值15)(所有术语) | 2摄氏度 | 170 | 62 |
阶段4和5滤波器组合 | 2摄氏度 | 774 | 237 |
已识别的有效和无效候选术语的示例列表(按发现它们的格式和无特定顺序显示)
已识别的候选术语样本 | ||
有效的条款 | 无效的条款 | |
管理 |
没有保护 |
酸化 |
第三阶段,专家评审阶段,在本研究中被有效术语列表作为金标准的使用所取代。
我们开发了一个词汇维护系统,并在patientslikeme网站上进行了测试。系统首先识别出非常多的n-grams (n = 88,994),然后创建了一个合理大小(n = 774)的候选术语列表,具有相对较高的有效术语收益率(31%或237/774)。该系统和实验是使用活语料库和ATR辅助词汇维护来获取新术语的概念验证。
该系统采用了包括解析、字典查找、与医疗记录数据库比较和ATR在内的自然语言处理方法,过滤掉与健康无关的n-grams和格式不良的句子片段。在所有筛选之后,审稿人在每3到4个候选术语中发现一个有效术语。这比最初的n-gram列表好得多,n-gram列表平均每137个候选术语返回1个有效术语。
在每个维护周期后,系统将变得更加高效。所有被拒绝的候选词都将被添加到停止列表中,这应该会减少候选词的数量。例如,在论文中描述的实验之后,我们对300页进行了第二次抓取,获得了240个候选术语用于人工审查,其中71个潜在有效术语,其产量保持在30%(71/240)。然而,由于候选术语中有88个是地名,将停止列表扩展到包括地名,将候选术语列表减少到212个,其中有71个潜在有效术语,有效术语收益率为33%(72/212)。
此前曾有报道称,使用c值和期限评分可获得更高的收益率[
本研究的结果指出了同时使用术语法和c值法的必要性。任期评分要求首先匹配术语与VA医疗记录术语数据库,以提供一个简明的列表。这可能会有问题,因为消费者术语可能不会出现在医生的记录中。他们缺席的证据是,退伍军人事务部医疗记录词条过滤后,有效词条从651个下降到215个。c值通过不需要预过滤来平衡术语。然而,C-value生成一个简洁的列表,太多的有效术语被排除在外,651个中只有62个。
本研究针对这类系统的一个具体含义是阈值的选择。我们从经验上发现,任期得分的阈值为3.6,c值得分的阈值为15,可以产生一个保留足够多有效术语同时排除足够多无效术语的列表。可以操纵这些阈值。看着
该系统可以潜在地用于CHV以外甚至超出卫生领域的词汇维护。由于越来越大比例的当代写作是在互联网上发表的,因此可以通过抓取开放获取的期刊、博客和Web新闻频道来确定新的候选术语,以包含在各种词汇表中。
这个系统也可能被用来追踪健康语言的演变。一旦系统是最新的,每一组新的更新都将代表消费者术语中发生的变化。利用这些信息可以根据患者的词汇量来识别他们的理解和信息需求。
使用PatientsLikeMe网站的一个潜在限制是“高级”语言出现在网站运营商而不是用户生产的内容中。高级指的是直接从医生的词汇中提取的语言。在这种情况下,该术语很可能会包含在UMLS mettathesaurus中,从而在新术语的集合中被忽略。此外,更广泛地接触高级语言可能会导致术语迁移的增加。这些术语的迁移将反映在使用频率数据中,这些数据用于推荐在引用概念时使用的首选名称(消费者首选的CHV名称)。不管怎样,这种语言对CAU系统来说都不应该是问题。
CAU系统在解析和过滤阶段受到错误的限制。虽然词性和名词短语解析是相对成熟的自然语言处理技术[
使用医疗记录数据进行过滤受到医疗记录数据库中表示的患者群体的大小和临床特征的限制。如果机构审查委员会适当批准,数据库可以扩大。将C-value与未经过滤的项一起使用也降低了这种限制的影响。
两种ATR方法[
CAU系统的另一个限制是持续需要人工审查。所有自动化系统的宏伟目标都是完全不需要人工干预或可能只需要最少的专家审查就能运行。我们目前的发展还远远没有达到零人工审查的目标,但也没有达到最小化审查时间的目标。
该方法在PatientsLikeMe以外的语料库上的结果需要进一步研究。为了评估该技术的潜在稳健性,我们处理了YahooHealth.com网站爬行时遇到的前300个页面。我们发现了309个潜在期限,其中72个有效期限可纳入CHV,即有效期限收益率为23%。这比patientslikeme网站的产量要低。然而,如前所述,我们选择的阈值会影响产量。
我们未来努力的一个方向将是进一步分析所发现的术语,并将它们映射到现有的概念或创建新的概念。CAU识别的术语尚未包含在UMLS或CHV中。因此,有必要确定如何将它们集成到CHV中。由于这些新术语中的大多数是专业受控词汇表中已经存在的健康概念的同义词,因此将它们包括进来是一个简单的映射。然而,可能会遇到一些全新的概念,在这种情况下,我们将利用Keselman等人所描述的有效的新消费者概念的特征[
未来,我们还计划在协同评审阶段探索公众参与。除了发现新术语外,我们还计划使用动态语料库来估计健康术语和收获解释的熟悉程度。
社交网络数据可以用来提供一个活的语料库,可以挖掘这些语料库来提供新的消费者健康词汇。使用ATR和字典查找可以缩小所发现的候选术语的范围,从而生成一个简明的列表,从而允许词汇随着语言的发展而发展,而不需要大量的人工检查时间。
这项工作由美国国立卫生研究院(NIH)拨款RO1 LM07222的补充资助。我们要感谢patientslike.com的合作,尤其是Paul Wicks, Brant Chee和Sally Okun。我们还要感谢JMIR审稿人,他们的想法被纳入了本文。
没有宣布
CAU演示文稿
肌萎缩性侧索硬化症
自动术语识别
计算机辅助更新
消费者健康词汇
运行状况信息文本提取器
机构检讨委员会
逻辑观察标识符名称和代码
医学学科标题
机器学习
多发性硬化症
一组n个连续的单词
未包含在开放获取协作式消费者健康词汇表中
命名实体识别
美国国立卫生研究院
自然语言处理
开放获取协作
系统化的医学命名法
术语系统
统一医学图书馆系统