发表在20卷,第8号(2018): 8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/10779,首次出版
提高消费者对医学文本的理解:一种新的自动生成英语和西班牙语术语解释的SubSimplify算法的开发和验证

提高消费者对医学文本的理解:一种新的自动生成英语和西班牙语术语解释的SubSimplify算法的开发和验证

提高消费者对医学文本的理解:一种新的自动生成英语和西班牙语术语解释的SubSimplify算法的开发和验证

原始论文

1美国亚利桑那州图森市亚利桑那大学语言学系

2美国加州克莱蒙特市波莫纳学院计算机科学系

3.美国亚利桑那州图森市亚利桑那大学西班牙语和葡萄牙语系

4美国亚利桑那州图森市亚利桑那大学梅尔和伊妮德·祖克曼公共卫生学院健康促进科学部

5华盛顿大学公共卫生学院卫生服务部,华盛顿州西雅图,美国

通讯作者:

尼古拉斯·克勒恩,硕士,博士

语言学系

亚利桑那大学

通讯大楼109室

邮政信箱210025

图森,亚利桑那州,85721

美国

电话:1 904 314 4654

传真:1520621 8105

电子邮件:nick.kloehn@gmail.com


背景:虽然卫生素养对人们保持健康和控制疾病很重要,但医学教育教材的写作往往超出了一般人的阅读水平。为了减轻这种脱节,文本简化研究提供了增加可读性和理解性的方法。文本简化的一种方法是在文档中隔离特别困难的术语,并用更容易的同义词(词汇简化)或简单语言的解释(语义简化)代替它们。不幸的是,现有的词典很少是完整的,因此,许多困难的术语的资源是不可用的。这是英语和西班牙语资源的情况。

摘要目的:我们的目标是在现有资源未涵盖的困难术语中自动生成英语和西班牙语的解释。我们提出的系统结合了现有的解释生成资源,使用一种新的算法(SubSimplify)来创建额外的解释。

方法:SubSimplify使用单词级解析技术和专门的医学词缀字典来识别术语的形态学单位,然后找到它们的定义来源。虽然底层资源不同,但SubSimplify在两种语言中应用相同的原则。为了评估我们的方法,我们使用术语熟悉度来识别英语和西班牙语中的困难术语,然后为它们生成解释。对于每种语言,我们从两种不同的文章类型(一般和医学主题)中提取了400个难词,以平衡频率。对于英语术语,我们将SubSimplify的解释与消费者健康词汇、WordNet同义词和摘要以及词嵌入向量(WEV)同义词的解释进行了比较。对于西班牙语术语,我们将解释与WordNet摘要和WEV嵌入同义词进行了比较。我们评估了为每个术语提供的简化的质量、覆盖范围和有用性。质量是两位学科专家在1-4李克特量表(每种语言2分)上对来源提供的同义词或解释的平均得分。覆盖范围是一个来源可以提供解释的术语的数量。然而,有用性是相同的专家分数,当一个术语没有解释或同义词时,给出0分。

结果:SubSimplify的结果是英语(P<.001),西班牙语(P<.001),低于现有资源(消费者健康词汇[CHV]=2.81)。然而,在覆盖率方面,SubSimplify优于所有现有的书面资源,将英语的覆盖率从53.0%提高到80.5%,将西班牙语的覆盖率从20.8%提高到90.8% (P<措施)。这个结果意味着SubSimplify的有用性得分(1.32;P<.001)大于大多数现有资源(例如,CHV=0.169)。

结论:我们的方法旨在作为现有的手动创建资源的附加资源。它大大增加了可以为其提供更容易替代的困难术语的数量,从而产生更大的实际用途。

医学互联网研究,2018;20(8):e10779

doi: 10.2196/10779

关键字



背景与意义

文本是健康相关信息的重要资源,因为它易于创建和分发。此外,健康文献以网络资源的形式广泛提供,供人们获取有关医疗条件、疾病和治疗方式的信息[1]。然而,这些文件的写作水平往往超出了一般读者的理解能力[2]。这种脱节反映了有关健康状况的错误信息的总体趋势[3.4]。

为了缓解这个问题,研究人员已经寻求自动方法来提高这些文本的可读性和由此产生的读者理解。这个自然语言编程(NLP)任务被称为文字简化(5]并被用来创造监督的[6],半监督的[7],以及全自动工具[8]通过增加可读性使文本更容易被消费者理解[9]。这项研究的核心挑战是开发资源和技术,以提高这些系统的质量和准确性。尽管深度神经网络方法和其他自动翻译算法正在越来越多地发展,但在它们能够产生足够的影响和精确的简化之前,还需要时间。我们打算让我们的算法补充现有资源,并为其他算法生成有用的输入。

第一步是确定文本的难点。以前的一些研究侧重于简化单个术语,而另一些研究则侧重于语法结构。为了确定单个术语的难度,我们使用术语熟悉。对于给定的术语,可以通过提取该术语在常用语言用法中出现的可能性来计算该度量[10],我们根据b谷歌Web语料库中该术语的频率[11]。在这项工作中,我们增加了识别这些术语并将其替换为更容易的同义词的研究[12]。然而,我们超越了现有的方法,为可用资源中不存在的术语生成了新的解释。为此,我们开发并评估了一种新的算法来生成新的解释。我们使用单词内部解析和使用SubSimplify的词缀字典以普通语言生成术语解释。

查找困难术语解释的资源

理想情况下,应该有一个无穷无尽的专家为困难术语撰写的解释资源,并以多种语言为公众进行优化。然而,很少有资源能够提供适当的解释,甚至更少的资源能够自动或半自动地产生这样的解释。

最接近理想的资源是英语消费者健康词汇(CHV) [13],并纳入统一医学语言系统(UMLS) [14]。此资源是手动创建的,并以用户友好的语言提供医学术语的同义词和定义。为了简化文本,这些简单的语言定义和简单的同义词可以作为对困难术语的现成解释。然而,相对于在给定医学文本中出现的困难术语的总数,解释的数量是低的。CHV包含在UMLS中找到的概念的2567个唯一定义和88,529个同义词。我们没有使用UMLS作为资源,因为该系统侧重于将复杂的医学概念映射到本体上,而不是设计用于将健康信息与患者或医疗领域以外的任何其他人联系起来。

先前的研究表明,CHV可以用来简化文本[15-17],但也有证据表明,在为专业研究提供摘要时,它包含的术语和对消费者友好的词汇不够多[18]。此外,虽然这个资源很好地针对文本简化进行了定制,但它仅限于英语术语和解释。总之,CHV提供的解释可以在给定的简化系统中自动获取。然而,CHV只在英语中,只有相对较少的术语,有时会包含超出一般读者阅读水平的术语。

虽然不是医学上的重点,WordNet是一个有用的文本简化资源。它是一个在线词汇数据库,包含术语和定义,以及词间语义关系,如上义、下义、同义词和反义词[19]。WordNet提供了128,391个英语词义定义,也提供了西班牙语版本,尽管形式不太完整[20.]。由于WordNet不是一个医学资源,它的许多解释对于医学文本简化来说并不是最理想的,而且当一个单词提供了几种含义时,并不总是清楚哪一种最适合医学含义。以前,WordNet被用来提供同义词来简化词汇[21]。例如,上下关系已被用于生成更简单(更通用)的同义词,以简化文本[22]。在其他领域,该资源已被用于简化生物分子领域的文本[23]以及为非英语母语者写的文本[24]。总之,虽然WordNet比CHV大,而且也有西班牙语版本,但该资源并不总是最适合给出医学术语的定义。

最近在大型文本体上训练的神经网络的发展产生了更大的资源,如词嵌入,其中词由多维词向量表示。所得到的向量在多维空间中相对于彼此定位单词,并且已被证明具有语义和句法关系,使我们能够自动找到同义词和语义相关的术语[12]。给定一个单词,我们可以使用它的向量表示来找到向量最接近这个单词的单词。通常,这个最近的向量是一个同义词。该资源的一个免费版本是预训练的单词表示全局向量(也称为GLoVe) [25]。先前的工作表明,这些向量可以证明在文本简化领域中对分离简单但更频繁的术语是有用的[26]。但是,它们可能包含虚假匹配,因为该方法无法区分反义词和同义词。考虑到这个资源是完全自动化的,可以从给定相对较大的文本主体的任何语言生成单词向量模型。这意味着该资源也可用于西班牙语,在线提供预训练向量[27]。在我们的研究中,我们对英语和西班牙语使用GLoVe预训练向量[27],将这种方法更一般地称为词嵌入向量(WEV)。

总的来说,现有的解释生成方法的范围从特定的、精确的、低覆盖率的到高覆盖率的、相对精度低得多的方法。在下一节中,我们将描述我们的方法,它存在于这些资源之间的范围内。


使用形态学信息生成解释

我们首先描述了形态学单位在医学术语中的作用,然后介绍了我们的算法,该算法利用这些形态学单位提取信息并生成解释。

上面所描述的资源孤立地使用了一个单词的定义,而没有参考该单词的内部特征(即单词的形态学)。虽然并非总是如此,但浪漫语言通常包含包含相对清晰语义的形态学单位,例如前缀的情况-(“against”),或者后缀-年代(表示复数)。在英语和西班牙语的某些单词中,这些可以帮助人们破译单词的意思。在医学上,英语和西班牙语中的许多术语都源于希腊语和拉丁语[2829]。希腊语和拉丁语词缀的意思一般读者不知道,但它们反映了一个词的整体意思。虽然有时一个词的意义是这些形态单位的意义组成的直接函数,但在很大程度上,在英语和西班牙语中,由这些单位组成的术语往往具有格式塔效应。在极端情况下,一个术语可能与其形态单位的含义完全不同(例如,“分类帐”并不意味着“壁架”+)。然而,对于医学术语来说,语义漂移的问题并不大,这似乎是因为医学术语比非医学术语受语义漂移的影响更小。

组成医学术语的词缀通常有明确的定义,反映了一个词的意思。例如,给定前缀有氧运动,我们知道这个词的意思与“心”有关。一些包含这些词缀及其定义的资源可在网上免费获得[30.-33]。根据这些,我们创建了一个独特的词缀词典,以及每种语言的词缀定义。我们提取了586个英语词缀和498个西班牙语词缀。我们把词缀定义为任何一个词素单位,它除了单词本身之外还有一些外延。词缀按其位置分类,前缀出现在单词的开头,后缀出现在单词的末尾。词根是任何可以单独作为一个单词存在的形态学单位。例如,术语心血管包含前缀有氧运动,,根血管。这些形态单位分别表示心脏由一个或多个容器组成的,分别。尽管许多资源可能不包含的定义心血管,通过解析这些形态单位,我们可以自动生成反映术语实际外延的解释:与心脏和血管有关的

在西班牙语和英语中,单词可能由多个后缀、词根和前缀组成。SubSimplify利用这一事实生成一个术语的解释。表1展示了西班牙语和英语中词缀的例子及其定义。

除了这些词缀词典,我们还使用词干提取[34]来分离术语的有茎或有外稃的版本。词干化和词根化是两种不同的方法,它们将一个术语简化为与其词根相似的东西,但这种方法并不总是反映实际的词根。例如,像WordNet这样的资源可能有一个定义Gastrointestine,但不是Gastroinstestinal。通过词干和剥离词缀状态”,我们利用所有资源提高寻找解释的能力。

图1提供了我们的SubSimplify算法的概述。SubSimplify的输入是一个我们认为比较困难的术语,我们递归地查找词缀,并通过累积所识别的每个词缀和词根的定义来生成解释。完成后,我们将对齐这些定义,以提供对该术语的解释。

我们使用词缀字典来程序化地识别词形单位。首先,系统识别词缀,然后取出单词中不是词缀的部分,并对该术语的词根变体执行数据库查找。为了避免虚假匹配,我们从大后缀到小后缀,因此,就像在平凡的主角会和之前一样a -就像在。这个过程迭代地进行,直到没有词缀匹配,或者直到没有剩下词根。为了按顺序描述这个过程,文本框1给出每个步骤的详细描述。

由于单词可能包含多个后缀,因此该过程可能会发生多次。也就是说,当我们提取根时,该根可能还包含另一个后缀或前缀。为了强调这一点,我们提供了一个包含术语的示例高血糖的文本框2

表1。英语和西班牙语词缀的例子和相应的定义。
语言和词缀 类型 定义 起源
英语



adip - 前缀 脂肪的脂肪或脂肪组织的或与之有关的 拉丁

-dipsia 后缀 (状态)口渴 希腊
西班牙语



pireto - 前缀 Forma prefija独特的重要纤维 拉丁语或希腊语

-opsia 后缀 Forma sufija que significant visión 希腊
图1所示。简化流程图。
查看此图
SubSimplify算法中每一步的描述。

贴上标识:

词缀字典中的所有词缀都与术语从长到短进行比较。如果术语的开头(对于前缀)或结尾(对于后缀)包含词缀字符,则系统认为这是词缀匹配。

词缀定义:

对于每个词缀匹配,词缀字典定义被添加到新构造的解释中。

根萃取:

通过删除前缀或后缀提取术语的根。由于这可以无意中删除根的一些字符,因此我们认为根是剩余的字符加上在匹配项的边缘处根的单个字符变体。

资源搜索:

然后在WordNet和CHV中搜索提取的根。如果没有找到,我们将根重新引入到相同的进程中,直到没有找到匹配项。

文本框1。SubSimplify算法中每一步的描述。
SubSimplify算法在高血糖中的应用。

贴上标识:

我们迭代地遍历词缀字典并匹配前缀过度高血糖的

词缀定义:

的定义- - - - - -”表示极端的或超出正常的事物。-被添加到该术语的解释中高血糖的

根萃取:

我们提取血糖高血糖的。

资源搜索:

搜索WordNet和CHV血糖的所有单字符变体血糖(例如,aglycemic)。如果没有找到,我们将在血糖到目前为止还没有解释。

文本框2。SubSimplify算法在高血糖中的应用。
表2。举例英语解释。
解释资源 例词 解释
CHV一个 嗜铬细胞瘤 肾上腺髓质染色质组织的一种通常为良性、包被良好的小叶血管性肿瘤
WordNet总结 鼻炎 鼻子粘膜的炎症(通常与鼻分泌物有关)
WordNet同义词 减毒 精选
SubSimplify 高血糖的 高糖,“极端的”或“超出正常的”-糖-与…有关
词向量最近邻 弓形虫

一个消费者健康词汇。

这个过程会重复,直到没有根,或者直到剩余的根无法被任何资源识别。为血糖,系统将识别"随后glyc -停在-嗯- - - - - -

如果术语包含“-”或任何其他非言词角色,我们也把它们分开。然后将解析的词缀和词根与其解释对齐,以提供一个词缀一个词缀的术语分解。对于系统中未识别的任何词缀,例如-嗯- - - - - -高血糖的,根的定义仍然是根本身。在呈现术语时,这些词缀根据顺序和颜色与其定义相匹配,以便作者尽可能容易地识别。的示例解释高血糖的显示在表2。这个表格包含了对一些不同的困难术语的解释,以突出它们的质量。请注意,并非所有资源都包含对所有术语的解释,因此所有资源都能够为单个术语提供解释的情况极为罕见。

而CHV [35]和WordNet摘要资源提供了整句解释(语义简化),WEV和WordNet同义词提供了每个术语的单字解释(词汇简化)。SubSimplify提供了两者的混合:对于单个已解析的子词单元,提供同义词或简要描述。

接下来,我们描述了两项研究,旨在评估这些英语和西班牙语解释的质量、覆盖范围和有用性。

研究

为了评估新生成的解释的质量、覆盖范围和有用性,以及它们与现有资源的比较,我们进行了两项研究:一项用英语,一项用西班牙语。

学习一:英语术语解释生成
研究刺激
刺激

为了获得常见文本中出现的一系列医学术语,我们从维基百科中提取了20个关于医学主题的文档和100个PubMed摘要。从这些文档中,我们使用术语熟悉度提取困难的术语。为了本研究的目的,我们将困难术语定义为在b谷歌Web语料库中频率低于第5000位的术语,之前的工作表明这是一个合理的标准[7]。考虑到这些困难的术语,我们从每种资源类型(PubMed和Wikipedia)中选择了200个术语,在所有文档中进行平衡(分别为100和20)。为了研究频率的影响,我们还按频率平衡了每组200个难词。根据高频和低频提取两组。高频项是频率在最高的五分位数内的项,而低频项是频率在最低的五分位数内的项。该研究总共包含400个术语,这些术语平均分布在高频和低频、文档源和文档本身。

解释一代

我们将我们的方法与之前的四种方法进行了比较:CHV、WordNet同义词和摘要以及WEV。当在这些资源的数据库中可以找到完全匹配的术语时,这些资源会提供解释。

指标

对于这400个术语中的每一个,我们计算了3个指标:质量、覆盖率和有用性。质量由学科专家(SEs)评判。本研究要求社会服务人员(1)以该语言为母语,(2)至少拥有公共卫生或医学相关领域的硕士学位。这些专家通常有评估医疗资源质量的经验,在这项研究中,他们的时间得到了经济补偿。

质量这两个se审查了每个术语以及候选定义和解释。对于每一个定义或解释,SEs在4分李克特量表上注释了它的有用程度。表3提供每个评级级别的描述。通过计算每个来源提供解释的术语的百分比来测量覆盖率。有用性是一个比质量更广泛的衡量标准,并考虑到术语和资源的可用性。当没有找到一个词时,它得到0分。虽然质量让我们知道资源解释有多准确,但有用性告诉我们,如果我们将这种资源用于所有术语,它将表现得有多好。

过程

SEs评估了每个资源提供的400个术语和相应的解释。每个学期的讲解顺序是随机的。对于每一个术语,se根据上面描述的质量和覆盖度量对术语进行评分。然后,我们通过覆盖标准化质量来计算有用性。

为了直观地了解这项研究是如何进行的,图2包含包含研究步骤的流程图。

表3。李克特质量量表。
评级 描述
1 解释没有用给注释文本的人。
2 解释是有用的给注释文本的人。
3. 解释是有用的给注释文本的人。
4 解释非常有用给注释文本的人。
图2。英语术语解释生成学习的步骤。
查看此图
表4。英语学习成绩。
指标 CHV一个 WordNet同义词 WordNet总结 SubSimplify WEVb
质量(1-4等级) 2.81 2.09 3.32 1.64 1.64
覆盖率(N=400), % 6.0 53.0 53.0 80.5 83.8
有用性(0-4分) 0.169 1.11 1.76 1.32 1.38

一个消费者健康词汇。

bWEV:词嵌入向量。

评价结果
Interoperator可变性

为了比较每个社会经济等级之间质量分数的可变性,我们计算了Crohnbach alpha。由于我们没有将质量评级限制为排名顺序,因此每个术语有可能在每个术语中有多个获得最佳分数的解释。因此,我们用两种方法来计算Crohnbach alpha。首先,在保守版本中,我们计算每个SE是否为每个术语选择了所有相同的最佳解释,在更自由的版本中,每个SE是否为每个术语选择了一个相同的最佳解释。对于英语,保守版本和自由版本的结果分别为0.69和0.90。因此,我们确定互操作的可靠性足够高,可以平均他们的评级。表4用英文显示每个解释源的质量、覆盖率和有用性度量的结果。

表4,我们看到每一列表示解释来源,3行给出了跨se的平均指标。例如,CHV在场时的平均质量分数为2.81,但在总共400个术语中,CHV只能提供24个术语的解释。随后,对于400项,其有用性仅为0.169。回想一下,该资源代表手动生成的资源,以帮助简化医疗文档中的词汇。其结果是,质量评级相对较高,但覆盖率是迄今为止最低的。接下来,我们看到WordNet摘要和同义词各自提供了相同数量的解释。然而,摘要(语义简化)得分远高于同义词(词汇简化),分别为3.32分和2.09分。同样,考虑到它们只提供了212个术语的解释,它们的有用性分别只有1.76和1.11。虽然SubSimplify的质量得分为1.64,但其覆盖率为322,而WordNet的覆盖率为212,这意味着400的覆盖率从53.0%增加到80.5%困难的方面。因此,SubSimplify的有用性为1.32,高于WordNet同义词和CHV。最后,WEV提供了最大的覆盖率,并且在质量上与SubSimplify相同(1.64),但具有更高的覆盖率(335)和质量(1.38)。然而,正如我们在下一小节中所描述的,SubSimplify和WEV的质量性能之间存在明显差异。与WEV相比,SubSimplify在低频词和更多技术文献中的表现更好。

质量

为了评估显著性,我们进行了2×2×5方差分析(ANOVA),以质量为因变量。独立指标为文献来源(Wikipedia或PubMed)、频次(Low或High)和五个解释来源(CHV、WordNet Synonym、WordNet Summary、SubSimplify和WEV)。主要影响因素是频率(F2186= 3.859,P<.02)和解释类型(F4, 2186= 260.1,P<措施)。这表明,平均而言,资源在较低频率术语上的表现明显更好,并且资源之间存在显着差异。

除了主要影响外,解释类型和频率之间存在显著的双向交互作用(F2186= 2.993,P<措施;图3)。图3包含每个资源在低频和高频的平均质量。鉴于我们的文档包含医学术语,我们预计低频词是最罕见的,因此也是最具技术性的。对于任何试图总结这些文件的系统来说,它们都是最困难的目标。例如,专门为医学术语编写的CHV在低频术语方面的性能要比高频术语高得多(3.12 vs 1.74)。此外,WordNet同义词和摘要在低频率术语上的表现都略好于高频术语。有趣的是,SubSimplify也遵循了这个模式。然而,WEV有相反的趋势。WEV不仅在高频项上的表现优于低频项,而且在低频项上的表现也略低于SubSimplify(对比SubSimplify的1.67评级和WEV的1.63评级)。

报道

为了评估频率和文档来源对每个资源覆盖率的影响,我们使用覆盖率作为因变量进行了另一个2×2×5方差分析。主要影响因素是频率(F3970= 3.859,P<.001)和解释类型(F4, 3970= 260.1,P<措施;指表2这表明,平均而言,解释对高频术语的覆盖范围明显大于低频术语。

解释类型与频率之间存在显著的双向交互作用(F3970= 6.557,P<.001)以及解释类型和文档来源之间的显著交互作用(F4, 3970= 11.523,P<措施;图4)。

图3。英语讲解类型-频率互动提高质量。CHV:消费者健康词汇,WEV:词嵌入向量。
查看此图
图4。英文报道-频率互动(左)和报道-文件类型互动(右)。CHV:消费者健康词汇,WEV:词嵌入向量。
查看此图

从左边可以看到图4术语频率影响每种解释类型的覆盖范围。CHV对低频和高频术语的覆盖率相似,而WordNet对高频术语的覆盖率远高于低频术语(0.47 vs 0.77)。然后,SubSimplify将低频术语的覆盖率从0.47增加到0.78,将高频术语的覆盖率从0.77增加到0.79。最后,WEV略微增加了低频词的覆盖率(从0.77增加到0.78),但增加了高频词的覆盖率,从0.79增加到0.94。这表明SubSimplify在低频和高频条件下的表现非常相似,就像CHV的情况一样,但总体覆盖范围要大得多。

接下来,我们看一下文档源和覆盖的交互作用。回想一下,PubMed比Wikipedia资源包含更多的技术医学术语,因此,它构成的术语应该包含更多的技术术语。在…的右边图4,我们看到CHV、SubSimplify和WEV在PubMed中的覆盖率都高于Wikipedia,而WordNet在Wikipedia文档中的覆盖率更高。x轴描述了PubMed和Wikipedia中每个解释源的比例覆盖率,y轴包括覆盖率的变化。例如,WordNet为PubMed(0.48)提供的解释比维基百科(0.52)少,而SubSimplify为PubMed(0.8)提供的解释比维基百科(0.75)多。需要注意的一个关键点是,SubSimplify具有与WEV相同的覆盖范围。这表明SubSimplify在技术医学文本中的表现与全自动WEV一样好。

有用性

接下来,我们以有用性为因变量执行另一个2×2×5方差分析。只有解释类型有主效应(F4, 3970= 95.170,P<措施;指表2,第3行)和频率(F3970= 14.663,P<措施)。这表明,在不同的解释中,有用性评级显着不同,平均而言,高频术语的有用性评级显着更高。

解释类型与频率之间存在显著的双向交互作用(F3970= 5.390,P<.001)以及解释类型和文档来源之间的显著交互作用(F4, 3970= 6.387,P<措施;图5)。

正如在图5在左边,术语频率影响每种解释类型的有用性。CHV对低频词汇比高频词汇更有用,WordNet同义词对高频词汇比低频词汇更有用(1.50比1.00)。WordNet摘要对高频术语的有用性得分最高(2.40),对低频术语的有用性得分虽低,但仍然很高(1.62)。与此同时,SubSimplify对低频术语的有用性要高于高频术语(1.43 vs 1.35)。最后,WEV在高频项上的得分高于低频项(1.64比1.42)。这证实了SubSimplify是一种对低频术语表现最好的资源。

接下来,我们看一下文档源和覆盖的交互作用。回想一下,PubMed比Wikipedia包含更多的技术医学术语,因此,它所构成的术语应该包含更多的技术术语。在图5,我们看到WordNet在维基百科上表现得更好,SubSimplify和CHV在PubMed上都表现得更好。这肯定了SubSimplify在更多的技术文档上表现最好。

总结

对于英语研究,我们发现SubSimplify在覆盖率方面比现有的医疗资源表现得更好,并且在覆盖率方面具有相对较高的质量。此外,与CHV非常相似,SubSimplify在低频和更专业的术语上比高频术语表现得更好。此外,该资源对PubMed摘要中发现的术语的覆盖范围是所有资源中最大的。这些质量、覆盖范围和有用性结果表明,与其他现有资源相比,SubSimplify能够更好地为低频率和技术术语生成解释。

研究2:西班牙语术语解释生成

第二项研究用西班牙语评估了我们的方法。除了两个不同之处之外,这项研究与英语研究完全相同。首先,没有西班牙语CHV,西班牙语的WordNet只包含摘要(没有西班牙语同义词;我们使用的版本只包含映射到英语同义词的西班牙语术语)。因此,我们只使用了WordNet摘要,并只比较了三种可能的解释资源:我们的方法(SubSimplify)、WordNet和WEV。其次,由于没有西班牙语的PubMed摘要,对于我们的第二个资源,我们使用了Medline Plus [36,它是一个面向对健康信息感兴趣的人的医学文章资源。最后,所有的说明、评分和解释都是西班牙语。

图5。英语有用性测量中解释类型-频率交互作用(左)和解释类型-文档源交互作用(右)。CHV:消费者健康词汇,WEV:词嵌入向量。
查看此图
研究刺激
刺激

我们测试了400个医学术语,按频率平衡。为了获得在普通文本和更专业的文本中出现的一系列医学术语,我们从维基百科中提取了20个关于疾病主题的文档和20篇Medline Plus文章。从这些文档中,我们首先使用相同的术语熟悉度阈值提取困难术语。我们的截止频率低于西班牙语b谷歌网络语料库中最常见的第5000个术语[10]。在这些术语中,我们平衡了低频和高频的术语。总之,我们将这400个术语分为高频和低频以及文档源。

解释一代

我们将我们的方法与之前的两种方法进行了比较:WordNet和WEV。当在这些资源的数据库中可以找到完全匹配的术语时,这些资源会提供解释。

指标

对于这400个术语中的每一个,我们提取了解释。对于每种解释,我们都计算了质量、覆盖率和有用性。

过程

除了所有的说明和解释都是用西班牙语写的外,程序与英语完全相同。这些高级社会服务人员都是西班牙语和英语双语人士,但都获得了英语公共卫生硕士学位。

评价结果
Interoperator可变性

同样,我们计算了自由和保守两种版本的克罗恩巴赫alpha。对于西班牙语,保守版本和自由版本的结果分别为0.64和0.90。因此,我们再次确定互操作人员的可靠性足够高,可以将其质量评级合并为一组。

表5显示了每个西班牙语解释源的质量、覆盖范围和有用性的结果。可以看出,WordNet在三个资源中具有最高的平均质量评级(2.64),但提供了最低的覆盖率(20.5%),其结果有用性较低(0.543)。SubSimplify的覆盖率要高得多,达到90%,平均质量评分较低(1.49)。最后,WEV提供了更高的质量评级(1.84),但覆盖率低于SubSimplify(89.75%)。关于有用性,WEV优于SubSimplify (1.77 vs 1.24)。

给定这些结果,我们执行方差分析来理解每种解释类型的质量、覆盖率和有用性的频率和文档来源之间的关系。

质量

我们执行2×2×3方差分析来评估文档来源(Wikipedia或PubMed)和频率(高或低)对三个解释资源(WordNet, SubSimplify和WEV)的质量评级的影响。主要影响因素是频率(F1590= 13.39,P<.001)和解释类型(F2, 1590= 98.805,P<措施;指表3这表明,平均而言,解释在高频术语上的表现明显更好,并且基于其类型的解释的平均质量之间存在显着差异。

解释类型和频率之间也存在显著的双向交互作用(F2, 1590= 12.010,P<措施;图6)。图6显示频率与解释类型的交互作用。x轴描述了每个解释源在低频率和高频率下的平均质量,y轴包括平均质量评级的变化。SubSimplify在低频术语(1.54)上的表现优于高频术语(1.48),而WEV在低频术语(1.68)上的表现低于高频术语(2.03)。

报道

我们执行2×2×3方差分析来评估文档来源(Wikipedia或MedlinePlus)和频率(高或低)对三个解释资源(WordNet、SubSimplify和WEV)的覆盖率评级的影响。频率也有主要影响(F2382= 7.180,P<.001)和解释类型(F2, 2382= 1142.361,P<措施;指表3)。这表明,平均而言,这些解释在高频术语上的覆盖范围明显更好,并且基于其类型的解释的平均覆盖范围之间存在显着差异。

解释类型与频率之间存在显著的双向交互作用(F2, 2382= 4.465,P<.015),说明类型和文档来源之间存在显著的交互作用(F4, 2382= 6.259,P<措施;图7)。对于西班牙语术语,术语频率影响每个资源的覆盖范围,见图7在左边。对于WordNet,低频术语(0.22)的覆盖率略高于高频术语(0.20),但两者都相当低。对于SubSimplify,高频术语(0.92)的覆盖率高于低频术语(0.87)。WEV也是如此,高覆盖率和低覆盖率分别为0.93和0.86。这表明在西班牙语中,SubSimplify对低频术语的覆盖率最高,而WEV对高频术语的覆盖率最高。

对于文档源,WordNet对MedlinePlus术语的覆盖率(0.25)大于对Wikipedia术语的覆盖率(0.20)。同样,SubSimplify在MedlinePlus的技术性术语上的表现(0.93)优于在Wikipedia的一般性术语上的表现(0.87)。然而,WEV却有相反的效果,维基百科为0.93,MedlinePlus为0.86。简而言之,WEV在较少的技术性文本和高频术语上表现更好,而SubSimplify在低频术语和更多的技术性文本上表现更好。

表5所示。西班牙语学习成绩。
指标 WordNet总结 SubSimplify WEV一个
质量(1-4等级) 2.64 1.49 1.84
覆盖率(N=400), % 20.5 90.0 89.7
有用性(0-4分) 0.543 1.24 1.77

一个WEV:词嵌入向量。

图6。西班牙语质量解释类型-频率交互作用。WEV:词嵌入向量。
查看此图
图7。西班牙语的覆盖率-频率交互(左)和覆盖率-文件类型交互(右)。WEV:词嵌入向量。
查看此图
图8。说明类型-频率交互作用为频率。WEV:词嵌入向量。
查看此图
有用性

我们执行了相同的2×2×3方差分析,但这次以有用性作为依赖度量。结果表明,频率(F2382= 16.197,P<.001),解释类型(F2, 2382= 230.268,P<.001),以及文件来源(F2382= 6.737,P<措施)。这些结果表明,平均而言,解释在高频术语和维基百科文档上的表现要好得多。这也表明在解释类型的有用性度量上存在显著差异(参见表3第3行)。

此外,解释类型与解释频率之间存在显著的双向交互作用(F2, 2382= 17.911,P <措施)。图8描述这种交互。请注意,WordNet摘要在低频率和高频术语上的表现几乎相同(0.6)。这种模式也适用于SubSimplify(两者都是1.4)。最后,WEV在高频项上的有用性比在低频项上的有用性要好得多(1.9 vs 1.4)。

总结

对于西班牙的研究,我们发现SubSimplify在覆盖率方面比WordNet和WEV表现得更好。具体来说,它在低频和更专业的术语上表现最好;其平均质量低于其他两种资源,但在低频时较好。


在英语和西班牙语中,SubSimplify的低频率质量评分最高,这两种语言的评分相似。此外,在两种语言中,SubSimplify在覆盖率方面有相似的结果。在英语和西班牙语的研究中,我们看到SubSimplify在为困难术语提供多词解释的能力上大大优于现有资源。也就是说,SubSimplify在英语的质量上优于CHV和WordNet摘要,在西班牙语的质量上优于WordNet。此外,它以低频率和更技术性的文本提供了最多的解释。

与此同时,我们所展示的许多质量和覆盖范围涵盖了重叠的数据。在这里,我们已经评估了这些资源的覆盖范围,如果我们将它们全部应用到一个系统中。这样做将突出SubSimplify在更大的简化系统中可以发挥的作用。考虑到每种语言的400个术语,图表在图7突出显示每个资源的累积覆盖率。鉴于并非所有资源都涵盖相同的单词,这些条形图显示了系统的覆盖范围,其中包括来自前一个资源的每个不重叠的解释或同义词。

左边,CHV提供了最低的23个覆盖率,WordNet提供了212个,SubSimplify提供了322个,最后,WEV提供了400个中的336个。在右边,我们看到了当我们用西班牙语添加每个资源时,我们的系统可以提供的解释数量。例如,如果我们只使用CHV,我们只能提供23个术语的解释。然而,随着我们添加每个资源,我们可以提供解释的(不重叠的)术语的数量也在增加。加上WordNet,我们可以提供222个术语的解释;然后通过添加SubSimplify,我们可以提供349的解释。最后,通过添加WEV,我们可以提供400个术语中的385个解释,占所有术语的99%。

图9。英语(左)和西班牙语(右)的累积覆盖率。CHV:消费者健康词汇,WEV:词嵌入向量。
查看此图
图10。英语(左)和西班牙语(右)的累积效用。CHV:消费者健康词汇,WEV:词嵌入向量。
查看此图

SubSimplify作为一种中间资源,介于全自动的、提供同义词的WEV源和由注释者编写的CHV和WordNet资源之间。在其半自动方法中,它增加了所有简化系统都可以提供多词解释的总术语的覆盖范围。当我们查看所有解释的累积有用性时,这一点也很明显,这可以在图9。这里我们提供了所有条款相加的累积质量评级。例如,在英语中(左),CHV质量是对所有400个术语的解释的平均评分,其中大多数为0。然后+WordNet同义词给出这两个资源组合的平均质量。当两个资源各提供一个解释时,我们采用两个资源中评分较高的解释。结果是,通过将SubSimplify与所有资源结合使用,这个简化系统可以提供英语和西班牙语的有用性评级分别为2.64和2.09的解释(右)。


主要研究结果

英语和西班牙语研究的目的是评估使用SubSimplify对医学文本的效果,结果显示了预期的结果。与WordNet和CHV相比,平均而言,解释的质量较低。这可能是一些不同问题的指示,我们将在限制中展开。

令人惊讶的是,WEV的全自动系统超出了我们的预期。在创建SubSimplify时,我们设想会有许多与困难术语无关的虚假匹配和同义词,但是结果显示出比预期更好的性能。基于此,我们有动机采用WEV作为SubSimplify中词根同义词的另一种来源方式。也就是说,在其当前形式中,SubSimplify在解析每个词缀之后在WordNet(以及英语中的CHV)中执行术语查找。基于这些结果,我们有动机让系统在这个阶段也执行WEV查找。

使用SubSimplify的一个挑战是最大化解释本身的可理解性。虽然现有资源包含该术语的单一定义,但SubSimplify依赖于将多个定义组合在一起以形成单一解释。目前,该系统采用一种颜色编码方案,将一行上的形态单位与其在另一行上的定义联系起来。这可能会使一些人难以阅读,当人们不习惯看到这些定义时,有效地降低了质量。为了缓解这个问题,我们的团队计划实现几种不同的格式,并在不久的将来在交互式Web程序中对它们进行测试。

限制

SubSimplify自然受到两个因素的限制。首先,并非所有疑难医学术语都包含子词单位,此外,并非所有子词单位都匹配或完全准确。这是因为并非所有术语都包含形态单位,系统无法知道单词中的哪些字符是后缀的实际例子。除此之外,即使它们是词缀的正确匹配,也不能保证术语的实际含义直接反映了其中发现的词缀。例如,它可以提供一个意义和- - - - - -的身体抗体。但是解释是对身体不能反映该术语的实际含义。

另一种可能性是,SubSimplify生成的许多解释可能是不完整的。例如,它可以提供-的含义艾尔远端但没有意义dist。。结果将是任何人都难以理解的。然而,该系统确实提供了手工注释和自动文本之间的桥梁,因此,应该服从于这些类型的例外和有问题的情况。

其次,由于使用WordNet和CHV, SubSimplify也受限于这些资源的覆盖范围。然而,我们相信这项工作为一个旨在为复杂术语提供解释的系统提供了有用的补充。

结论

SubSimplify的定位是利用医学术语中形态单位的规律性,为将难懂的术语分解为易于理解的术语提供一个窗口。SubSimplify将随着用于创建它的资源的改进而改进。此外,我们想看看多词短语,因为它们经常揭示单个单词上下文无法单独提供的上下文含义。这种方法的目的是作为一种额外的资源,可以添加到其他方法中,以自动为困难的文本提供解释。该系统产生的解释大大增加了困难术语的数量,从而可以提供更容易的替代方法,从而在医学领域的文本简化领域取得了进步。

致谢

本文所报道的研究得到了美国国立卫生研究院国家医学图书馆的支持,奖励号为R01LM011975。内容完全是作者的责任,并不一定代表美国国立卫生研究院的官方观点。

利益冲突

没有宣布。

  1. 福克斯皮尤研究中心,2011年2月1日。运行状况主题URL:http://www.pewinternet.org/pdfs/PIP_Health_Report_July_2003.pdf[浏览时间:2006-08-10][WebCite缓存
  2. Davis TC, Mayeaux EJ, Fredrickson D, Bocchini JA, Jackson RH, Murphy PW。家长阅读能力与儿科患者教材阅读水平的比较。中华儿科杂志(英文版);1993(3):463 -468。(Medline
  3. 金丁D,潘泽A,尼尔森-波尔曼L.健康素养:结束困惑的处方。华盛顿:美国国家科学院出版社;2004:一个。
  4. Paasche-Orlow MK, Parker RM, Gazmararian JA, Nielsen-Bohlman LT, Rudd RR。卫生知识普及程度有限。中华普通实习医学杂志2005;20(2):175-184 [J]免费全文] [CrossRef] [Medline
  5. 自动文本简化研究。计算机工程学报(英文版);2014;31(1):444 - 444。
  6. 李文思等。词汇简化的普遍性。语言学习1978年12月1日;28(2):399-415。
  7. Leroy G, Endicott JE, Kauchak D, Mouradi O, Just M.使用术语熟悉度的文本简化算法对感知、理解、学习和信息保留的影响。[J]中国医学杂志,2013;15(7):e144 [J]免费全文] [CrossRef] [Medline
  8. 李建军,李建军。基于树转导的句子简化。2013年8月8日发表于:第二届“预测和提高目标读者群体的文本可读性”研讨会;2013;索菲亚1-10页。
  9. 李建军,李建军。基于文本质量预测的文本可读性研究。2008年10月25日发表于:自然语言处理经验方法会议;10月;爱丁堡大学第186-195页。
  10. 张志强,张志强。Web 1t5 -gram, 10种欧洲语言版本1 LDC2009T25。版本:WebT 5克版本。费城:语言学数据协会;2009.
  11. 李建军,李建军。词汇熟悉度对实际和感知文本难度的影响。中国医学信息学报,2014;21(1):569 - 572 [J]免费全文] [CrossRef] [Medline
  12. 李建军,李建军,李建军,等。一种基于语义和句法的健康信息文本简化工具。中国机械工程学报(英文版);2010 (11):366-370 [j]免费全文] [Medline
  13. 曾秋冬,谢涛,陈晓明,陈晓明。消费者健康词汇的词汇形式研究:第一代消费者健康词汇。AMIA年度会议程序2006:1155 [免费全文] [Medline
  14. 统一医学语言系统(UMLS):整合生物医学术语。核酸学报2004年1月01日;32(数据库版):D267-D270 [免费全文] [CrossRef] [Medline
  15. 消费者健康的受控词汇。中华生物医学杂志2003;36(4):326-333 [J]免费全文] [Medline
  16. 曾国涛,谢涛,郭卫东,陈建平,陈建平。基于CFD的健康概念显示名称识别。AMIA年报程序2005:859-863 [免费全文] [Medline
  17. 杨建军,杨建军,李建军,等。电子病历文本翻译技术研究进展[j]。中国生物医学工程学报2007年10月11日[j]免费全文] [Medline
  18. 王晓明,王晓明,王晓明,等。基于健康词汇的医学报告翻译与评价。医学互联网研究,2017年12月18日;19(12):e417 [J]免费全文] [CrossRef] [Medline
  19. 王志强,王志强。英语动词语义网络研究。在:WordNet:一个电子词汇数据库。剑桥:麻省理工学院出版社;1998.
  20. 李建军,李建军,李建军,等。西班牙语词汇简化资源比较。见:统计语言和语音处理:第一届国际会议,SLSP 2013, Tarragona, Spain, July 29-31, Proceedings(计算机科学讲义)。海德堡-柏林:施普林格;2013:236 - 247。
  21. Shardlow M.复杂词自动识别技术的比较。2013年8月4日,发表于:第51届计算语言学协会年会上,学生研究研讨会论文集;2013;《索菲亚》第103-109页。
  22. 基于wordnet的文档词汇简化。2012年9月19日在第11届自然语言处理会议上发表;2012;维也纳,第80-88页。
  23. 谢胡,李建军,李建军,等。基于机器人的生物分子动力学模型的研究进展。[j] 2016年11月29日;57:509-572。(CrossRef
  24. Paetzold G.白玫瑰论文在线。:谢菲尔德大学非英语母语者的词汇简化。【博士论文】网址:http://etheses.whiterose.ac.uk/15332/1/Final_Version_Thesis.pdf[访问日期:2018-04-12][WebCite缓存
  25. 陈凯,陈建军,陈建军。基于分布式表征的词和短语组合。2013年发表于:神经信息处理系统的进展;2013;太浩湖3111-3119页。
  26. 简化词汇简化:我们需要简化语料库吗?2015年发表于:计算语言学协会和第七届国际自然语言处理联合会议短论文卷2;2015;北京,第63-68页。
  27. 王志强。西班牙语十亿词语料库和嵌入。2016。URL:http://crscardellino.me/SBWCE/[访问日期:2018-04-12][WebCite缓存
  28. 廷德尔A.医学术语。医学术语:它们的根和起源。博卡拉顿:CRC出版社;1997.
  29. 格林T.英语的希腊和拉丁词根。Lanham: Rowman & Littlefield;2014年7月17日。
  30. 维基百科,免费百科全书。医学词根、后缀和前缀列表https://en.wikipedia.org/wiki/List_of_medical_roots,_suffixes_and_prefixes[访问日期:2018-04-12][WebCite缓存
  31. McAuley D. Global RXPh:临床医生的终极参考。2018年4月26日。医学术语- a到Zhttp://www.globalrph.com/medterm.htm[访问日期:2018-04-12][WebCite缓存
  32. Gramaticas。Prefijos y Sufijos m dicoshttp://www.gramaticas.net/2013/10/prefijos-y-sufijos-medicos.html[访问日期:2018-04-12][WebCite缓存
  33. Salazar M. Enfermería:博客撰稿人,致力于科学与艺术研究Enfermería y . Educación。2013年2月26日。TerminologÍa mÉdica, sufijos, prefijos by abreviaturas网址:http://msalazar081858.blogspot.com/2013/02/terminologia-medica-sufijos-prefijos-y.html[访问日期:2018-04-12][WebCite缓存
  34. 波特词干算法:过去和现在。节目2006年7月1日;40(3):219-223 [免费全文] [CrossRef
  35. Miller N, Lacroix EM, Backus JE。MEDLINEplus:建立和维护国家医学图书馆的消费者健康网络服务。中华医学杂志,2000;33 (1):11-17 [j]免费全文] [Medline
  36. Leroy G, Endicott JE。术语熟悉度对医学数字图书馆文本感知和实际难度的指示。[1]陈星,陈志强,陈志强,编辑。数字图书馆:文化传承、知识传播与未来创造。柏林,海德堡:施普林格;10月2011:307 - 310。


方差分析:方差分析
CHV:消费者健康词汇
NLP:自然语言处理
SE:主题专家
uml:统一医学语言系统
WEV:词嵌入向量


G·艾森巴赫编辑;提交13.04.18;B Qenam, A Mavragani的同行评审;对作者的评论23.05.18;修订版本收到13.06.18;接受16.06.18;发表02.08.18

版权

©Nicholas Kloehn, Gondy Leroy, David Kauchak, Yang Gu, Sonia Colina, Nicole P Yuan, Debra Revere。原载于《医学互联网研究》(//www.mybigtv.com), 2018年8月2日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map