原始论文
摘要
背景:在大多数情况下,医学领域的文章摘要是公开的。虽然每个人都能理解这些,但由于复杂的医学词汇,对更广泛的观众来说很难理解。因此,简化这些复杂的摘要是必不可少的,以使医学研究可为广大公众。
摘要目的:本研究旨在开发一种基于深度学习的文本简化(TS)方法,将复杂的医学文本转换为更简单的版本,同时保持生成文本的质量。
方法:开发了一种使用强化学习和基于变压器的语言模型的TS方法。相关性奖励、Flesch-Kincaid奖励和词汇简单性奖励进行了优化,以帮助将术语密集的复杂医学段落简化为更简单的版本,同时保留文本的质量。该模型使用3568个复杂-简单的医学段落进行训练,并通过自动化指标和人工注释对480个段落进行评估。
结果:提出的方法优于先前的Flesch-Kincaid评分基线(11.84),并在使用ROUGE-1 (0.39), ROUGE-2(0.11)和SARI评分(0.40)测量时与其他基线取得了相当的性能。人工评价表明,在考虑流畅性、连贯性和充分性等因素时,人工注释人员之间的一致性百分比超过70%。
结论:成功开发了一种独特的医疗TS方法,利用强化学习准确地简化了复杂的医疗段落,从而提高了其可读性。所提出的TS方法可以应用于为复杂的医学文本数据自动生成简化文本,这将提高更广泛受众对生物医学研究的可访问性。
doi: 10.2196/38095
关键字
简介
背景
生物医学领域的研究包含了与各种疾病的新药和治疗方法相关的新临床试验的基本信息。虽然这些信息是公开的,但通常有复杂的医学术语,使公众难以理解。解决这一问题的一种方法是将复杂的医学文本转换为更简单的语言,以便更广泛的受众能够理解。尽管手动文本简化(TS)是解决该问题的一种方法,但它无法扩展到快速扩展的生物医学文献。因此,就有了发展的需要<我>自然语言处理可以自动执行TS的方法。
相关的研究
TS方法
在TS领域的初步研究主要集中在<我>词汇简化(LS) [<年代p一个nclass="footers">1,<年代p一个nclass="footers">2].LS系统通常涉及使用词汇数据库将复杂的单词替换为更简单的替代词,例如<我>释义数据库[<年代p一个nclass="footers">3.], WordNet [<年代p一个nclass="footers">4],或使用语言模型,例如<我>来自变压器的双向编码器表示s(伯特)[<年代p一个nclass="footers">5].最近的研究将TS定义为a<我>sequence-to-sequence(seq2seq)任务,并通过利用其他seq2seq任务(如机器翻译和文本摘要)的模型架构来实现它[<年代p一个nclass="footers">6-<年代p一个nclass="footers">8].Nisioi等[<年代p一个nclass="footers">9]提出一个神经的<我>seq2seq模型,其中使用了<我>长短期记忆(LSTMs)用于自动TS。它是在简单-复杂的句子对上训练的,并通过人类评估显示,TS系统生成的输出最终保留了意义,并且语法正确[<年代p一个nclass="footers">9].阿夫扎尔等[<年代p一个nclass="footers">10]结合了LSTMs,为医疗数据创建了一个具有质量意识的文本摘要系统。张和拉帕塔[<年代p一个nclass="footers">11]开发了一种基于lstm的神经编码器-解码器TS模型,并使用<我>强化学习(RL)直接优化SARI [<年代p一个nclass="footers">12和其他一些奖励一起得分。SARI是一种广泛用于TS自动评估的指标。
随着自然语言处理研究的最新进展,基于lstm的模型被transformer [<年代p一个nclass="footers">13]基于语言模型[<年代p一个nclass="footers">13-<年代p一个nclass="footers">16].变形金刚遵循编码器-解码器结构,由编码器和解码器组成<我>l相同的层。每一层由2个子层组成,一个子层是前馈层,另一个子层是多头注意层。基于变压器的语言模型,如BART [<年代p一个nclass="footers">14,生成式预训练变压器(GPT) [<年代p一个nclass="footers">15),而<我>text-to-text-transfer-transformer[<年代p一个nclass="footers">16],在文本摘要和机器翻译等自然语言生成任务上取得了优异的表现。
在基于变压器的语言模型成功的基础上,最近Martin等[<年代p一个nclass="footers">17]介绍了<我>多语言无监督句子简化(混乱)<年代p一个nclass="footers">17]、捷运系统[<年代p一个nclass="footers">14基于CCNet的语言模型,通过对从CCNet中挖掘的释义进行训练,在TS基准测试中取得了最先进的性能[<年代p一个nclass="footers">18语料库。赵等[<年代p一个nclass="footers">19]提出了一种半监督方法,该方法将反翻译体系结构与降噪自动编码器结合起来,用于自动TS。无监督TS也是一个活跃的研究领域,但主要局限于LS。然而,在最近的一项研究中,Surya等人[<年代p一个nclass="footers">20.]提出了一种无监督的方法来执行TS在词汇和句法层面。总的来说,TS领域的研究主要集中在句子级的简化上。然而,Sun等[<年代p一个nclass="footers">21]提出了一个文档级数据集(D-wikipedia)和基线模型来执行文档级简化。同样,Devaraj等人[<年代p一个nclass="footers">8]建议兴建捷运系统[<年代p一个nclass="footers">14]基于模型,该模型使用不可能损失进行训练,用于段落级医疗TS。尽管他们的训练制度会惩罚被视为“行话”的术语,并提高可读性,但生成的文本质量和多样性较低[<年代p一个nclass="footers">8].因此,缺乏文档或段落级别的简化使得这一领域的进展成为一项重要的工作。
TS数据集
大多数TS研究使用从维基百科和新闻文章中提取的数据[<年代p一个nclass="footers">11,<年代p一个nclass="footers">22,<年代p一个nclass="footers">23].这些数据集是成对的句子级数据集(即每个复杂句对应一个简单句)。TS系统严重依赖句子级数据集,从常规和简单的英语维基百科中提取,如WikiLarge [<年代p一个nclass="footers">11,因为它们是公开的。后来徐[<年代p一个nclass="footers">24从维基百科提取的数据集存在数据质量问题。他们提出了Newsela语料库,这是由教育工作者为不同年级的学生重写新闻文章而创建的。自动句子对齐方法[<年代p一个nclass="footers">25]在Newsela语料库上使用,以创建句子级TS数据集。尽管在句子级简化方面的研究取得了进展,但仍需要TS系统来简化段落级的文本。
最近的工作集中于文档级简化数据集的构建[<年代p一个nclass="footers">17,<年代p一个nclass="footers">21,<年代p一个nclass="footers">26].孙等[<年代p一个nclass="footers">21通过对143,546篇文章对的英语维基百科和简单英语维基百科进行对齐,构建了一个文档级数据集,称为D-Wikipedia。虽然有许多用于句子级TS的数据集,但缺乏用于特定领域的段落级TS的数据集。在医疗TS领域,Van den Bercken等人[<年代p一个nclass="footers">27]使用句子对齐方法构建了一个句子级简化数据集。最近,Devaraj等人[<年代p一个nclass="footers">8]提出了第一个段落级医学简化数据集,包含4459个简单-复杂文本对,这是本研究用于分析和基线训练的数据集。来自Devaraj等人提出的数据集的复杂段落片段及其简化版本[<年代p一个nclass="footers">8]显示在<年代p一个nclass="footers">图1.该数据集是开源的,可供公众使用[<年代p一个nclass="footers">28].
TS评价
TS评价通常分为两类:自动评价和人工(即人工)评价。由于TS的主观性质,有人建议最好的方法是根据流畅性、意义保存和简单性等标准进行人工评估[<年代p一个nclass="footers">20.].最常用的自动评估指标包括可读性指标,如Flesch-Kincaid Reading Ease [<年代p一个nclass="footers">29),<我>Flesch-Kincaid等级(FKGL) [<年代p一个nclass="footers">29),<我>自动可读性索引(ARI), Coleman-Liau指数,以及自然语言生成任务的指标,如SARI [<年代p一个nclass="footers">12]及BLEU [<年代p一个nclass="footers">30.].
可读性指数被用来为文本的简单性分配一个等级。所有的可读性指数都是用单词权重、音节、字母或字数的某种组合来计算的,并被显示为衡量某种程度的简单性。自动评估指标,如BLEU [<年代p一个nclass="footers">30.]和莎丽[<年代p一个nclass="footers">12],广泛用于TS研究,而SARI [<年代p一个nclass="footers">12专门为TS任务开发的。SARI是通过将生成的简化与源引用和目标引用进行比较来计算的。它计算的平均值<我>F1-得分为3<我>语法重叠操作:添加、保留和删除。Both BLEU [<年代p一个nclass="footers">30.]和莎丽[<年代p一个nclass="footers">12]是基于n克的度量,可能无法捕捉生成文本的语义。
客观的
本研究的目的是开发一种自动TS方法,能够在段落级别简化医学文本数据,目标是为生物医学研究提供更大的可访问性。本文采用基于rl的训练方法直接优化简化文本的相关性和简单性。<我>相关性被定义为保留原始文章的显著和语义信息的简化文本。<我>简单定义为易于理解和词汇简单的简化文本。这两个属性通过使用ts特定奖励进行优化,从而使系统在Flesch-Kincaid分数上优于之前的基准。在领域专家的帮助下进行了广泛的人工评估,以判断生成文本的质量。
本文的其余部分组织如下:“方法”部分提供了关于数据集、训练过程和拟议模型的详细信息,并描述了如何进行自动和人工评估以分析拟议模型(TESLEA)产生的输出。“结果”部分简要描述了基线模型以及通过对生成的文本进行自动和手动评估获得的结果。最后在“讨论”部分,我们强调了局限性,未来的工作,并得出结论。
方法
模型的目标
对于一个复杂的医学段落,这项工作的目标是生成一个简洁的简化段落,并抓住复杂文本中表达的突出信息。为了实现这一点,提出了一个基于rl的简化模型,该模型在训练期间优化多个奖励,并使用段落级医疗TS数据集进行调优。
数据集
Cochrane科学评论数据库是一个包含广泛临床主题信息的卫生保健数据库。每篇综述都包含一个由作者按照指导原则编写的简单语言摘要(PLS)。pl应该是清晰的,可理解的,易于理解的,特别是对于不熟悉医学领域的普通观众。pl在本质上是高度异构的,并且不是成对的(即,对于每个复杂的句子,可能没有相应的简单版本)。然而,Devaraj等人[<年代p一个nclass="footers">8]利用Cochrane科学评论数据库的数据生成了一个配对数据集,该数据集有4459对复杂-简单文本,每个文本包含少于1024个标记,以便可以输入到BART [<年代p一个nclass="footers">14]模型用于TS。Devaraj等人开发的开创性数据集[<年代p一个nclass="footers">8]在本研究中用于训练模型,并已公开可用[<年代p一个nclass="footers">28].
TS使用RL
模式和奖励
为简化复杂医学文本任务而提出的TS解决方案使用基于rl的简化模型,该模型优化了多个奖励(<我>相关奖励,<我>Flesch-Kincaid等级奖励和词汇简单性奖励),以达到更完整和简洁的简化<我>.下面的小节介绍了这些奖励的计算,以及训练过程。
相关奖励
相关性奖励衡量的是目标文本在简化版本中的语义捕获程度。这是通过计算目标文本嵌入(<我>E<年代ub>T)和生成的文本嵌入(<我>E<年代ub>G).BioSentVec [<年代p一个nclass="footers">31]的文本嵌入模型用于生成文本嵌入。算法1描述了计算相关性得分的步骤。
的<我>RelevanceReward函数接受3个参数作为输入,即目标文本(<我>T),生成的文本(<我>G),以及嵌入模型(<我>米).这个函数<我>ComputeEmbedding获取输入文本和嵌入模型(<我>米)作为输入,并生成相关的文本嵌入。最后,生成文本嵌入之间的余弦相似度(<我>E<年代ub>G)和目标文本嵌入(<我>E<年代ub>T)来获得奖励(算法1,第4行)。
Flesch-Kincaid等级奖励
FKGL是指理解所呈现信息所必须达到的等级水平。FKGL分数越高,说明文本越复杂,分数越低,说明文本越简单。文本(S)的FKGL由公式1 [<年代p一个nclass="footers">29]:
FKGL(S) = 0.38 ×(总字数/总句子数)+ 1.8 ×(总音节/总字数)- (15.59)(1)
FKGL奖励(<我>R<年代ub>Flesch)旨在降低生成文本的复杂性,其计算方法如算法2所示。
在算法2中,函数<我>FleschKincaidReward以2个参数作为输入,即生成的文本(<我>G)和目标文本(<我>T).的<我>FKGLScore函数计算给定文本的FKGL。曾经的FKGL为<我>T而且<我>G计算时,Flesch-Kincaid奖励(<我>R<年代ub>Flesch)的相对差<我>r(<我>T),<我>r(<我>G)(算法2,第4行),其中<我>r(<我>T),<我>r(<我>G)表示目标和生成文本的FKGL。
词汇简单奖励
词汇简单性用于衡量所生成文本中的单词(<我>G)比原文中的文字(<我>年代).拉班等[<年代p一个nclass="footers">26]提出了一种词汇简单性奖励,利用单词难度和单词频率之间的相关性[<年代p一个nclass="footers">32].随着词频的增加<我>zipf法律,拉班等[<年代p一个nclass="footers">26用它来设计奖励函数,其中包括计算<我>zipf新插入词的频率,即<我>Z(<我>G- - - - - -<我>年代),并删除文字,即<我>Z(<我>S - g).词汇简单奖励的定义与Laban等人提出的方法相同。<年代p一个nclass="footers">26],在算法3中描述。Devaraj等人提出的数据集分析[<年代p一个nclass="footers">8]揭示了87%的简单和复杂配对的值为Δ<我>Z(<我>年代,<我>G)≈0.4,其中Δ<我>Z(<我>年代,<我>G) =<我>Z(<我>G- - - - - -<我>年代) - - -<我>Z(<我>年代- - - - - -<我>G)是<我>zipf插入词和删除词的频率,与词汇奖励值(<我>R<年代ub>词汇)在0到1之间缩放。
算法3中,<我>LexicalSimplicityReward需要源文本(<我>年代)和生成的文本(<我>G)作为输入。功能<我>ZIPFInserted[<年代p一个nclass="footers">25),<我>ZIPFDeleted[<年代p一个nclass="footers">25计算;计算<我>zipf新插入单词和删除单词的频率。最后,词汇奖励(<我>R<年代ub>词汇)进行计算并归一化,如第5行所述。
训练程序和基线模型
Pretrained巴特
本研究用于简化的基线语言模型为BART [<年代p一个nclass="footers">14],这是一个基于变压器的编码器-解码器模型,使用去噪目标函数进行预训练。该模型的解码器部分本质上是自回归的,这使得它更适合句子生成任务。此外,BART模型在自然语言生成任务(如摘要)上实现了强大的性能,这在XSum上得到了演示[<年代p一个nclass="footers">33]和CNN/每日邮报[<年代p一个nclass="footers">34]数据集。在这种情况下,在XSUM上微调的BART版本[<年代p一个nclass="footers">33]数据集正在被使用。
语言模型微调
基于transformer的语言模型在大量文本语料库上进行预训练,然后通过最小化最大似然损失(<我>Lml)功能[<年代p一个nclass="footers">3.].考虑一个成对的数据集<我>C,其中每个实例由一个源句组成,包含<我>n令牌<我>x= {<我>x1、……<我>x<年代ub>n}和目标序列包含<我>米令牌<我>y= {<我>y1、……<我>y<年代ub>n},则<我>Lml函数如式2所示,计算方法如算法4所示。
在哪里<我>θ表示模型参数和<我>y<t表示位置之前的符号<我>t[<年代p一个nclass="footers">35].
但是,通过最小化得到的结果<我>Lml并不总是最优的。导致结果下降的主要原因有两个。第一种是“暴露偏差”[<年代p一个nclass="footers">36],这种情况发生在模型在训练的每一步都期望金标准数据,但在测试过程中没有得到适当的监督,导致预测过程中错误的积累。第二种是“表象崩溃”[<年代p一个nclass="footers">37],这是在微调期间预训练语言模型表示的退化。Ranzato等人[<年代p一个nclass="footers">36]通过直接优化特定的离散度量来避免曝光偏差问题,而不是最小化<我>Lml在一种基于rl的算法REINFORCE的帮助下[<年代p一个nclass="footers">38].REINFORCE的变体[<年代p一个nclass="footers">38]称为自我临界序列训练[<年代p一个nclass="footers">39]在本研究中用于直接优化专门为TS设计的某些奖励;有关这方面的更多信息将在下一小节中提供。
自临界序列训练
TS可以表述为一个RL问题,其中“代理”(语言模型)与环境交互,根据学习到的“策略”(<我>p<年代ub>θ)由模型参数定义<我>θ在观察一些奖励时(<我>R).在这项工作中,BART [<年代p一个nclass="footers">14]作为语言模型,REINFORCE [<年代p一个nclass="footers">38算法来学习一种最优策略,使奖励最大化。具体来说,REINFORCE与基线一起使用,使用目标函数(<我>液化石油气)和基线奖励<我>b方程(3):
在哪里<我>p<年代ub>θ(<我>y<年代ub>我年代|的概率<我>我以先前由模型生成的采样序列为条件;<我>r(<我>y<年代up>年代)表示对抽样生成的句子计算的奖励;表示源句子,和<我>n生成的句子的长度。奖励是根据相关奖励(<我>R<年代ub>余弦),<我>R<年代ub>Flesch,以及词汇简单奖励(<我>R<年代ub>词汇;<年代p一个nclass="footers">图2),由:
在哪里<我>α,<我>β,<我>d分别是与奖励相关的权重。
为了接近基线奖励,自我关键序列训练[<年代p一个nclass="footers">39]被使用。基线是通过计算贪婪解码生成的句子的奖励值来计算的<我>r(<我>y*),其计算在算法5中描述。损失函数定义如式5:
在哪里<我>y*表示贪心解码生成的句子。贪婪解码的更多细节描述在<年代p一个nclass="footers">多媒体附件1(也请参阅[<年代p一个nclass="footers">8,<年代p一个nclass="footers">14,<年代p一个nclass="footers">17,<年代p一个nclass="footers">25,<年代p一个nclass="footers">26,<年代p一个nclass="footers">39-<年代p一个nclass="footers">42])。
直观地,通过最小化公式5中所描述的损失,选择样本序列的可能性(<我>y<年代up>年代)如果对采样序列获得奖励,<我>r(<我>y<年代up>年代),大于基线奖励所获得的奖励,即回报高于的样本<我>r(<我>y*)。获得较低奖励的样本随后被抑制。模型训练使用的组合<我>Lml而策略梯度损失类似于[<年代p一个nclass="footers">43].总的损失如下:
l=<我>γ液化石油气+ (1 -)<我>γ)<我>Lml (6)
在哪里<我>γ是一个可调的比例因子。
培训过程总结
总的来说,训练过程遵循两步方法。由于预先训练的BART [<年代p一个nclass="footers">14]没有在医疗领域相关文本上进行训练,它首先在文档级配对数据集上进行微调[<年代p一个nclass="footers">8]以尽量减少<我>Lml(最大似然估计[MLE];在第二部分中,使用RL对经过微调的BART模型进行进一步训练。TESLEA的RL过程包括2个步骤:(1)RL步骤和(2)MLE优化步骤,均如<年代p一个nclass="footers">图3并在算法6中进一步描述。给定的简单-复杂文本对被转换为BART模型所需的标记。在MLE步骤中,这些令牌用于计算<我>分对数最后计算MLE损失。在RL步骤中,模型使用2种解码策略生成简化文本:(1)贪心解码和(2)多项抽样。奖励以加权总和计算(<年代p一个nclass="footers">图3)用于使用两种解码策略生成的句子。然后,这些奖励被用于计算RL步骤的损失。最后,计算加权损失和,用于估计梯度和更新模型参数。所使用的所有超参数设置都包含在<年代p一个nclass="footers">多媒体附件2(也请参阅[<年代p一个nclass="footers">8,<年代p一个nclass="footers">12,<年代p一个nclass="footers">29,<年代p一个nclass="footers">33,<年代p一个nclass="footers">34,<年代p一个nclass="footers">44-<年代p一个nclass="footers">47])。
自动的度量标准
使用两个可读性指数对生成的文本进行自动评估,即FKGL和自动可读性指数(ARIs)。SARI分数是TS的标准度量。F-1版本的ROUGE-1和ROUGE-2 [<年代p一个nclass="footers">44]的分数也被报道了。读者可以在<年代p一个nclass="footers">多媒体附件2.为了衡量生成文本的质量,Yuan等人提出的标准[<年代p一个nclass="footers">45的“自动评估指标”一节中提到<年代p一个nclass="footers">多媒体附件2.Yuan等人提出的标准[<年代p一个nclass="footers">45可以使用基于语言模型的度量(称为“BARTScore”)自动计算。中还提到了如何使用BARTScore来测量生成文本质量的进一步细节<年代p一个nclass="footers">多媒体附件2.
人类的评估
在本研究中,3-domain专家根据前一节中提到的因素来判断生成文本的质量。评价者用李克特量表(Likert scale)从1到5对文本进行评分。首先使用TESLEA生成简化的测试数据,然后随机选取生成的51个段落,创建3个子集,每个子集包含17个段落。每个评估器都有2个子集,即总共34个由teslea生成的复杂-简单段落。评估通过谷歌表单进行,并要求人工注释人员衡量简化的信息质量(INFO)、流畅性(FLU)、连贯性(COH)、真实性(FAC)和充分性(ADE) (<年代p一个nclass="footers">图4).所有采集的数据均保存在CSV文件中进行统计分析。
结果
概述
本节由三个小节组成,即(1)基线模型,(2)自动评估,和(3)人工评估。第一部分重点介绍了用于比较和分析的基准模型。第二节讨论了通过执行模型的自动评估所获得的结果。第三部分(也是最后一部分)讨论了从人工评估中获得的结果,并分析了人工注释和自动度量之间的关系。
基线模型
TESLEA与其他强基线模型进行了比较,其细节如下:
- BART-Fine-tuned: BART-Fine-tuned是一个使用<我>Lml基于Devaraj等人提出的数据集[<年代p一个nclass="footers">8].研究表明,在对下游任务进行微调时,大型预训练模型通常具有竞争性,从而使其成为强大的竞争对手。
- BART-UL: Devaraj等[<年代p一个nclass="footers">8]还提出了用于段落级医疗检验的BART-UL。它是第一个执行段落级医疗检验的模型,并在自动化指标方面取得了良好的结果。BART-UL使用一个不可能目标函数进行训练,该函数会惩罚生成技术单词(即复杂单词)的模型。关于BART-UL培训程序的详细信息见<年代p一个nclass="footers">多媒体附件1.
- Muss: Muss [<年代p一个nclass="footers">17]是一个基于bart的语言模型,通过从CCNet语料库中挖掘释义来训练[<年代p一个nclass="footers">18].MUSS在包含100万个释义的数据集上进行了训练,帮助它获得了很高的SARI分数。尽管MUSS是在句子级数据集上进行训练的,但它仍然可以作为比较的强大基线。关于MUSS训练程序的进一步细节将在<年代p一个nclass="footers">多媒体附件1.
- Keep it Simple (KIS): Laban等[<年代p一个nclass="footers">26]提出了一种段落级TS的无监督方法。KIS使用RL进行训练,并使用GPT-2模型作为骨干。KIS在SARI分数上表现出色,击败了许多有监督和无监督TS方法。关于KIS培训程序的更多细节描述在<年代p一个nclass="footers">多媒体附件1.
- PEGASUS模型:PEGASUS是一个基于变压器的编码器-解码器模型,已经在许多文本摘要数据集上取得了最先进的结果。它是专门为文本摘要任务而设计的。在我们的分析中,我们使用了PEGASUS模型的2个变体,即(1)PEGASUS-large, PEGASUS模型的大变体,以及(2)PEGASUS- PubMed -large, PEGASUS模型的大变体,它在PubMed数据集上进行了预训练。这两个PEGASUS模型都使用<我>Lml基于Devaraj等人提出的数据集[<年代p一个nclass="footers">8].有关PEGASUS模型的更多资料,建议读者参阅[<年代p一个nclass="footers">46].
截至2022年6月,上述型号是唯一可用于医疗TS的型号。
自动度量的结果
用于自动评估的指标是FKGL、ARI、ROUGE-1、ROUGE-2、SARI和BARTScore。中报告了各种模型得出的平均可读性指数得分(即FKGL和ARI)<年代p一个nclass="footers">表1.ROUGE-1、ROUGE-2和SARI评分报告在<年代p一个nclass="footers">表2, BARTScore报告在<年代p一个nclass="footers">表3.
文本 | Flesch-Kincaid等级 | 自动可读性索引 | ||
基线 | ||||
技术抽象 | 14.42 | 15.58 | ||
标准的引用 | 13.11 | 15.08 | ||
生成模型 | ||||
BART-Fine-tuned | 13.45 | 15.32 | ||
BART-UL | 11.97 | 13.73<年代up>b | ||
TESLEA | 11.84<年代up>b | 13.82 | ||
吵架<年代up>c | 14.29 | 17.29 | ||
保持简单 | 14.15 | 17.05 | ||
PEGASUS-large | 14.53 | 17.55 | ||
PEGASUS-pubmed-large | 16.35 | 19.8 |
一个与普通语言摘要相比,TESLEA显著降低了FKGL和ARI评分。
b最好的得分。
cMUSS:多语言无监督句子简化。
模型 | ROUGE-1 | ROUGE-2 | 莎丽 |
BART-Fine-tuned | 0.40 | 0.11 | 0.39 |
BART-UL | 0.38 | 0.14 | 0.40<年代up>b |
TESLEA | 0.39 | 0.11 | 0.40<年代up>b |
吵架<年代up>c | 0.23 | 0.03 | 0.34 |
保持简单 | 0.23 | 0.03 | 0.32 |
PEGASUS-large | 0.44<年代up>b | 0.18<年代up>b | 0.40<年代up>b |
PEGASUS-pubmed-large | 0.42 | 0.16 | 0.40<年代up>b |
一个TESLEA的性能与其他车型相似。较高的ROUGE-1、ROUGE-2和SARI分数是可取的。
b最佳性能。
cMUSS:多语言无监督句子简化。
模型 | 信实的分数 | f值 |
BART-Fine-tuned | 0.137 | 0.078 |
BART-UL | 0.242 | 0.061 |
TESLEA | 0.366<年代up>b | 0.097<年代up>b |
吵架<年代up>c | 0.031 | 0.029 |
保持简单 | 0.030 | 0.028 |
PEGASUS-large | 0.197 | 0.073 |
PEGASUS-pubmed-large | 0.29 | 0.063 |
一个较高的诚信分数和f分数是可取的。
b最高得分。
cMUSS:多语言无监督句子简化。
可读性指数,ROUGE和SARI分数
报告的可读性指数得分<年代p一个nclass="footers">表1建议,与比较技术摘要(即数据集中可用的复杂医学段落)和金标准参考文献(即与复杂医学段落对应的简单医学段落)获得的FKGL分数相比,TESLEA获得的FKGL分数更好(即,较低的分数)。此外,与基线模型相比,TESLEA获得了最低的FKGL分数(11.84),表明TS有显著改善。结果表明:(1)基于bart的变压器模型能够在段落水平上进行简化,与技术摘要、金标准参考文献和基线模型相比,输出的阅读水平(FKGL)降低。(2)所提出的优化ts特定奖励的方法允许生成比金标准参考文献更具有可读性的文本,正如FKGL在<年代p一个nclass="footers">表1.FKGL分数的降低可以解释为FKGL是奖励的一部分(<我>R<年代ub>Flesch)直接进行优化。
此外,我们报告SARI [<年代p一个nclass="footers">12]和ROUGE评分[<年代p一个nclass="footers">44如:<年代p一个nclass="footers">表2.SARI是用于句子级TS任务的标准自动度量。ROUGE分数是文本摘要任务中的另一个标准度量。结果表明,TESLEA与基线模型在ROUGE和SARI评分上的表现相匹配。虽然在考虑ROUGE和SARI分数时没有明确的模式,但这些模型生成的文本质量存在差异,这些差异在“文本质量测量”小节中进行了解释。
文本质量测量
在设计能够捕捉由语言模型生成的文本的语言质量的自动度量标准方面已经取得了重大进展。其中一个能够衡量生成文本质量的指标是BARTScore [<年代p一个nclass="footers">45].从机器翻译到文本摘要,BARTScore与人类在各种任务上的评估有很强的相关性。BARTScore有4个不同的指标(即,忠实评分,精度,召回率,f评分),可以用来衡量生成文本的不同质量。中提到了如何使用BARTScore的进一步细节<年代p一个nclass="footers">多媒体附件2.
根据Yuan等人的分析[<年代p一个nclass="footers">45],忠实度评分通过COH、FLU和FAC来衡量生成文本的3个方面。f分数衡量生成文本的两个方面(INFO和ADE)。在我们的分析中,我们使用这两种变体的BARTScore来测量COH、FLU、FAC、INFO和ADE。TESLEA达到最高值(<年代p一个nclass="footers">表3(0.366)和F-score(0.097),表明为TS目的设计的奖励不仅有助于模型生成简化文本,而且在一定程度上保持了生成文本的质量。所有模型的f分数都相对较低(即接近1的分数是可取的)。f分数低的原因之一可能是在生成的文本中引入了错误信息或幻觉,这是语言模型的一个常见问题,可以通过调整训练策略,通过奖励或目标函数的帮助,专注于INFO来解决。
在定性分析中,我们从测试数据中随机抽取50个句子,并根据BART模型词汇计算平均标记数。对于可读性测量,我们计算了这些生成文本的FKGL分数,并记录了任何文本不一致,如错误信息。分析显示,大多数模型生成的文本明显小于黄金标准参考文献(<年代p一个nclass="footers">表4).此外,与其他基线模型相比,TESLEA和bart - ul生成的文本明显更短,在所有模型中,TESLEA的FKGL评分最低<年代p一个nclass="footers">表4.
从定性的角度来看,大多数基线模型生成的句子都涉及对原始复杂医学段落文本的大量重复。KIS模型生成的输出是不完整的,本质上是“有噪声的”。产生噪声的原因之一可能是由于缺乏庞大的领域特定数据语料库而导致训练不稳定。bart - ul生成的段落根据FKGL和ARI分数进行了简化,但它们本质上是提取的(即,模型学习从原始医学段落中选择简化的句子,并将它们组合起来形成简化)。pegasus -pubmed-large生成的段落本质上也是提取的,类似于bart - ul生成的段落,但观察到它们在语法上不一致。与基线模型相比,由TESLEA生成的文本简洁、语义相关且简单,不涉及任何与医学领域相关的复杂词汇。<年代p一个nclass="footers">图5显示一个由所有模型生成的文本示例,蓝色文本表示复制的文本。
除了重复文本之外,模型还会在生成的文本中诱导错误信息。所观察到的最常见的诱导错误信息形式是“证据是最新的[日期]”,如图所示<年代p一个nclass="footers">图6.此文本错误是由于数据的结构造成的(即PLS包含与本研究相关的语句,但这些语句不在原文中;因此,模型试图将这些语句添加到生成的文本中,尽管它实际上并不正确)。因此,应相当重视将FAC措施纳入这些模型的训练制度。为了更完整地评估简化质量,使用领域专家对由TESLEA生成的文本进行人工评估。
模型 | 令牌数量 | Flesch-Kincaid等级 |
技术抽象 | 498.11 | 14.37 |
标准的引用 | 269.74 | 12.77 |
TESLEA | 131.37 | 12.34 |
BART-UL | 145.08 | 12.66 |
保持简单 | 187.59 | 13.78 |
多语言无监督句子简化 | 193.07 | 13.86 |
PEGASUS-large | 272.04 | 13.93 |
PEGASUS-pubmed-large | 150.00 | 15.09 |
人类的评估
在本研究中,3位领域专家根据Yuan等人提出的INFO、FLU、COH、FAC和ADE等因素评估生成文本的质量[<年代p一个nclass="footers">45]中所讨论的<年代p一个nclass="footers">多媒体附件2.为了测量评分者之间的可靠性,计算注释者之间的百分比一致,结果显示在<年代p一个nclass="footers">表5.FLU、COH、FAC、ADE这五个因素的平均一致百分比最高,说明注释者的评价是一致的。
每个因素的平均李克特分数也由每个评分者报告(<年代p一个nclass="footers">表6).中所提到的数据<年代p一个nclass="footers">表6,评分者认为COH和FLU的质量最高,ADE、FAC和INFO的评分也相当高。
为了进一步评估自动化指标所获得的结果是否真正表明TESLEA生成的文本质量有所提高,计算了所有51个生成段落(文本)的人工评分和自动指标之间的斯皮尔曼等级相关系数,结果如图所示<年代p一个nclass="footers">表7.与其他指标相比,BARTScore与流感、FAC、COH和ADE的人类评分相关性最高。中显示了一些文本示例及其人工注释和自动度量分数<年代p一个nclass="footers">多媒体而且<年代p一个nclass="footers">图7.
评分者间信协议 | 信息量,% | 流利,% | 真实性,% | 一致性,% | 充足,% |
A1<年代up>一个和A2<年代up>b | 82.35 | 82.35 | 82.35 | 70.59 | 82.35 |
A1和A3<年代up>c | 70.59 | 58.82 | 70.59 | 70.59 | 70.59 |
A3及A2 | 52.94 | 70.59 | 74.51 | 74.51 | 64.71 |
平均(同意百分比) | 68.63 | 70.59 | 74.51 | 74.51 | 72.55 |
一个A1:注释器1。
bA2:注释器2。
cA3:标注者3。
评定等级 | 信息量 | 流利 | 真实性 | 一致性 | 充分性 |
A1 | 3.82 | 4.12 | 3.91 | 3.97 | 3.76 |
A2 | 3.50 | 4.97 | 3.59 | 4.82 | 3.68 |
A3 | 4.06 | 3.94 | 3.85 | 3.94 | 3.85 |
平均李克特得分 | 3.79 | 4.34 | 3.78 | 4.24 | 3.76 |
度规 | 信息量 | 流利 | 真实性 | 一致性 | 充分性 |
ROUGE-1 | 0.18<年代up>一个 | -0.04 | -0.01 | -0.05 | 0.06 |
ROUGE-2 | 0.08 | -0.01 | -0.05 | -0.04 | 0.05 |
莎丽 | 0.09 | -0.66 | -0.13 | -0.01 | 0.01 |
BARTScore | 0.08 | 0.32<年代up>一个 | 0.38<年代up>一个 | 0.22<年代up>一个 | 0.07<年代up>一个 |
一个最好的结果。
讨论
主要研究结果
由于特定领域的医学术语,关于生物医学的最新研究通常对普通公众来说是不可访问的。解决这个问题的一种方法是创建一个系统,将复杂的医疗信息转换为更简单的形式,从而使每个人都能获取。在本研究中,开发了一种TS方法,可以自动简化复杂的医学段落,同时保持生成文本的质量。所提出的方法训练基于变压器的BART模型,以优化TS的特定奖励,从而增加了简单性。BART模型使用所提出的RL方法进行训练,以优化某些奖励,帮助生成更简单的文本,同时保持生成文本的质量。结果,训练后的模型生成简化的文本,在使用FKGL[测量时,将原始文本的复杂性降低了2个等级点。<年代p一个nclass="footers">29].从得到的结果可以得出结论,与技术摘要、金标准参考文献(即简单的医学段落对应复杂的医学段落)和基线模型相比,TESLEA在生成更简单的文本方面是有效的。虽然以前的工作[<年代p一个nclass="footers">8]为这项任务开发了基线模型,据我们所知,这是RL首次应用于医疗TS领域。此外,之前的研究未能分析生成文本的质量,本研究通过FLU、FAC、COH、ADE和INFO等因素来衡量生成文本的质量。在领域专家的帮助下,使用上述因素对teslea生成的文本进行了手动评估,并进行了进一步的研究,以分析哪些自动度量标准与使用Spearman等级相关系数的手动注释一致。分析显示,BARTScore [<年代p一个nclass="footers">45]在对由TESLEA生成的文本进行评估时,与人类注释的相关性最好,这表明TESLEA学习生成语义相关和流畅的文本,这些文本传达了复杂的医学段落中提到的基本信息。这些结果表明:(1)TESLEA可以对医学段落进行TS,使输出简单且保持质量;(2)TESLEA优化的奖励有助于模型捕获句法和语义信息,提高输出的FLU和COH,这与BARTScore和人工注释人员对输出进行评估时的结果一致。
局限性和未来工作
虽然这项研究是对医学TS文献的重大贡献,但所提出的方法确实有一些局限性,解决这些局限性可以产生更好的输出。TESLEA可以生成更简单的文本版本,但在某些情况下,它会导致错误信息,导致所生成文本的FAC和INFO减少。因此,有必要在设计奖励时考虑生成文本的FAC和INFO。我们还计划使用领域专家(即医生和医学生)对各种模型(如KIS、BART-UL)生成的文本进行大规模的人工评估。
基于transformer的语言模型对预训练机制很敏感,所以下一步可能是在特定领域的原始数据集(如PubMed)上预训练语言模型。<年代p一个nclass="footers">40],这将有助于为模型开发特定领域的词汇表。包含这些策略可能有助于增加生成文本的简单性。
结论
随着数据量的不断增加,医疗领域对TS的兴趣和需求也越来越大。自动化系统,例如本文中提出的系统,可以极大地提高公众对信息的可访问性。这项工作不仅为自动化TS提供了技术解决方案,而且还列出并解决了评估此类系统输出的挑战,这可能是高度主观的。作者真诚地希望这项工作能让其他研究人员在类似工作的基础上继续努力并提高质量。
致谢
作者感谢湖首大学数据实验室的研究团队的支持。作者还感谢加拿大计算中心提供的计算资源,没有这些资源,这项研究就不可能完成。本研究由Vijay Mago博士主持的NSERC Discovery (RGPIN-2017-05377)资助。作者感谢Aditya Singhal先生(Lakehead大学硕士研究生)对手稿提供的反馈。
利益冲突
没有宣布。