发表在18.11.2022在<年代p一个nd一个t一个-test="issue-info">10卷<年代p一个n>第11名(2022)<年代p一个n>: 11月

本文的预印本(早期版本)可在<一个d一个t一个-test="preprint-link" aria-label="'Preprints (earlier versions) of this paper are available at preprints.www.mybigtv.com/preprint/'38095" href="//www.mybigtv.com/preprints/preprint/38095" target="_blank">https://preprints.www.mybigtv.com/preprint/38095,首次出版2022年3月18日.
使用强化学习(TESLEA)的医学文本简化:基于深度学习的文本简化方法

使用强化学习(TESLEA)的医学文本简化:基于深度学习的文本简化方法

使用强化学习(TESLEA)的医学文本简化:基于深度学习的文本简化方法

原始论文

1湖首大学计算机科学系,雷湾,安大略省,加拿大

2NOSM大学,安大略省桑德湾

3.NOSM大学,萨德伯里,安大略省,加拿大

通讯作者:

Atharva Phatak,理学硕士

计算机科学系

湖首大学

奥利弗道955号

雷鸣湾,ON, P7B 5E1

加拿大

电话:1 8073558351

电子邮件:<一个href="//www.mybigtv.com/medinform/2022/11/mailto:phataka@lakeheadu.ca">phataka@lakeheadu.ca


背景:在大多数情况下,医学领域的文章摘要是公开的。虽然每个人都能理解这些,但由于复杂的医学词汇,对更广泛的观众来说很难理解。因此,简化这些复杂的摘要是必不可少的,以使医学研究可为广大公众。

摘要目的:本研究旨在开发一种基于深度学习的文本简化(TS)方法,将复杂的医学文本转换为更简单的版本,同时保持生成文本的质量。

方法:开发了一种使用强化学习和基于变压器的语言模型的TS方法。相关性奖励、Flesch-Kincaid奖励和词汇简单性奖励进行了优化,以帮助将术语密集的复杂医学段落简化为更简单的版本,同时保留文本的质量。该模型使用3568个复杂-简单的医学段落进行训练,并通过自动化指标和人工注释对480个段落进行评估。

结果:提出的方法优于先前的Flesch-Kincaid评分基线(11.84),并在使用ROUGE-1 (0.39), ROUGE-2(0.11)和SARI评分(0.40)测量时与其他基线取得了相当的性能。人工评价表明,在考虑流畅性、连贯性和充分性等因素时,人工注释人员之间的一致性百分比超过70%。

结论:成功开发了一种独特的医疗TS方法,利用强化学习准确地简化了复杂的医疗段落,从而提高了其可读性。所提出的TS方法可以应用于为复杂的医学文本数据自动生成简化文本,这将提高更广泛受众对生物医学研究的可访问性。

JMIR Med Inform 2022;10(11):e38095

doi: 10.2196/38095

关键字



背景

生物医学领域的研究包含了与各种疾病的新药和治疗方法相关的新临床试验的基本信息。虽然这些信息是公开的,但通常有复杂的医学术语,使公众难以理解。解决这一问题的一种方法是将复杂的医学文本转换为更简单的语言,以便更广泛的受众能够理解。尽管手动文本简化(TS)是解决该问题的一种方法,但它无法扩展到快速扩展的生物医学文献。因此,就有了发展的需要<我>自然语言处理可以自动执行TS的方法。

相关的研究

TS方法

在TS领域的初步研究主要集中在<我>词汇简化(LS) [<年代p一个nclass="footers">1,<年代p一个nclass="footers">2].LS系统通常涉及使用词汇数据库将复杂的单词替换为更简单的替代词,例如<我>释义数据库[<年代p一个nclass="footers">3.], WordNet [<年代p一个nclass="footers">4],或使用语言模型,例如<我>来自变压器的双向编码器表示s(伯特)[<年代p一个nclass="footers">5].最近的研究将TS定义为a<我>sequence-to-sequence(seq2seq)任务,并通过利用其他seq2seq任务(如机器翻译和文本摘要)的模型架构来实现它[<年代p一个nclass="footers">6-<年代p一个nclass="footers">8].Nisioi等[<年代p一个nclass="footers">9]提出一个神经的<我>seq2seq模型,其中使用了<我>长短期记忆(LSTMs)用于自动TS。它是在简单-复杂的句子对上训练的,并通过人类评估显示,TS系统生成的输出最终保留了意义,并且语法正确[<年代p一个nclass="footers">9].阿夫扎尔等[<年代p一个nclass="footers">10]结合了LSTMs,为医疗数据创建了一个具有质量意识的文本摘要系统。张和拉帕塔[<年代p一个nclass="footers">11]开发了一种基于lstm的神经编码器-解码器TS模型,并使用<我>强化学习(RL)直接优化SARI [<年代p一个nclass="footers">12和其他一些奖励一起得分。SARI是一种广泛用于TS自动评估的指标。

随着自然语言处理研究的最新进展,基于lstm的模型被transformer [<年代p一个nclass="footers">13]基于语言模型[<年代p一个nclass="footers">13-<年代p一个nclass="footers">16].变形金刚遵循编码器-解码器结构,由编码器和解码器组成<我>l相同的层。每一层由2个子层组成,一个子层是前馈层,另一个子层是多头注意层。基于变压器的语言模型,如BART [<年代p一个nclass="footers">14,生成式预训练变压器(GPT) [<年代p一个nclass="footers">15),而<我>text-to-text-transfer-transformer[<年代p一个nclass="footers">16],在文本摘要和机器翻译等自然语言生成任务上取得了优异的表现。

在基于变压器的语言模型成功的基础上,最近Martin等[<年代p一个nclass="footers">17]介绍了<我>多语言无监督句子简化(混乱)<年代p一个nclass="footers">17]、捷运系统[<年代p一个nclass="footers">14基于CCNet的语言模型,通过对从CCNet中挖掘的释义进行训练,在TS基准测试中取得了最先进的性能[<年代p一个nclass="footers">18语料库。赵等[<年代p一个nclass="footers">19]提出了一种半监督方法,该方法将反翻译体系结构与降噪自动编码器结合起来,用于自动TS。无监督TS也是一个活跃的研究领域,但主要局限于LS。然而,在最近的一项研究中,Surya等人[<年代p一个nclass="footers">20.]提出了一种无监督的方法来执行TS在词汇和句法层面。总的来说,TS领域的研究主要集中在句子级的简化上。然而,Sun等[<年代p一个nclass="footers">21]提出了一个文档级数据集(D-wikipedia)和基线模型来执行文档级简化。同样,Devaraj等人[<年代p一个nclass="footers">8]建议兴建捷运系统[<年代p一个nclass="footers">14]基于模型,该模型使用不可能损失进行训练,用于段落级医疗TS。尽管他们的训练制度会惩罚被视为“行话”的术语,并提高可读性,但生成的文本质量和多样性较低[<年代p一个nclass="footers">8].因此,缺乏文档或段落级别的简化使得这一领域的进展成为一项重要的工作。

TS数据集

大多数TS研究使用从维基百科和新闻文章中提取的数据[<年代p一个nclass="footers">11,<年代p一个nclass="footers">22,<年代p一个nclass="footers">23].这些数据集是成对的句子级数据集(即每个复杂句对应一个简单句)。TS系统严重依赖句子级数据集,从常规和简单的英语维基百科中提取,如WikiLarge [<年代p一个nclass="footers">11,因为它们是公开的。后来徐[<年代p一个nclass="footers">24从维基百科提取的数据集存在数据质量问题。他们提出了Newsela语料库,这是由教育工作者为不同年级的学生重写新闻文章而创建的。自动句子对齐方法[<年代p一个nclass="footers">25]在Newsela语料库上使用,以创建句子级TS数据集。尽管在句子级简化方面的研究取得了进展,但仍需要TS系统来简化段落级的文本。

最近的工作集中于文档级简化数据集的构建[<年代p一个nclass="footers">17,<年代p一个nclass="footers">21,<年代p一个nclass="footers">26].孙等[<年代p一个nclass="footers">21通过对143,546篇文章对的英语维基百科和简单英语维基百科进行对齐,构建了一个文档级数据集,称为D-Wikipedia。虽然有许多用于句子级TS的数据集,但缺乏用于特定领域的段落级TS的数据集。在医疗TS领域,Van den Bercken等人[<年代p一个nclass="footers">27]使用句子对齐方法构建了一个句子级简化数据集。最近,Devaraj等人[<年代p一个nclass="footers">8]提出了第一个段落级医学简化数据集,包含4459个简单-复杂文本对,这是本研究用于分析和基线训练的数据集。来自Devaraj等人提出的数据集的复杂段落片段及其简化版本[<年代p一个nclass="footers">8]显示在<年代p一个nclass="footers">图1.该数据集是开源的,可供公众使用[<年代p一个nclass="footers">28].

图1。复杂医疗段和数据集中对应的简单医疗段。
查看此图
TS评价

TS评价通常分为两类:自动评价和人工(即人工)评价。由于TS的主观性质,有人建议最好的方法是根据流畅性、意义保存和简单性等标准进行人工评估[<年代p一个nclass="footers">20.].最常用的自动评估指标包括可读性指标,如Flesch-Kincaid Reading Ease [<年代p一个nclass="footers">29),<我>Flesch-Kincaid等级(FKGL) [<年代p一个nclass="footers">29),<我>自动可读性索引(ARI), Coleman-Liau指数,以及自然语言生成任务的指标,如SARI [<年代p一个nclass="footers">12]及BLEU [<年代p一个nclass="footers">30.].

可读性指数被用来为文本的简单性分配一个等级。所有的可读性指数都是用单词权重、音节、字母或字数的某种组合来计算的,并被显示为衡量某种程度的简单性。自动评估指标,如BLEU [<年代p一个nclass="footers">30.]和莎丽[<年代p一个nclass="footers">12],广泛用于TS研究,而SARI [<年代p一个nclass="footers">12专门为TS任务开发的。SARI是通过将生成的简化与源引用和目标引用进行比较来计算的。它计算的平均值<我>F1-得分为3<我>语法重叠操作:添加、保留和删除。Both BLEU [<年代p一个nclass="footers">30.]和莎丽[<年代p一个nclass="footers">12]是基于n克的度量,可能无法捕捉生成文本的语义。

客观的

本研究的目的是开发一种自动TS方法,能够在段落级别简化医学文本数据,目标是为生物医学研究提供更大的可访问性。本文采用基于rl的训练方法直接优化简化文本的相关性和简单性。<我>相关性被定义为保留原始文章的显著和语义信息的简化文本。<我>简单定义为易于理解和词汇简单的简化文本。这两个属性通过使用ts特定奖励进行优化,从而使系统在Flesch-Kincaid分数上优于之前的基准。在领域专家的帮助下进行了广泛的人工评估,以判断生成文本的质量。

本文的其余部分组织如下:“方法”部分提供了关于数据集、训练过程和拟议模型的详细信息,并描述了如何进行自动和人工评估以分析拟议模型(TESLEA)产生的输出。“结果”部分简要描述了基线模型以及通过对生成的文本进行自动和手动评估获得的结果。最后在“讨论”部分,我们强调了局限性,未来的工作,并得出结论。


模型的目标

对于一个复杂的医学段落,这项工作的目标是生成一个简洁的简化段落,并抓住复杂文本中表达的突出信息。为了实现这一点,提出了一个基于rl的简化模型,该模型在训练期间优化多个奖励,并使用段落级医疗TS数据集进行调优。

数据集

Cochrane科学评论数据库是一个包含广泛临床主题信息的卫生保健数据库。每篇综述都包含一个由作者按照指导原则编写的简单语言摘要(PLS)。pl应该是清晰的,可理解的,易于理解的,特别是对于不熟悉医学领域的普通观众。pl在本质上是高度异构的,并且不是成对的(即,对于每个复杂的句子,可能没有相应的简单版本)。然而,Devaraj等人[<年代p一个nclass="footers">8]利用Cochrane科学评论数据库的数据生成了一个配对数据集,该数据集有4459对复杂-简单文本,每个文本包含少于1024个标记,以便可以输入到BART [<年代p一个nclass="footers">14]模型用于TS。Devaraj等人开发的开创性数据集[<年代p一个nclass="footers">8]在本研究中用于训练模型,并已公开可用[<年代p一个nclass="footers">28].

TS使用RL

模式和奖励

为简化复杂医学文本任务而提出的TS解决方案使用基于rl的简化模型,该模型优化了多个奖励(<我>相关奖励,<我>Flesch-Kincaid等级奖励和词汇简单性奖励),以达到更完整和简洁的简化<我>.下面的小节介绍了这些奖励的计算,以及训练过程。

相关奖励

相关性奖励衡量的是目标文本在简化版本中的语义捕获程度。这是通过计算目标文本嵌入(<我>E<年代ub>T)和生成的文本嵌入(<我>E<年代ub>G).BioSentVec [<年代p一个nclass="footers">31]的文本嵌入模型用于生成文本嵌入。算法1描述了计算相关性得分的步骤。

的<我>RelevanceReward函数接受3个参数作为输入,即目标文本(<我>T),生成的文本(<我>G),以及嵌入模型(<我>米).这个函数<我>ComputeEmbedding获取输入文本和嵌入模型(<我>米)作为输入,并生成相关的文本嵌入。最后,生成文本嵌入之间的余弦相似度(<我>E<年代ub>G)和目标文本嵌入(<我>E<年代ub>T)来获得奖励(算法1,第4行)。

Flesch-Kincaid等级奖励

FKGL是指理解所呈现信息所必须达到的等级水平。FKGL分数越高,说明文本越复杂,分数越低,说明文本越简单。文本(S)的FKGL由公式1 [<年代p一个nclass="footers">29]:

FKGL(S) = 0.38 ×(总字数/总句子数)+ 1.8 ×(总音节/总字数)- (15.59)(1)

FKGL奖励(<我>R<年代ub>Flesch)旨在降低生成文本的复杂性,其计算方法如算法2所示。

在算法2中,函数<我>FleschKincaidReward以2个参数作为输入,即生成的文本(<我>G)和目标文本(<我>T).的<我>FKGLScore函数计算给定文本的FKGL。曾经的FKGL为<我>T而且<我>G计算时,Flesch-Kincaid奖励(<我>R<年代ub>Flesch)的相对差<我>r(<我>T),<我>r(<我>G)(算法2,第4行),其中<我>r(<我>T),<我>r(<我>G)表示目标和生成文本的FKGL。

词汇简单奖励

词汇简单性用于衡量所生成文本中的单词(<我>G)比原文中的文字(<我>年代).拉班等[<年代p一个nclass="footers">26]提出了一种词汇简单性奖励,利用单词难度和单词频率之间的相关性[<年代p一个nclass="footers">32].随着词频的增加<我>zipf法律,拉班等[<年代p一个nclass="footers">26用它来设计奖励函数,其中包括计算<我>zipf新插入词的频率,即<我>Z(<我>G- - - - - -<我>年代),并删除文字,即<我>Z(<我>S - g).词汇简单奖励的定义与Laban等人提出的方法相同。<年代p一个nclass="footers">26],在算法3中描述。Devaraj等人提出的数据集分析[<年代p一个nclass="footers">8]揭示了87%的简单和复杂配对的值为Δ<我>Z(<我>年代,<我>G)≈0.4,其中Δ<我>Z(<我>年代,<我>G) =<我>Z(<我>G- - - - - -<我>年代) - - -<我>Z(<我>年代- - - - - -<我>G)是<我>zipf插入词和删除词的频率,与词汇奖励值(<我>R<年代ub>词汇)在0到1之间缩放。

算法3中,<我>LexicalSimplicityReward需要源文本(<我>年代)和生成的文本(<我>G)作为输入。功能<我>ZIPFInserted[<年代p一个nclass="footers">25),<我>ZIPFDeleted[<年代p一个nclass="footers">25计算;计算<我>zipf新插入单词和删除单词的频率。最后,词汇奖励(<我>R<年代ub>词汇)进行计算并归一化,如第5行所述。

训练程序和基线模型

Pretrained巴特

本研究用于简化的基线语言模型为BART [<年代p一个nclass="footers">14],这是一个基于变压器的编码器-解码器模型,使用去噪目标函数进行预训练。该模型的解码器部分本质上是自回归的,这使得它更适合句子生成任务。此外,BART模型在自然语言生成任务(如摘要)上实现了强大的性能,这在XSum上得到了演示[<年代p一个nclass="footers">33]和CNN/每日邮报[<年代p一个nclass="footers">34]数据集。在这种情况下,在XSUM上微调的BART版本[<年代p一个nclass="footers">33]数据集正在被使用。

语言模型微调

基于transformer的语言模型在大量文本语料库上进行预训练,然后通过最小化最大似然损失(<我>Lml)功能[<年代p一个nclass="footers">3.].考虑一个成对的数据集<我>C,其中每个实例由一个源句组成,包含<我>n令牌<我>x= {<我>x1、……<我>x<年代ub>n}和目标序列包含<我>米令牌<我>y= {<我>y1、……<我>y<年代ub>n},则<我>Lml函数如式2所示,计算方法如算法4所示。

在哪里<我>θ表示模型参数和<我>y<t表示位置之前的符号<我>t[<年代p一个nclass="footers">35].

但是,通过最小化得到的结果<我>Lml并不总是最优的。导致结果下降的主要原因有两个。第一种是“暴露偏差”[<年代p一个nclass="footers">36],这种情况发生在模型在训练的每一步都期望金标准数据,但在测试过程中没有得到适当的监督,导致预测过程中错误的积累。第二种是“表象崩溃”[<年代p一个nclass="footers">37],这是在微调期间预训练语言模型表示的退化。Ranzato等人[<年代p一个nclass="footers">36]通过直接优化特定的离散度量来避免曝光偏差问题,而不是最小化<我>Lml在一种基于rl的算法REINFORCE的帮助下[<年代p一个nclass="footers">38].REINFORCE的变体[<年代p一个nclass="footers">38]称为自我临界序列训练[<年代p一个nclass="footers">39]在本研究中用于直接优化专门为TS设计的某些奖励;有关这方面的更多信息将在下一小节中提供。

自临界序列训练

TS可以表述为一个RL问题,其中“代理”(语言模型)与环境交互,根据学习到的“策略”(<我>p<年代ub>θ)由模型参数定义<我>θ在观察一些奖励时(<我>R).在这项工作中,BART [<年代p一个nclass="footers">14]作为语言模型,REINFORCE [<年代p一个nclass="footers">38算法来学习一种最优策略,使奖励最大化。具体来说,REINFORCE与基线一起使用,使用目标函数(<我>液化石油气)和基线奖励<我>b方程(3):

在哪里<我>p<年代ub>θ(<我>y<年代ub>我年代|的概率<我>我以先前由模型生成的采样序列为条件;<我>r(<我>y<年代up>年代)表示对抽样生成的句子计算的奖励;表示源句子,和<我>n生成的句子的长度。奖励是根据相关奖励(<我>R<年代ub>余弦),<我>R<年代ub>Flesch,以及词汇简单奖励(<我>R<年代ub>词汇;<年代p一个nclass="footers">图2),由:

在哪里<我>α,<我>β,<我>d分别是与奖励相关的权重。

为了接近基线奖励,自我关键序列训练[<年代p一个nclass="footers">39]被使用。基线是通过计算贪婪解码生成的句子的奖励值来计算的<我>r(<我>y*),其计算在算法5中描述。损失函数定义如式5:

在哪里<我>y*表示贪心解码生成的句子。贪婪解码的更多细节描述在<年代p一个nclass="footers">多媒体附件1(也请参阅[<年代p一个nclass="footers">8,<年代p一个nclass="footers">14,<年代p一个nclass="footers">17,<年代p一个nclass="footers">25,<年代p一个nclass="footers">26,<年代p一个nclass="footers">39-<年代p一个nclass="footers">42])。

图2。计算奖励功能计算三个奖励的加权和:Fkgl奖励,词汇简单奖励,相关性奖励。
查看此图

直观地,通过最小化公式5中所描述的损失,选择样本序列的可能性(<我>y<年代up>年代)如果对采样序列获得奖励,<我>r(<我>y<年代up>年代),大于基线奖励所获得的奖励,即回报高于的样本<我>r(<我>y*)。获得较低奖励的样本随后被抑制。模型训练使用的组合<我>Lml而策略梯度损失类似于[<年代p一个nclass="footers">43].总的损失如下:

l=<我>γ液化石油气+ (1 -)<我>γ)<我>Lml (6)

在哪里<我>γ是一个可调的比例因子。

培训过程总结

总的来说,训练过程遵循两步方法。由于预先训练的BART [<年代p一个nclass="footers">14]没有在医疗领域相关文本上进行训练,它首先在文档级配对数据集上进行微调[<年代p一个nclass="footers">8]以尽量减少<我>Lml(最大似然估计[MLE];在第二部分中,使用RL对经过微调的BART模型进行进一步训练。TESLEA的RL过程包括2个步骤:(1)RL步骤和(2)MLE优化步骤,均如<年代p一个nclass="footers">图3并在算法6中进一步描述。给定的简单-复杂文本对被转换为BART模型所需的标记。在MLE步骤中,这些令牌用于计算<我>分对数最后计算MLE损失。在RL步骤中,模型使用2种解码策略生成简化文本:(1)贪心解码和(2)多项抽样。奖励以加权总和计算(<年代p一个nclass="footers">图3)用于使用两种解码策略生成的句子。然后,这些奖励被用于计算RL步骤的损失。最后,计算加权损失和,用于估计梯度和更新模型参数。所使用的所有超参数设置都包含在<年代p一个nclass="footers">多媒体附件2(也请参阅[<年代p一个nclass="footers">8,<年代p一个nclass="footers">12,<年代p一个nclass="footers">29,<年代p一个nclass="footers">33,<年代p一个nclass="footers">34,<年代p一个nclass="footers">44-<年代p一个nclass="footers">47])。

图3。基于强化学习的TESLEA训练程序。MLE:最大似然估计;RL:强化学习。
查看此图

自动的度量标准

使用两个可读性指数对生成的文本进行自动评估,即FKGL和自动可读性指数(ARIs)。SARI分数是TS的标准度量。F-1版本的ROUGE-1和ROUGE-2 [<年代p一个nclass="footers">44]的分数也被报道了。读者可以在<年代p一个nclass="footers">多媒体附件2.为了衡量生成文本的质量,Yuan等人提出的标准[<年代p一个nclass="footers">45的“自动评估指标”一节中提到<年代p一个nclass="footers">多媒体附件2.Yuan等人提出的标准[<年代p一个nclass="footers">45可以使用基于语言模型的度量(称为“BARTScore”)自动计算。中还提到了如何使用BARTScore来测量生成文本质量的进一步细节<年代p一个nclass="footers">多媒体附件2

人类的评估

在本研究中,3-domain专家根据前一节中提到的因素来判断生成文本的质量。评价者用李克特量表(Likert scale)从1到5对文本进行评分。首先使用TESLEA生成简化的测试数据,然后随机选取生成的51个段落,创建3个子集,每个子集包含17个段落。每个评估器都有2个子集,即总共34个由teslea生成的复杂-简单段落。评估通过谷歌表单进行,并要求人工注释人员衡量简化的信息质量(INFO)、流畅性(FLU)、连贯性(COH)、真实性(FAC)和充分性(ADE) (<年代p一个nclass="footers">图4).所有采集的数据均保存在CSV文件中进行统计分析。

图4。人工注释器看到的示例问题。
查看此图

概述

本节由三个小节组成,即(1)基线模型,(2)自动评估,和(3)人工评估。第一部分重点介绍了用于比较和分析的基准模型。第二节讨论了通过执行模型的自动评估所获得的结果。第三部分(也是最后一部分)讨论了从人工评估中获得的结果,并分析了人工注释和自动度量之间的关系。

基线模型

TESLEA与其他强基线模型进行了比较,其细节如下:

  • BART-Fine-tuned: BART-Fine-tuned是一个使用<我>Lml基于Devaraj等人提出的数据集[<年代p一个nclass="footers">8].研究表明,在对下游任务进行微调时,大型预训练模型通常具有竞争性,从而使其成为强大的竞争对手。
  • BART-UL: Devaraj等[<年代p一个nclass="footers">8]还提出了用于段落级医疗检验的BART-UL。它是第一个执行段落级医疗检验的模型,并在自动化指标方面取得了良好的结果。BART-UL使用一个不可能目标函数进行训练,该函数会惩罚生成技术单词(即复杂单词)的模型。关于BART-UL培训程序的详细信息见<年代p一个nclass="footers">多媒体附件1
  • Muss: Muss [<年代p一个nclass="footers">17]是一个基于bart的语言模型,通过从CCNet语料库中挖掘释义来训练[<年代p一个nclass="footers">18].MUSS在包含100万个释义的数据集上进行了训练,帮助它获得了很高的SARI分数。尽管MUSS是在句子级数据集上进行训练的,但它仍然可以作为比较的强大基线。关于MUSS训练程序的进一步细节将在<年代p一个nclass="footers">多媒体附件1
  • Keep it Simple (KIS): Laban等[<年代p一个nclass="footers">26]提出了一种段落级TS的无监督方法。KIS使用RL进行训练,并使用GPT-2模型作为骨干。KIS在SARI分数上表现出色,击败了许多有监督和无监督TS方法。关于KIS培训程序的更多细节描述在<年代p一个nclass="footers">多媒体附件1
  • PEGASUS模型:PEGASUS是一个基于变压器的编码器-解码器模型,已经在许多文本摘要数据集上取得了最先进的结果。它是专门为文本摘要任务而设计的。在我们的分析中,我们使用了PEGASUS模型的2个变体,即(1)PEGASUS-large, PEGASUS模型的大变体,以及(2)PEGASUS- PubMed -large, PEGASUS模型的大变体,它在PubMed数据集上进行了预训练。这两个PEGASUS模型都使用<我>Lml基于Devaraj等人提出的数据集[<年代p一个nclass="footers">8].有关PEGASUS模型的更多资料,建议读者参阅[<年代p一个nclass="footers">46].

截至2022年6月,上述型号是唯一可用于医疗TS的型号。

自动度量的结果

用于自动评估的指标是FKGL、ARI、ROUGE-1、ROUGE-2、SARI和BARTScore。中报告了各种模型得出的平均可读性指数得分(即FKGL和ARI)<年代p一个nclass="footers">表1.ROUGE-1、ROUGE-2和SARI评分报告在<年代p一个nclass="footers">表2, BARTScore报告在<年代p一个nclass="footers">表3

表1。生成文本的Flesch-Kincaid等级和自动可读性索引。<年代up>一个
文本 Flesch-Kincaid等级 自动可读性索引
基线


技术抽象 14.42 15.58
标准的引用 13.11 15.08
生成模型


BART-Fine-tuned 13.45 15.32
BART-UL 11.97 13.73<年代up>b
TESLEA 11.84<年代up>b 13.82
吵架<年代up>c 14.29 17.29
保持简单 14.15 17.05
PEGASUS-large 14.53 17.55
PEGASUS-pubmed-large 16.35 19.8

一个与普通语言摘要相比,TESLEA显著降低了FKGL和ARI评分。

b最好的得分。

cMUSS:多语言无监督句子简化。

表2。生成文本的ROUGE-1、ROUGE-2和SARI分数。<年代up>一个
模型 ROUGE-1 ROUGE-2 莎丽
BART-Fine-tuned 0.40 0.11 0.39
BART-UL 0.38 0.14 0.40<年代up>b
TESLEA 0.39 0.11 0.40<年代up>b
吵架<年代up>c 0.23 0.03 0.34
保持简单 0.23 0.03 0.32
PEGASUS-large 0.44<年代up>b 0.18<年代up>b 0.40<年代up>b
PEGASUS-pubmed-large 0.42 0.16 0.40<年代up>b

一个TESLEA的性能与其他车型相似。较高的ROUGE-1、ROUGE-2和SARI分数是可取的。

b最佳性能。

cMUSS:多语言无监督句子简化。

表3。模型生成文本的信度评分和f评分。<年代up>一个
模型 信实的分数 f值
BART-Fine-tuned 0.137 0.078
BART-UL 0.242 0.061
TESLEA 0.366<年代up>b 0.097<年代up>b
吵架<年代up>c 0.031 0.029
保持简单 0.030 0.028
PEGASUS-large 0.197 0.073
PEGASUS-pubmed-large 0.29 0.063

一个较高的诚信分数和f分数是可取的。

b最高得分。

cMUSS:多语言无监督句子简化。

可读性指数,ROUGE和SARI分数

报告的可读性指数得分<年代p一个nclass="footers">表1建议,与比较技术摘要(即数据集中可用的复杂医学段落)和金标准参考文献(即与复杂医学段落对应的简单医学段落)获得的FKGL分数相比,TESLEA获得的FKGL分数更好(即,较低的分数)。此外,与基线模型相比,TESLEA获得了最低的FKGL分数(11.84),表明TS有显著改善。结果表明:(1)基于bart的变压器模型能够在段落水平上进行简化,与技术摘要、金标准参考文献和基线模型相比,输出的阅读水平(FKGL)降低。(2)所提出的优化ts特定奖励的方法允许生成比金标准参考文献更具有可读性的文本,正如FKGL在<年代p一个nclass="footers">表1.FKGL分数的降低可以解释为FKGL是奖励的一部分(<我>R<年代ub>Flesch)直接进行优化。

此外,我们报告SARI [<年代p一个nclass="footers">12]和ROUGE评分[<年代p一个nclass="footers">44如:<年代p一个nclass="footers">表2.SARI是用于句子级TS任务的标准自动度量。ROUGE分数是文本摘要任务中的另一个标准度量。结果表明,TESLEA与基线模型在ROUGE和SARI评分上的表现相匹配。虽然在考虑ROUGE和SARI分数时没有明确的模式,但这些模型生成的文本质量存在差异,这些差异在“文本质量测量”小节中进行了解释。

文本质量测量

在设计能够捕捉由语言模型生成的文本的语言质量的自动度量标准方面已经取得了重大进展。其中一个能够衡量生成文本质量的指标是BARTScore [<年代p一个nclass="footers">45].从机器翻译到文本摘要,BARTScore与人类在各种任务上的评估有很强的相关性。BARTScore有4个不同的指标(即,忠实评分,精度,召回率,f评分),可以用来衡量生成文本的不同质量。中提到了如何使用BARTScore的进一步细节<年代p一个nclass="footers">多媒体附件2

根据Yuan等人的分析[<年代p一个nclass="footers">45],忠实度评分通过COH、FLU和FAC来衡量生成文本的3个方面。f分数衡量生成文本的两个方面(INFO和ADE)。在我们的分析中,我们使用这两种变体的BARTScore来测量COH、FLU、FAC、INFO和ADE。TESLEA达到最高值(<年代p一个nclass="footers">表3(0.366)和F-score(0.097),表明为TS目的设计的奖励不仅有助于模型生成简化文本,而且在一定程度上保持了生成文本的质量。所有模型的f分数都相对较低(即接近1的分数是可取的)。f分数低的原因之一可能是在生成的文本中引入了错误信息或幻觉,这是语言模型的一个常见问题,可以通过调整训练策略,通过奖励或目标函数的帮助,专注于INFO来解决。

在定性分析中,我们从测试数据中随机抽取50个句子,并根据BART模型词汇计算平均标记数。对于可读性测量,我们计算了这些生成文本的FKGL分数,并记录了任何文本不一致,如错误信息。分析显示,大多数模型生成的文本明显小于黄金标准参考文献(<年代p一个nclass="footers">表4).此外,与其他基线模型相比,TESLEA和bart - ul生成的文本明显更短,在所有模型中,TESLEA的FKGL评分最低<年代p一个nclass="footers">表4

从定性的角度来看,大多数基线模型生成的句子都涉及对原始复杂医学段落文本的大量重复。KIS模型生成的输出是不完整的,本质上是“有噪声的”。产生噪声的原因之一可能是由于缺乏庞大的领域特定数据语料库而导致训练不稳定。bart - ul生成的段落根据FKGL和ARI分数进行了简化,但它们本质上是提取的(即,模型学习从原始医学段落中选择简化的句子,并将它们组合起来形成简化)。pegasus -pubmed-large生成的段落本质上也是提取的,类似于bart - ul生成的段落,但观察到它们在语法上不一致。与基线模型相比,由TESLEA生成的文本简洁、语义相关且简单,不涉及任何与医学领域相关的复杂词汇。<年代p一个nclass="footers">图5显示一个由所有模型生成的文本示例,蓝色文本表示复制的文本。

除了重复文本之外,模型还会在生成的文本中诱导错误信息。所观察到的最常见的诱导错误信息形式是“证据是最新的[日期]”,如图所示<年代p一个nclass="footers">图6.此文本错误是由于数据的结构造成的(即PLS包含与本研究相关的语句,但这些语句不在原文中;因此,模型试图将这些语句添加到生成的文本中,尽管它实际上并不正确)。因此,应相当重视将FAC措施纳入这些模型的训练制度。为了更完整地评估简化质量,使用领域专家对由TESLEA生成的文本进行人工评估。

表4。所选样本的平均代币数量和平均Flesch-Kincaid Grade Level分数。
模型 令牌数量 Flesch-Kincaid等级
技术抽象 498.11 14.37
标准的引用 269.74 12.77
TESLEA 131.37 12.34
BART-UL 145.08 12.66
保持简单 187.59 13.78
多语言无监督句子简化 193.07 13.86
PEGASUS-large 272.04 13.93
PEGASUS-pubmed-large 150.00 15.09
图5。所有模型生成文本的比较。突出显示的蓝色文本表示复制。CI:置信区间;FEV:呼气力容积;N:人口规模;PEV:峰值呼气流量;RR:呼吸速率。
查看此图
图6。在生成文本中发现的错误信息的例子。CIDSL: Cornelia de Lange综合征;IVIg:静脉免疫球蛋白;多发性硬化症;PE:等离子体交换。
查看此图

人类的评估

在本研究中,3位领域专家根据Yuan等人提出的INFO、FLU、COH、FAC和ADE等因素评估生成文本的质量[<年代p一个nclass="footers">45]中所讨论的<年代p一个nclass="footers">多媒体附件2.为了测量评分者之间的可靠性,计算注释者之间的百分比一致,结果显示在<年代p一个nclass="footers">表5.FLU、COH、FAC、ADE这五个因素的平均一致百分比最高,说明注释者的评价是一致的。

每个因素的平均李克特分数也由每个评分者报告(<年代p一个nclass="footers">表6).中所提到的数据<年代p一个nclass="footers">表6,评分者认为COH和FLU的质量最高,ADE、FAC和INFO的评分也相当高。

为了进一步评估自动化指标所获得的结果是否真正表明TESLEA生成的文本质量有所提高,计算了所有51个生成段落(文本)的人工评分和自动指标之间的斯皮尔曼等级相关系数,结果如图所示<年代p一个nclass="footers">表7.与其他指标相比,BARTScore与流感、FAC、COH和ADE的人类评分相关性最高。中显示了一些文本示例及其人工注释和自动度量分数<年代p一个nclass="footers">多媒体而且<年代p一个nclass="footers">图7

表5所示。评分者间协议的平均百分比。
评分者间信协议 信息量,% 流利,% 真实性,% 一致性,% 充足,%
A1<年代up>一个和A2<年代up>b 82.35 82.35 82.35 70.59 82.35
A1和A3<年代up>c 70.59 58.82 70.59 70.59 70.59
A3及A2 52.94 70.59 74.51 74.51 64.71
平均(同意百分比) 68.63 70.59 74.51 74.51 72.55

一个A1:注释器1。

bA2:注释器2。

cA3:标注者3。

表6所示。每位评分者在信息量、流畅性、真实性、连贯性和充分性方面的平均李克特分数。
评定等级 信息量 流利 真实性 一致性 充分性
A1 3.82 4.12 3.91 3.97 3.76
A2 3.50 4.97 3.59 4.82 3.68
A3 4.06 3.94 3.85 3.94 3.85
平均李克特得分 3.79 4.34 3.78 4.24 3.76
表7所示。由TESLEA生成的文本的自动度量和人类评分之间的斯皮尔曼等级相关系数。
度规 信息量 流利 真实性 一致性 充分性
ROUGE-1 0.18<年代up>一个 -0.04 -0.01 -0.05 0.06
ROUGE-2 0.08 -0.01 -0.05 -0.04 0.05
莎丽 0.09 -0.66 -0.13 -0.01 0.01
BARTScore 0.08 0.32<年代up>一个 0.38<年代up>一个 0.22<年代up>一个 0.07<年代up>一个

一个最好的结果。

图7。复杂,简单(金)样本和生成的医学段落以及自动度量和人工注释。
查看此图

主要研究结果

由于特定领域的医学术语,关于生物医学的最新研究通常对普通公众来说是不可访问的。解决这个问题的一种方法是创建一个系统,将复杂的医疗信息转换为更简单的形式,从而使每个人都能获取。在本研究中,开发了一种TS方法,可以自动简化复杂的医学段落,同时保持生成文本的质量。所提出的方法训练基于变压器的BART模型,以优化TS的特定奖励,从而增加了简单性。BART模型使用所提出的RL方法进行训练,以优化某些奖励,帮助生成更简单的文本,同时保持生成文本的质量。结果,训练后的模型生成简化的文本,在使用FKGL[测量时,将原始文本的复杂性降低了2个等级点。<年代p一个nclass="footers">29].从得到的结果可以得出结论,与技术摘要、金标准参考文献(即简单的医学段落对应复杂的医学段落)和基线模型相比,TESLEA在生成更简单的文本方面是有效的。虽然以前的工作[<年代p一个nclass="footers">8]为这项任务开发了基线模型,据我们所知,这是RL首次应用于医疗TS领域。此外,之前的研究未能分析生成文本的质量,本研究通过FLU、FAC、COH、ADE和INFO等因素来衡量生成文本的质量。在领域专家的帮助下,使用上述因素对teslea生成的文本进行了手动评估,并进行了进一步的研究,以分析哪些自动度量标准与使用Spearman等级相关系数的手动注释一致。分析显示,BARTScore [<年代p一个nclass="footers">45]在对由TESLEA生成的文本进行评估时,与人类注释的相关性最好,这表明TESLEA学习生成语义相关和流畅的文本,这些文本传达了复杂的医学段落中提到的基本信息。这些结果表明:(1)TESLEA可以对医学段落进行TS,使输出简单且保持质量;(2)TESLEA优化的奖励有助于模型捕获句法和语义信息,提高输出的FLU和COH,这与BARTScore和人工注释人员对输出进行评估时的结果一致。

局限性和未来工作

虽然这项研究是对医学TS文献的重大贡献,但所提出的方法确实有一些局限性,解决这些局限性可以产生更好的输出。TESLEA可以生成更简单的文本版本,但在某些情况下,它会导致错误信息,导致所生成文本的FAC和INFO减少。因此,有必要在设计奖励时考虑生成文本的FAC和INFO。我们还计划使用领域专家(即医生和医学生)对各种模型(如KIS、BART-UL)生成的文本进行大规模的人工评估。

基于transformer的语言模型对预训练机制很敏感,所以下一步可能是在特定领域的原始数据集(如PubMed)上预训练语言模型。<年代p一个nclass="footers">40],这将有助于为模型开发特定领域的词汇表。包含这些策略可能有助于增加生成文本的简单性。

结论

随着数据量的不断增加,医疗领域对TS的兴趣和需求也越来越大。自动化系统,例如本文中提出的系统,可以极大地提高公众对信息的可访问性。这项工作不仅为自动化TS提供了技术解决方案,而且还列出并解决了评估此类系统输出的挑战,这可能是高度主观的。作者真诚地希望这项工作能让其他研究人员在类似工作的基础上继续努力并提高质量。

致谢

作者感谢湖首大学数据实验室的研究团队的支持。作者还感谢加拿大计算中心提供的计算资源,没有这些资源,这项研究就不可能完成。本研究由Vijay Mago博士主持的NSERC Discovery (RGPIN-2017-05377)资助。作者感谢Aditya Singhal先生(Lakehead大学硕士研究生)对手稿提供的反馈。

利益冲突

没有宣布。

多媒体附件1训练程序和解码方法。

DOCX文件,129 KB

多媒体附件2超参数和评估指标。

DOCX文件,190 KB

多媒体缩写和例子。

DOCX文件,1060 KB

  1. 王文杰,王文杰,王文杰,王文杰。语言障碍读者的文本简化方法。新泽西州新不伦瑞克:计算语言学协会;1999年发表于:计算语言学协会欧洲分会第九届会议;1999年6月8日至12日;卑尔根,挪威p. 269-270网址:<一个t一个rget="_blank" href="https://aclanthology.org/E%5B%5D99-1042">https://aclanthology.org/E [] 99 - 1042
  2. 非母语人士的无监督词汇简化。AAAI 2016 Mar 05;30(1):3761-3767 [<一个href="https://ojs.aaai.org/index.php/AAAI/article/view/9885" target="_blank">免费全文] [<一个t一个rget="_blank" href="https://dx.doi.org/10.1609/aaai.v30i1.9885">CrossRef]
  3. Ganitkevitch J, Van Durme B, callson - burch C. PPDB:释义数据库。见:计算语言学协会北美分会2013年会议记录:人类语言技术。新泽西州新不伦瑞克:计算语言学协会;2013年6月发表于:计算语言学协会北美分会2013年会议:人类语言技术;2013年6月9日至12日;亚特兰大,佐治亚州p. 758-764网址:<一个t一个rget="_blank" href="https://aclanthology.org/N13-1092">https://aclanthology.org/N13-1092[<一个t一个rget="_blank" href="https://dx.doi.org/10.3115/v1/p15-2070">CrossRef]
  4. Rebecca Thomas S, Anderson S.基于wordnet的文档词汇简化。见:第11届自然语言处理会议论文集(KONVENS 2012)。2012年发表于:第11届自然语言处理会议(KONVENS 2012);2012年9月19-21日;奥地利维也纳,第80页网址:<一个t一个rget="_blank" href="https://www.researchgate.net/publication/270450791_WordNet-Based_Lexical_Simplification_of_a_Document">https://www.researchgate.net/publication/270450791_WordNet-Based_Lexical_Simplification_of_a_Document
  5. 强杰,李勇,朱勇,袁勇,吴霞。基于预训练编码器的词汇化简算法。AAAI 2020 04月03日;34(05):8649-8656。[<一个t一个rget="_blank" href="https://dx.doi.org/10.1609/aaai.v34i05.6389">CrossRef]
  6. 朱智,朱伟。基于单语树的句子简化翻译模型。见:第23届国际计算语言学会议论文集(Coling 2010)。中国北京:2010年北京奥运会组委会;2010年发表于:第23届计算语言学国际会议(Coling 2010);2010年8月23-27日;中国北京,p. 1353-1361网址:<一个t一个rget="_blank" href="https://aclanthology.org/C10-1152.pdf">https://aclanthology.org/C10-1152.pdf
  7. 吴本,范登博斯,克拉赫默。单语机器翻译的句子简化。见:计算语言学协会第50届年会论文集(第1卷:长论文)。新泽西州新不伦瑞克:计算语言学协会;2012年发表于:计算语言学协会第50届年会;2012年7月8日-14日;济州岛,韩国p. 1015-1024网址:<一个t一个rget="_blank" href="https://aclanthology.org/P12-1107">https://aclanthology.org/P12-1107
  8. 李建平,李建平。医学文献段落层次的简化。见:计算语言学协会北美分会2021年会议记录:人类语言技术。新泽西州新不伦瑞克:计算语言学协会;2021年6月出席:计算语言学协会北美分会2021年会议:人类语言技术;2021年6月6日至11日;虚拟p. 4972-4984 URL:<一个t一个rget="_blank" href="https://aclanthology.org/2021.naacl-main.395.pdf">https://aclanthology.org/2021.naacl-main.395.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2021.naacl-main.395">CrossRef]
  9. Nisioi S, Štajner S, Paolo Ponzetto S, Dinu LP。探索神经文本简化模型。见:第55届计算语言学协会年会论文集(第2卷:短论文)。新泽西州新不伦瑞克:计算语言学协会;2017年发表于:第55届计算语言学协会年会上;2017年7月30日至8月4日;温哥华,卑诗省p. 85-91网址:<一个t一个rget="_blank" href="https://aclanthology.org/P17-2014.pdf">https://aclanthology.org/P17-2014.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/p17-2014">CrossRef]
  10. Afzal M, Alam F, Malik KM, Malik GM.使用深度神经网络的临床情境感知生物医学文本摘要:模型开发和验证。J Med Internet Res 2020年10月23日;22(10):e19810 [<一个href="//www.mybigtv.com/2020/10/e19810/" target="_blank">免费全文] [<一个t一个rget="_blank" href="https://dx.doi.org/10.2196/19810">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=33095174&dopt=Abstract" target="_blank">Medline]
  11. 张欣。基于深度强化学习的句子简化方法。见:2017年自然语言处理经验方法会议论文集。新泽西州新不伦瑞克:计算语言学协会;2017年发表于:2017年自然语言处理经验方法会议;2017年9月7-11日;哥本哈根,丹麦,p. 584-594<一个t一个rget="_blank" href="https://aclanthology.org/D17-1062.pdf">https://aclanthology.org/D17-1062.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/d17-1062">CrossRef]
  12. 徐伟,陈强,陈强。基于统计机器翻译的文本简化优化。TACL 2016年12月;4:401-415。[<一个t一个rget="_blank" href="https://dx.doi.org/10.1162/tacl_a_00107">CrossRef]
  13. 张志刚,张志刚,张志刚,等。注意力就是你所需的一切在:NIPS'17:神经信息处理系统第31届国际会议论文集。红钩,纽约:Curran Associates Inc;2017年发表于:NIPS'17:第31届神经信息处理系统国际会议;2017年12月4日至9日;加州长滩p. 6000-6010网址:<一个t一个rget="_blank" href="https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf">https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
  14. Lewis M, Liu Y, Goyal N, Ghazvininejad M, Mohamed A, Levy O,等。BART:去噪序列到序列的自然语言生成,翻译和理解的预训练。见:计算语言学协会第58届年会论文集。新泽西州新不伦瑞克:计算语言学协会;2020年7月出席:第58届计算语言学协会年会上;2020年7月5-10日;虚拟p. 7871-7880 URL:<一个t一个rget="_blank" href="https://aclanthology.org/2020.acl-main.703.pdf">https://aclanthology.org/2020.acl-main.703.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2020.acl-main.703">CrossRef]
  15. 李文杰,王晓明,王晓明。生成预训练对语言理解能力的影响。Amazon AWS。2022.URL:<一个t一个rget="_blank" href="https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf">https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf[2022-10-31]访问
  16. 张志强,李志强,张志强,等。用统一的文本到文本转换器探索迁移学习的局限性。机器学习研究2020;21:1-67 [<一个href="http://jmlr.org/papers/v21/20-074.html" target="_blank">免费全文]
  17. Martin L, Fan A, de la Clergerie E, Bordes A, Sagot B. MUSS:挖掘释义的多语言无监督句子简化。arXiv预印本于2021年4月16日在线发布。[<一个t一个rget="_blank" href="https://dx.doi.org/10.48550/arXiv.2005.00352">CrossRef]
  18. 温泽克G, Lachaux MA, Conneau A, Chaudhary V, Guzmán F, Joulin A,等。CCNet:从网络抓取数据中提取高质量单语数据集。见:第十二届语言资源与评估会议论文集。:欧洲语言资源协会;2020发表于:LREC 2020:第12届语言资源与评估会议;2020年5月11日至16日;法国马赛,邮编4003-4012<一个t一个rget="_blank" href="https://aclanthology.org/2020.lrec-1.494">https://aclanthology.org/2020.lrec-1.494
  19. 赵颖,陈林,于凯。基于反平移和非对称去噪自编码器的半监督文本简化。AAAI 2020 april 03;34(05):9668-9675。[<一个t一个rget="_blank" href="https://dx.doi.org/10.1609/aaai.v34i05.6515">CrossRef]
  20. 苏亚,米什拉,拉哈,Jain P, Sankaranarayanan K.无监督神经文本简化。见:第57届计算语言学协会年会论文集。新泽西州新不伦瑞克:计算语言学协会;2019年发表于:第57届计算语言学协会年会上;2019年7月28日至8月2日;意大利佛罗伦萨,p. 2058-2068<一个t一个rget="_blank" href="https://aclanthology.org/P19-1198.pdf">https://aclanthology.org/P19-1198.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/p19-1198">CrossRef]
  21. 孙锐,金华,万霞。文档级文本简化:数据集、标准和基线。见:2021年自然语言处理经验方法会议论文集。新泽西州新不伦瑞克:计算语言学协会;2021年发表于:2021年自然语言处理经验方法会议;2021年11月7日至11日;网上和多米尼加共和国蓬塔卡纳p. 7997-8013网址:<一个t一个rget="_blank" href="https://aclanthology.org/2021.emnlp-main.630.pdf">https://aclanthology.org/2021.emnlp-main.630.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2021.emnlp-main.630">CrossRef]
  22. 科斯特W,考查克D.简单英语维基百科:一个新的文本简化任务。见:第49届计算语言学协会年会论文集:人类语言技术。新泽西州新不伦瑞克:计算语言学协会;2011年发表于:第49届计算语言学协会年会上:人类语言技术;2011年6月19-24日;波特兰,OR p. 665-669网址:<一个t一个rget="_blank" href="https://aclanthology.org/P11-2117.pdf">https://aclanthology.org/P11-2117.pdf
  23. 蒋超,马德德拉,兰伟,钟勇。基于神经CRF模型的文本简化句子对齐。见:计算语言学协会第58届年会论文集。新泽西州新不伦瑞克:计算语言学协会;2020年7月出席:第58届计算语言学协会年会上;2020年7月5-10日;虚拟p. 7943-7960 URL:<一个t一个rget="_blank" href="https://aclanthology.org/2020.acl-main.709.pdf">https://aclanthology.org/2020.acl-main.709.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2020.acl-main.709">CrossRef]
  24. 徐伟,callson - burch C, Napoles C.当前文本简化研究的问题:新数据可以帮助。TACL 2015年12月;3:283-297。[<一个t一个rget="_blank" href="https://dx.doi.org/10.1162/tacl_a_00139">CrossRef]
  25. 李文杰,李志强,李志强。基于语义工厂的语义工厂研究。见:第八届语义评估国际研讨会论文集(SemEval 2014)。新泽西州新不伦瑞克:计算语言学协会;2014年发表于:第八届语义评估国际研讨会(SemEval 2014);2014年8月23-24日;都柏林,爱尔兰p. 642-646网址:<一个t一个rget="_blank" href="https://aclanthology.org/S14-2114.pdf">https://aclanthology.org/S14-2114.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.3115/v1/s14-2114">CrossRef]
  26. 拉班P,施纳贝尔T,班尼特P,赫斯特M.保持简单:多段文本的无监督简化。见:第59届计算语言学协会年会和第11届自然语言处理国际联合会议论文集(卷1:长论文)。新泽西州新不伦瑞克:计算语言学协会;2021年发表于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议;2021年8月1日至6日;在线p. 6365-6378网址:<一个t一个rget="_blank" href="https://aclanthology.org/2021.acl-long.498.pdf">https://aclanthology.org/2021.acl-long.498.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2021.acl-long.498">CrossRef]
  27. 范登伯根,李志强,李志强。神经文本简化在医学领域的应用。纽约州纽约:计算机协会(ACM);2019年5月出席:WWW '19:万维网大会;2019年5月13日至17日;旧金山CA p. 3286-3292网址:<一个t一个rget="_blank" href="https://dl.acm.org/doi/10.1145/3308558.3313630">https://dl.acm.org/doi/10.1145/3308558.3313630[<一个t一个rget="_blank" href="https://dx.doi.org/10.1145/3308558.3313630">CrossRef]
  28. 数据集。Github。URL:<一个t一个rget="_blank" href="https://github.com/AshOlogn/Paragraph-level-Simplification-of-Medical-Texts">https://github.com/AshOlogn/Paragraph-level-Simplification-of-Medical-Texts[2022-10-31]访问
  29. 金凯德JP,菲什伯恩小RP,罗杰斯RL,奇索姆BS。海军现役人员新的可读性公式(自动可读性指数,雾数和Flesch阅读简化公式)的推导。海军技术训练司令部米灵顿TN研究分部1975年2月1日URL:<一个t一个rget="_blank" href="https://apps.dtic.mil/sti/citations/ADA006655">https://apps.dtic.mil/sti/citations/ADA006655[2022-10-31]访问
  30. Papineni K, Roukos S, Ward T, Zhu W. Bleu:一种机器翻译的自动评价方法。见:计算语言学协会第40届年会论文集。新泽西州新不伦瑞克:计算语言学协会;2002年发表于:计算语言学协会第40届年会;2002年7月7日至12日;费城,宾夕法尼亚州311-318页网址:<一个t一个rget="_blank" href="https://aclanthology.org/P02-1040.pdf">https://aclanthology.org/P02-1040.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.3115/1073083.1073135">CrossRef]
  31. 陈强,彭勇,陆哲。生物科学的句子嵌入方法。纽约,纽约州:IEEE;2019发表于:2019 IEEE医疗保健信息学国际会议(ICHI);2019年6月10日至13日;中国西安p. 1-15网址:<一个t一个rget="_blank" href="https://ieeexplore.ieee.org/document/8904728">https://ieeexplore.ieee.org/document/8904728[<一个t一个rget="_blank" href="https://dx.doi.org/10.1109/ICHI.2019.8904728">CrossRef]
  32. 词频和词难:四个语料库中计数的比较。心理科学2016 May 06;7(2):96-99 [<一个href="http://paperpile.com/b/wPHHu8/3EP0" target="_blank">免费全文] [<一个t一个rget="_blank" href="https://dx.doi.org/10.1111/j.1467-9280.1996.tb00336.x">CrossRef]
  33. Narayan S, Cohen SB, Lapata M.不要给我细节,只要总结!用于极端摘要的主题感知卷积神经网络。见:2018年自然语言处理经验方法会议论文集。新泽西州新不伦瑞克:计算语言学协会;2018年发表于:2018年自然语言处理经验方法会议;2018年10月31日- 11月4日;比利时布鲁塞尔,1797-1807年<一个t一个rget="_blank" href="https://aclanthology.org/D18-1206.pdf">https://aclanthology.org/D18-1206.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/d18-1206">CrossRef]
  34. Nallapati R, Zhou B, dos Santos C, Gu̇lçehre C,向B.基于序列到序列rnn的抽象文本摘要及其超越。在:计算自然语言学习的第20届SIGNLL会议论文集。新泽西州新不伦瑞克:计算语言学协会;2016年8月发表于:第20届SIGNLL计算自然语言学习会议;2016年8月7日至12日;柏林,德国p. 280-290网址:<一个t一个rget="_blank" href="https://aclanthology.org/K16-1028.pdf">https://aclanthology.org/K16-1028.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/k16-1028">CrossRef]
  35. 齐伟,闫颖,龚颖,刘东,段楠,陈杰,等。先知网络:预测未来序列到序列预训练的N-gram。见:计算语言学协会的发现,EMNLP 2020。新泽西州新不伦瑞克:计算语言学协会;2020发表于:EMNLP 2020;2020年11月16日至20日;在线p. 2401-2410网址:<一个t一个rget="_blank" href="https://aclanthology.org/2020.findings-emnlp.217.pdf">https://aclanthology.org/2020.findings-emnlp.217.pdf
  36. 王晓明,王志强,王志强。基于递归神经网络的序列水平训练。arXiv预印本于2016年5月6日在线发布。[<一个href="http://arxiv.org/abs/1511.06732" target="_blank">免费全文]
  37. aghajyan A, Shrivastava A, Gupta A, Goyal N, Zettlemoyer L, Gupta S.通过减少表征崩溃更好的微调。2020年4月发表于:国际学习表征会议(ICLR 2020);2020年4月26-30日;虚拟网址:<一个t一个rget="_blank" href="https://www.researchgate.net/publication/343547031_Better_Fine-Tuning_by_Reducing_Representational_Collapse">https://www.researchgate.net/publication/343547031_Better_Fine-Tuning_by_Reducing_Representational_Collapse
  38. 连接主义强化学习的简单统计梯度跟随算法。Mach Learn 1992 5月;8(3-4):229-256 [<一个href="https://link.springer.com/article/10.1007/BF00992696" target="_blank">免费全文] [<一个t一个rget="_blank" href="https://dx.doi.org/10.1007/BF00992696">CrossRef]
  39. Rennie SJ, Marcheret E, Mroueh Y, Ross J, Goel V.图像字幕自临界序列训练。见:IEEE计算机视觉与模式识别会议论文集(CVPR)。纽约,纽约州:IEEE;2017年7月发表于:2017 IEEE计算机视觉与模式识别会议(CVPR);2017年7月21-26日;檀香山,HI p. 7008-7024网址:<一个t一个rget="_blank" href="https://openaccess.thecvf.com/content_cvpr_2017/papers/Rennie_Self-Critical_Sequence_Training_CVPR_2017_paper.pdf">https://openaccess.thecvf.com/content_cvpr_2017/papers/Rennie_Self-Critical_Sequence_Training_CVPR_2017_paper.pdf[<一个t一个rget="_blank" href="https://dx.doi.org/10.1186/isrctn12348322">CrossRef]
  40. spic I, Nenadic G.机器学习中的临床文本数据:系统回顾。JMIR Med Inform 2020年3月31日;8(3):e17984 [<一个href="//www.mybigtv.com/medinform/2020/3/e17984/" target="_blank">免费全文] [<一个t一个rget="_blank" href="https://dx.doi.org/10.2196/17984">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=32229465&dopt=Abstract" target="_blank">Medline]
  41. Martin L, De, Sagot B, Bordes A.可控句子简化。2020年5月11日发表于:第十二届语言资源与评估会议论文集;2020-05-11;法国p. 4689-4698网址:<一个t一个rget="_blank" href="https://aclanthology.org/2020.lrec-1.577/">https://aclanthology.org/2020.lrec-1.577/
  42. 闫艳云,胡峰,陈杰,bendawade N,叶涛,龚勇,等。发表于:第59届计算语言学协会年会论文集和第11届自然语言处理国际联合会议论文集:系统演示。2021年8月;2022-08-01;泰国页218-226网址:<一个t一个rget="_blank" href="https://aclanthology.org/2021.acl-demo.26/">https://aclanthology.org/2021.acl-demo.26/[<一个t一个rget="_blank" href="https://dx.doi.org/10.18653/v1/2021.acl-demo.26">CrossRef]
  43. Paulus R, Xiong C, Socher R.一种深度强化的抽象摘要模型。2018年发表于:国际学习表征会议(ICLR 2018);2018年4月30日至5月3日;卑诗省温哥华网址:<一个t一个rget="_blank" href="https://www.researchgate.net/publication/316875315_A_Deep_Reinforced_Model_for_Abstractive_Summarization">https://www.researchgate.net/publication/316875315_A_Deep_Reinforced_Model_for_Abstractive_Summarization
  44. 林春春。ROUGE:摘要自动评估包。新泽西州新不伦瑞克:计算语言学协会;2004年发表于:文本摘要分支;2004年7月25日、6日;西班牙巴塞罗那,74-81页网址:<一个t一个rget="_blank" href="https://aclanthology.org/W04-1013.pdf">https://aclanthology.org/W04-1013.pdf
  45. Yuan W, Neubig G, Liu P. BARTScore:评估生成的文本作为文本生成。2021年5月21日发表于:神经信息处理系统进展34:神经信息处理系统年会上,NeurIPS 2021;2021年12月6日至14日;虚拟p. 27263-27277 URL:<一个t一个rget="_blank" href="https://proceedings.neurips.cc/paper/2021/hash/e4d2b6e6fdeca3e60e0f1a62fee3d9dd-Abstract.html">https://proceedings.neurips.cc/paper/2021/hash/e4d2b6e6fdeca3e60e0f1a62fee3d9dd-Abstract.html
  46. 张军,赵Y,萨利赫M,刘p .飞马:训练前提取gap-sentences摘要式的总结。2020年7月13日发表于:InInternational Conference on Machine Learning. 2020;2020-07-13;虚拟网址:<一个t一个rget="_blank" href="http://proceedings.mlr.press/v119/zhang20ae">http://proceedings.mlr.press/v119/zhang20ae
  47. Loshchilov I, Hutter F.去耦权重衰减正则化。2018年9月27日发表于:学习表示国际会议;2018;加拿大温哥华。


阿里:自动可读性索引
伯特:来自变压器的双向编码器表示
FKGL:Flesch-Kincaid等级
GPT:生成式预训练变压器
大中型企业:极大似然估计
克义斯:保持简单
Lml:最大似然损失
LS:词汇简化
LSTM:长短期记忆
混乱:多语言无监督句子简化
请:简单的语言总结
RFlesch:FKGL奖励
RL:强化学习


编辑:T Hao;提交18.03.22;作者:T Zhang, S Kim, H Suominen;对作者27.06.22的评论;订正版本收到日期为08.08.22;接受12.10.22;发表18.11.22

版权<年代p一个nclass="fas fa-question-circle">

©Atharva Phatak, David W Savage, Robert Ohle, Jonathan Smith, Vijay Mago。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 18.11.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map