发表在gydF4y2Ba在gydF4y2Ba第八卷gydF4y2Ba, 4号gydF4y2Ba(2020)gydF4y2Ba: 4月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/17787gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
基于字符级符号(AlphaBERT)的医院信息系统变压器提取总结模型的改进双向编码器表示:开发与性能评估gydF4y2Ba

基于字符级符号(AlphaBERT)的医院信息系统变压器提取总结模型的改进双向编码器表示:开发与性能评估gydF4y2Ba

基于字符级符号(AlphaBERT)的医院信息系统变压器提取总结模型的改进双向编码器表示:开发与性能评估gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba国立台湾大学生物医学电子与生物资讯研究所,台北市gydF4y2Ba

2gydF4y2Ba台湾新竹县国立台湾大学医院中南分院急诊科gydF4y2Ba

3.gydF4y2Ba台北市国立台湾大学医院急诊科gydF4y2Ba

4gydF4y2Ba国立台湾大学医学院急诊科,台北市gydF4y2Ba

5gydF4y2Ba国立台湾大学计算机科学与信息工程系,台北市gydF4y2Ba

6gydF4y2Ba国立台湾大学电机工程系,台北市gydF4y2Ba

通讯作者:gydF4y2Ba

陈彦彬,医学博士gydF4y2Ba

生物医学电子与生物信息学研究生院gydF4y2Ba

国立台湾大学gydF4y2Ba

百利林楼410室gydF4y2Ba

罗斯福道第四段1号gydF4y2Ba

台北市,gydF4y2Ba

台湾gydF4y2Ba

电话:886 2 3366 3754gydF4y2Ba

电子邮件:gydF4y2Baf06945029@g.ntu.edu.twgydF4y2Ba


背景:gydF4y2Ba医生必须同时照顾许多病人,查找和检查所有病人的病史是很耗时的。出院诊断为医院工作人员提供了足够的信息,使其能够处理多名患者;然而,诊断句中过多的单词会带来问题。深度学习可能是克服这一问题的有效解决方案,但使用如此沉重的模型也可能为计算资源有限的系统增加另一个障碍。gydF4y2Ba

摘要目的:gydF4y2Ba我们的目标是为医院信息系统建立一个诊断提取汇总模型,并提供一种即使在有限的计算资源下也能运行的服务。gydF4y2Ba

方法:gydF4y2Ba我们采用基于BERT(双向编码器表征)的结构和两阶段训练方法,基于台大医院综合医学数据库中258,050例出院诊断,并对经验丰富的医生撰写的突出显示的摘录摘要进行标记。使用字符级令牌减小模型大小,将参数数量从108,523,714个减少到963,496个,并使用出院诊断集和国际疾病及相关健康问题统计分类集中的随机掩码字符对模型进行预训练。然后,我们使用摘要标签对模型进行微调,并通过平均整个单词的所有概率来清理预测结果,以防止字符级别诱导的片段词。采用基于记忆导向的注册评估替代研究(Recall-Oriented Understudy for Gisting Evaluation, ROUGE) L评分对现有模型BERT、BioBERT和长短期记忆(LSTM)进行了模型性能评估,并建立了一个问卷网站,收集更多医生对每个总结建议的反馈。gydF4y2Ba

结果:gydF4y2BaBERT、BioBERT、LSTM和建议模型(AlphaBERT)的汇总建议的接收者工作特征曲线值下面积分别为0.928、0.941、0.899和0.947。BERT、BioBERT、LSTM和AlphaBERT的ROUGE-L评分分别为0.697、0.711、0.648和0.693。医生参考标签、BERT、BioBERT、LSTM和AlphaBERT的平均(SD)评分分别为2.232(0.832)、2.134(0.877)、2.207(0.844)、1.927(0.910)和2.126(0.874)。经配对t检验,LSTM与参考文献(gydF4y2BaPgydF4y2Ba<.001), Bert (gydF4y2BaPgydF4y2Ba=.001), BioBERT (gydF4y2BaPgydF4y2Ba<.001),而AlphaBERT (gydF4y2BaPgydF4y2Ba=.002),但其他型号没有。gydF4y2Ba

结论:gydF4y2Ba在BERT模型中使用字符级标记可以大大减小模型大小,而不会显著降低诊断摘要的性能。一个发展良好的深度学习模型将提高医生管理病人的能力,并通过提供使用大量非结构化自由文本笔记的能力来促进医学研究。gydF4y2Ba

中华医学杂志,2020;8(4):1177 - 1177gydF4y2Ba

doi: 10.2196/17787gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

医疗中心是公共卫生的最后一道防线,负责培养医学人才。这些医疗中心急诊科的病人数量特别大,这些病人往往比低一级医院的病人病情更严重。对工作人员来说,急诊科的工作环境可能超负荷。gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba]。在轮班开始时,一名医生必须对在急诊科停留的30多名患者进行初级护理,这些患者的时间从不到1小时到3天以上,同时还要治疗来自分诊的新患者。急诊科患者的情况也往往变化很快,工作人员必须能够在时间限制下处理这些患者。《国际疾病及有关健康问题统计分类》编码[gydF4y2Ba3.gydF4y2Ba最近的出院诊断可以帮助工作人员快速确定基线情况。然而,在医疗中心,患者可能患有多种潜在疾病和几种合并症,这些疾病以前被记录为ICD代码和电子健康记录(EHRs)中的出院诊断。由于ICD代码只反映疾病,而不反映相关的治疗,这种信息的缺乏限制了医务人员考虑与以前医院就诊有关的信息的能力。偶尔,ICD编码的选择不精确,不能充分代表患者的病情。因此,出院诊断需要工作人员熟悉病人的病情。然而,在诊断句子中描述这些细节的单词数量可能会有很大差异。因此,急诊科的主治医生可能需要阅读多达1500字的内容,以涵盖他们所负责的所有患者的病史。为了解决这一挑战,本研究的目的是建立一个诊断汇总系统,以帮助医院工作人员更快地检查所有患者的信息。gydF4y2Ba

相关的工作gydF4y2Ba

有几种可用的方法来完成文本摘要任务,从传统的自然语言处理(NLP)到深度学习语言模型[gydF4y2Ba4gydF4y2Ba-gydF4y2Ba9gydF4y2Ba]。以往医学领域文本摘要研究的目标[gydF4y2Ba5gydF4y2Ba]包括在医学文献中寻找与病人护理有关的信息[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba10gydF4y2Ba-gydF4y2Ba13gydF4y2Ba],识别药物信息[gydF4y2Ba14gydF4y2Ba],确定医学文章的主题分类[gydF4y2Ba15gydF4y2Ba],以及总结医学文章[gydF4y2Ba16gydF4y2Ba]。在大多数情况下,自动摘要任务的数据源是医学文章[gydF4y2Ba16gydF4y2Ba]例如PubMed文章[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba]。近年来,电子病历已被多家医院和诊所广泛采用,以及其他数据来源,如重症监护医疗信息市场III [gydF4y2Ba17gydF4y2Ba]数据集可在线免费获取,并促进医学进步。基于病案研究、多项疾病指标监测、临床试验招募、临床决策等方面,研究了几种基于电子病历的临床总结系统[gydF4y2Ba4gydF4y2Ba,gydF4y2Ba18gydF4y2Ba-gydF4y2Ba20.gydF4y2Ba]。然而,没有研究解决了诊断摘要系统的问题,以帮助医院工作人员更快地获取他们所照顾的所有患者的信息。gydF4y2Ba

虽然电子病历提供了有用的信息,但这些信息大多以自由文本的形式记录,因此很难与其他结构化数据一起分析[gydF4y2Ba4gydF4y2Ba]。近年来,NLP和深度学习方法蓬勃发展,为医疗保健提供者提供了一个促进人类健康的新领域。现在有几个优秀的语言模型可以帮助机器分析自由文本。其中一个模型是转换器的双向编码器表示(BERT) [gydF4y2Ba21gydF4y2Ba],它是Transformer [gydF4y2Ba22gydF4y2Ba],并且在几个NLP任务中获得了最高分[gydF4y2Ba21gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba]。gydF4y2Ba

变压器是一种最先进的模型,它的发布是为了转换和提高长短期记忆(LSTM)的效率[gydF4y2Ba25gydF4y2Ba]为基础的语言模型[gydF4y2Ba22gydF4y2Ba]。与许多深度网络模型类似,Transformer有一个编码器和一个解码器。编码器将输入数据转换为有意义的代码(向量或矩阵),同时减小维数大小(数据分析的主要瓶颈),解码器将代码转换为输出[gydF4y2Ba26gydF4y2Ba]。以翻译为例,编码器将英语句子转换为潜在空间的数字向量,解码器再将数字向量转换为所需语言的相应句子。Transformer的编码器具有嵌入模型、具有多头自关注模型的重复块模型和基于快捷连接概念的前馈模型[gydF4y2Ba27gydF4y2Ba]和图层归一化[gydF4y2Ba22gydF4y2Ba,gydF4y2Ba28gydF4y2Ba]。gydF4y2Ba

自动文本摘要任务有抽取和抽象两个分支。gydF4y2Ba29gydF4y2Ba]。提取分支在不改变原始文档的情况下将关键字或句子识别为摘要,而抽象分支则采用新的短句。诊断总结了整个住院过程,包括主诉和治疗过程,以高度集中和有意义的句子,帮助其他工作人员快速管理患者。由于急诊科患者的基础疾病较多,加之个别患者病情的高度复杂性,句子不完整,语法问题,以及一些从属提示,所得到的诊断可能不够简洁。因此,工作人员需要在他们的诊断中包含丰富的词汇,以最好地代表病人的状况。这些丰富的词汇不仅包括特定的疾病术语,还包括入院过程中提供的重要治疗方法,以及与诊断相关的冗长文本。因此,有必要采用提取总结的方法进一步总结诊断。gydF4y2Ba

抽取总结模型可以简化为输出选择或不选择概率的回归问题。该问题以单个字符为令牌单位,类似于计算机视觉中的分割问题[gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31gydF4y2Ba],以像素为单位输出类概率。在这种情况下,基于bert的模型是更好的选择,因为注意力权重与提取概率相似[gydF4y2Ba32gydF4y2Ba,gydF4y2Ba33gydF4y2Ba]和Transformer在语言模型上表现出比卷积神经网络、递归神经网络或LSTM模型更高的性能[gydF4y2Ba22gydF4y2Ba]。gydF4y2Ba

BERT是一种最先进的语言模型,用于许多NLP任务,这些任务是通过无监督学习进行预训练的,包括“屏蔽语言建模”和“下一句预测”。BERT通过几个语料库数据集进行预训练,然后通过监督数据转移到学习中[gydF4y2Ba34gydF4y2Ba,gydF4y2Ba35gydF4y2Ba]在几场比赛中击败其他语言模型[gydF4y2Ba21gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]。预训练的模型是可用的[gydF4y2Ba37gydF4y2Ba并且可以针对许多情况进行微调。gydF4y2Ba

因为英语不是台湾的母语,所以在自由文本医疗记录中有各种打字和拼写错误。使用词级法[gydF4y2Ba38gydF4y2Ba],它是基于Word2vec [gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba],会导致词汇外障碍。此外,单词的内部结构也很重要,可以改进向量表示[gydF4y2Ba41gydF4y2Ba,gydF4y2Ba42gydF4y2Ba]。采用字符级方法可以克服这一障碍[gydF4y2Ba40gydF4y2Ba,gydF4y2Ba43gydF4y2Ba,gydF4y2Ba44gydF4y2Ba],它使用单个字符或字母作为分析单元,或者字节对编码(BPE)模型,它将每个单词分解成多个子单词单元(即“单词块”)[gydF4y2Ba45gydF4y2Ba]。这些方法可以减少总词汇量,也可以处理罕见的单词、拼写错误和拼写错误。在BERT中采用了词级和BPE方法,得到了一个适用于多种NLP任务的全面、适应性强的模型。gydF4y2Ba

在电子病历中,医学术语、缩略语、日期和一些治疗计数数字在一般语料库数据集中很少被发现,这将导致模型的性能不佳。BioBERT基于BERT模型并使用相同的标记器,是通过在生物医学语料库上进行高级训练获得的[gydF4y2Ba46gydF4y2Ba],并被认为非常适合我们的研究目标。然而,一些医疗中心的通用计算环境在BERT中训练或微调重型模型(涉及大约10亿个参数)的能力有限。因此,用字符级的方法替换符号单位可以进一步减少词汇量和模型的大小,从而可以使用单词的内部结构来避免词汇表外问题。gydF4y2Ba

客观的gydF4y2Ba

我们的目标是建立一个诊断提取汇总模型,该模型可以在医院信息系统有限的计算资源上运行,并且性能良好。因此,我们提出了AlphaBERT,这是一个基于bert的模型,使用英语字母(字符级)作为标记单位。我们将AlphaBERT的性能和参数数量与上述其他现有模型进行了比较。gydF4y2Ba


材料gydF4y2Ba

从国立台湾大学医院综合医学数据库(NTUH-iMD)中获得258,050例出院诊断数据集。出院诊断来自以下科室(按顺序排列):外科、内科、妇产科、儿科、肿瘤科、骨科、泌尿科、耳鼻喉科、眼科、创伤科、牙科、神经内科、家庭医学、精神病学、物理医学与康复科、皮肤科、急诊医学、老年医学、老年医学。本研究经台湾大学附属医院研究伦理委员会B (201710066RINB)批准。gydF4y2Ba

在预训练阶段,ICD第十版(ICD-10)收集了71704条诊断[gydF4y2Ba3.gydF4y2Ba],将258,050例出院诊断分为245,148例(95.00%)作为预训练的训练数据集,12,902例(5.00%)作为预训练的验证数据集。在微调阶段,监督学习的摘录摘要由3名在急诊科工作8年以上的经验丰富的医生进行标注。微调后的数据集包括来自预训练数据集的2530个训练标签,以及来自预训练验证数据集的250个验证标签和589个测试标签(gydF4y2Ba图1gydF4y2Ba)。我们使用微调测试集中的589个数据条目来馈送模型,并获得了性能评估的预测建议。gydF4y2Ba

‎gydF4y2Ba
图1所示。预训练验证数据集。国际疾病和有关健康问题统计分类。gydF4y2Ba
查看此图gydF4y2Ba

实现细节gydF4y2Ba

用于实现的硬件是I7 5960x CPU, 60 G RAM和2个Nvidia GTX 1080 Ti gpu。使用的软件是Ubuntu 18.04 [gydF4y2Ba47gydF4y2Ba],蟒蛇2019.03 [gydF4y2Ba48gydF4y2Ba]和PyTorch 1.2.0 [gydF4y2Ba49gydF4y2Ba]。gydF4y2Ba

标签数据gydF4y2Ba

我们创建了一个诊断标签工具,用于在文本框中打印数据集中的出院诊断。医生通过选择被认为最相关的单词来突出显示出院诊断,该工具识别出突出显示的位置字符,这些字符被标记为1,其他字符被标记为0。例如,“1。将“膀胱癌”标记为“001111111111111110000”,存储在标签数据集中。我们鼓励医生跳过简短的诊断,因为总结服务对于较长的诊断会更有用。因此,只有较长的诊断被标记并收集在微调集中。gydF4y2Ba

数据增加gydF4y2Ba

在本研究中,预训练数据集小于BERT及其扩展预训练模型中使用的数据集[gydF4y2Ba21gydF4y2Ba,gydF4y2Ba46gydF4y2Ba]。由于诊断包括几个独立的诊断,如高血压、蜂窝织炎和结肠癌,我们通过拼接来自ICD代码或NTUH-iMD的许多诊断来增强预训练数据集。因此,通过从数据集中选择1到29个随机诊断数据条目,并将它们组合成更长的、更复杂的诊断作为预训练数据集,来进行数据扩充。由于GPU内存限制,我们将所有诊断设置为最大1350个字符。gydF4y2Ba

由于微调数据也严重不足,因此使用相同的数据增强策略来扩展微调数据集。为了提供更大的错别字容忍度,我们还在微调阶段随机替换了诊断中0.1%的字符。gydF4y2Ba

预处理和标记化gydF4y2Ba

我们只保留了100个符号,包括字母、数字和一些标点符号。所有自由文本诊断都经过过滤器预处理,保留列表外的符号用空格替换。保留原始字母大小写(大写和小写)以供分析。gydF4y2Ba

然后,诊断的预处理将符号(字母、数字和标点符号)转换成一对一对应的数字。例如,“1。将“膀胱癌”转换为“14、11、31、68、57、60、60、61、74、0、59、57、70、59、61、74、0、79、65、76、64”数组。gydF4y2Ba

模型架构gydF4y2Ba

AlphaBERT的架构是基于BERT的架构,我们的模型是基于HuggingFace团队发布的PyTorch改编[gydF4y2Ba37gydF4y2Ba]。在这项研究中,我们使用了一个16层的Transformer编码器,有16个自注意头,隐藏大小为64。字符级标记器被用作AlphaBERT的标记生成器。整个模型共有963,496个参数,符号被标记化表示为单热编码,对应每个隐藏大小为64的向量作为标记嵌入。位置嵌入(隐藏大小为64)是可训练的向量,对应于符号[gydF4y2Ba21gydF4y2Ba],其中位置嵌入的最大长度设置为1350。然后将标记嵌入和位置嵌入的总和用作输入嵌入(gydF4y2Ba多媒体附录1gydF4y2Ba)作为AlphaBERT的输入(gydF4y2Ba图2gydF4y2Ba)。gydF4y2Ba

‎gydF4y2Ba
图2。深度学习模型架构。gydF4y2Ba
查看此图gydF4y2Ba

Pretraining阶段gydF4y2Ba

BERT的两阶段学习方法[gydF4y2Ba21gydF4y2Ba是基于一种无监督的基于特征的方法,然后将学习转移到有监督的数据。BERT的无监督预训练阶段使用一种被称为“完形过程”的屏蔽语言模型过程[gydF4y2Ba21gydF4y2Ba,gydF4y2Ba50gydF4y2Ba]。由于AlphaBERT作为字符级记号模型,我们使用“^”作为BERT中的“[MASK]”,所以我们随机选择15%的字符序列,其中80%被“^”替换,10%被字母替换,剩下的10%保持不变。在损失收敛之后,我们掩盖了整个单词来进一步预训练我们的模型。gydF4y2Ba

由于自由文本诊断包含日期、化疗周期、癌症分期指数和标点符号,这些词是非提示的、非通用的,并且是顺序更改的。即使是经验丰富的医生也无法在没有提示的情况下恢复隐藏的日期或周期,因此字母被替换为其他字母,数字被替换为其他数字,标点符号被替换为其他标点符号(但仍然随机选择以“^”掩盖)。gydF4y2Ba

在本研究中使用的掩码语言模型中,BERT模型连接到一个全连接的网络解码器gydF4y2Ba一个gydF4y2Ba,然后将64维的隐藏大小转换为与概率相对应的100维符号列表大小gydF4y2BapgydF4y2Ba每个符号。损失函数gydF4y2Ba损失gydF4y2Ba面具gydF4y2Ba每个符号的概率之间的交叉熵(左边的?gydF4y2Ba图2gydF4y2Ba)。gydF4y2Ba

在哪里gydF4y2BaEgydF4y2Ba面具gydF4y2Ba表示由掩蔽字符转换的输入嵌入,gydF4y2Ba伯特()gydF4y2Ba是BERT模型,gydF4y2Ba一个gydF4y2Ba()是与每个保留字符完全连接的线性解码器,gydF4y2BapgydF4y2Ba是概率函数,和gydF4y2Ba1gydF4y2Ba我gydF4y2Ba面具gydF4y2Ba表示gydF4y2Ba我gydF4y2BathgydF4y2Ba字符蒙面。gydF4y2Ba

微调阶段gydF4y2Ba

另一个完全连接的网络,gydF4y2Ba年代gydF4y2Ba,gydF4y2Ba将多层变压器编码器的结果解码为预测概率gydF4y2BapgydF4y2Ba。解码器的输出大小gydF4y2Ba年代gydF4y2Ba是二维的,表示选择的可能性。损失函数gydF4y2Ba损失gydF4y2Ba交叉熵是多少gydF4y2BapgydF4y2Ba而地面的真相(右边的)gydF4y2Ba图2gydF4y2Ba)。gydF4y2Ba

在哪里gydF4y2Ba年代gydF4y2Ba()是供选择的全连接线性解码器。gydF4y2Ba

清理方法gydF4y2Ba

当我们评估我们的模型时,每个单词的概率由单词中每个字符的平均概率表示。在这种方法中,我们拆分字符列表gydF4y2BaC =gydF4y2Ba[gydF4y2BacgydF4y2Ba1gydF4y2BacgydF4y2Ba2gydF4y2Bac,……gydF4y2BangydF4y2Ba]变成一个由几个词集组成的列表gydF4y2BaWgydF4y2Ba= (gydF4y2BawgydF4y2Ba1gydF4y2BawgydF4y2Ba2gydF4y2Ba,……wgydF4y2BakgydF4y2Ba],gydF4y2BakgydF4y2Ba≤gydF4y2BangydF4y2Ba,其中,清理概率gydF4y2Bap̂gydF4y2Ba我gydF4y2Ba每一个gydF4y2BacgydF4y2Ba我gydF4y2Ba是所有概率的平均值吗gydF4y2BawgydF4y2Ba米gydF4y2Ba包含gydF4y2BacgydF4y2Ba我gydF4y2Ba。gydF4y2Ba

在哪里gydF4y2BapgydF4y2Ba表示清理后的概率,gydF4y2BawgydF4y2Ba米gydF4y2Ba类的字符序列gydF4y2Ba米gydF4y2BathgydF4y2Ba词,gydF4y2BangydF4y2Ba()是集合中单元的长度。gydF4y2Ba

用于抽取摘要的BERT模型gydF4y2Ba

我们还比较了最先进的模型,并对它们进行了调整,以适应目标任务。这些模型的目的不是总结,也没有针对这一目的提供的良好的、微调的模型。基于词块的BPE方法[gydF4y2Ba45gydF4y2Ba],所有的单词被分成几个元素标记,然后预测结果与单词片段相关联。因此,对于这个任务,我们过滤掉了标点符号,并在每个单词的头部添加了“[CLS]”(gydF4y2BaEgydF4y2Ba头gydF4y2Ba)不代表整个单词,从而防止了结果的碎片化。gydF4y2Ba

在哪里gydF4y2BaEgydF4y2Ba头gydF4y2Ba表示由单词(带头)和转换而成的输入嵌入gydF4y2Ba1gydF4y2Ba我gydF4y2Ba头gydF4y2Ba表示gydF4y2Ba我gydF4y2BathgydF4y2Ba字符是头部标记。gydF4y2Ba

用于抽取摘要的LSTM模型gydF4y2Ba

我们还使用了LSTM模型[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba25gydF4y2Ba]来完成这个总结任务。为了与我们的模型进行有效的比较,我们使用Word2vec [gydF4y2Ba39gydF4y2Ba],采用了9层双向LSTM,参数899,841个,与我们的模型非常相似。gydF4y2Ba

HyperparametersgydF4y2Ba

我们使用Adam优化[gydF4y2Ba51gydF4y2Ba],学习率为1×10gydF4y2Ba5gydF4y2Ba在热身阶段[gydF4y2Ba27gydF4y2Ba,gydF4y2Ba52gydF4y2Ba,gydF4y2Ba53gydF4y2Ba],然后切换到1×10的速率gydF4y2Ba4gydF4y2Ba小批量为2个。本研究中使用的超参数是特征水平选择概率的阈值,该阈值使用受试者工作特征(ROC)曲线和gydF4y2BaF1gydF4y2Ba从微调验证集(gydF4y2Ba多媒体附录2gydF4y2Ba)。gydF4y2Ba

测量gydF4y2Ba

我们使用ROC曲线测量了各种模型的性能gydF4y2BaF1gydF4y2Ba统计,以及gydF4y2BaF1gydF4y2Ba面向回忆的登记评价替补统计[j]gydF4y2Ba54gydF4y2Ba]。为了保持测量的一致性,我们过滤掉了预测建议中的所有标点符号,在单词水平上计算结果,并收集了医生对每个模型的反馈。建立问卷网站,第一部分随机选取原始诊断并显示,第二部分随机排序显示测试标签确定的ground truth summary proposal和模型预测的proposal。为此,我们招募了14名经验丰富的医生,包括总住院医师、10名医疗中心急诊科主治医生、1名地区医院急诊科主治医生和2名地区医院急诊科主治医生。他们为每个提案输入0-3分,其中0代表“荒谬”,3代表“好”。gydF4y2Ba

统计分析gydF4y2Ba

数据分析使用基于R(版本3.6.1;R基金会统计计算,维也纳,奥地利)。对于组间比较,我们采用两两配对gydF4y2BatgydF4y2Ba检验医师评分的因变量,设置显著性阈值水平为gydF4y2BaPgydF4y2Ba< . 05。gydF4y2Ba


放电诊断数据集包括57,960个小写英语单词。诊断中最大字数为654(3654个字符),平均55个(SD 51)字对应355个(SD 318)字符。在微调数据集中,诊断和摘要的平均字数分别为78 (SD 56)和12 (SD 7)。保留率[gydF4y2Ba55gydF4y2Ba](即,摘要中的单词除以诊断中的单词)在78个单词中占12个(15%)。微调测试集包含138条不正确的诊断,两名主治医生人工统计了183条不正确的单词,包括153个拼写错误,13个拼写错误,14个不合适的单词,3个重复的单词。gydF4y2Ba

我们提出的模型AlphaBERT在所有模型中表现出最高的性能,其ROC曲线下面积(AUROC)为0.947,LSTM表现出最差的性能,其AUROC为0.899 (gydF4y2Ba图3gydF4y2Ba)。gydF4y2Ba

‎gydF4y2Ba
图3。模型受试者工作特性(ROC)曲线。gydF4y2Ba
查看此图gydF4y2Ba

BioBERT获得了最高的ROUGE评分(gydF4y2Ba表1gydF4y2Ba)。BERT和提出的模型处于中间范围,LSTM的得分最低。此外,参考医生A的ROUGE评分最高,C医生最低(gydF4y2Ba表1gydF4y2Ba)。当输入诊断中存在错误单词时,所有模型的性能都下降了(gydF4y2Ba表2gydF4y2Ba)。gydF4y2Ba

我们从回复问卷的14位医生中收集了246个关键分数。统计上的显著差异(基于配对gydF4y2BatgydF4y2Ba与参考模型、BERT、BioBERT和我们提出的模型相比,在LSTM中检测到,但与其他模型(gydF4y2Ba表3gydF4y2Ba)。gydF4y2Ba

我们在一个网站上建立了这项服务[gydF4y2Ba56gydF4y2Ba使用微软Azure平台上只有一个CPU(没有GPU)的服务器来提供诊断提取摘要服务。网站上还提供编辑建议,以收集用户反馈并继续改进模型。源代码可在GitHub [gydF4y2Ba57gydF4y2Ba]。目前,这项服务正被纳入医院资讯系统,以提高医院工作人员的能力。gydF4y2Ba

表1。模型参数和ROUGEgydF4y2Ba一个gydF4y2BaF1的结果。gydF4y2Ba
模型gydF4y2Ba A博士(n=250)gydF4y2Ba B博士(n=248)gydF4y2Ba C博士(n=91)gydF4y2Ba 的意思是gydF4y2BaF1gydF4y2Ba价值gydF4y2Ba
伯特gydF4y2BabgydF4y2Ba(108523714参数)gydF4y2Ba




ROUGE-1gydF4y2BacgydF4y2Ba 0.761gydF4y2Ba 0.693gydF4y2Ba 0.648gydF4y2Ba 0.715gydF4y2Ba

ROUGE-2gydF4y2BadgydF4y2Ba 0.612gydF4y2Ba 0.513gydF4y2Ba 0.473gydF4y2Ba 0.549gydF4y2Ba

ROUGE-LgydF4y2BaegydF4y2Ba 0.748gydF4y2Ba 0.671gydF4y2Ba 0.627gydF4y2Ba 0.697gydF4y2Ba
BioBERTgydF4y2BafgydF4y2Ba(108523714参数)gydF4y2Ba




ROUGE-1gydF4y2Ba 0.788gydF4y2Ba 0.697gydF4y2Ba 0.647gydF4y2Ba 0.728gydF4y2Ba

ROUGE-2gydF4y2Ba 0.642gydF4y2Ba 0.523gydF4y2Ba 0.464gydF4y2Ba 0.565gydF4y2Ba

ROUGE-LgydF4y2Ba 0.773gydF4y2Ba 0.678gydF4y2Ba 0.629gydF4y2Ba 0.711gydF4y2Ba
LSTMgydF4y2BaggydF4y2Ba(899841参数)gydF4y2Ba




ROUGE-1gydF4y2Ba 0.701gydF4y2Ba 0.647gydF4y2Ba 0.618gydF4y2Ba 0.666gydF4y2Ba

ROUGE-2gydF4y2Ba 0.531gydF4y2Ba 0.468gydF4y2Ba 0.459gydF4y2Ba 0.494gydF4y2Ba

ROUGE-LgydF4y2Ba 0.684gydF4y2Ba 0.629gydF4y2Ba 0.602gydF4y2Ba 0.648gydF4y2Ba
提出的模型(963,496个参数)gydF4y2Ba




ROUGE-1gydF4y2Ba 0.769gydF4y2Ba 0.678gydF4y2Ba 0.647gydF4y2Ba 0.712gydF4y2Ba

ROUGE-2gydF4y2Ba 0.610gydF4y2Ba 0.482gydF4y2Ba 0.463gydF4y2Ba 0.533gydF4y2Ba

ROUGE-LgydF4y2Ba 0.751gydF4y2Ba 0.656gydF4y2Ba 0.632gydF4y2Ba 0.693gydF4y2Ba

一个gydF4y2Ba胭脂:以回忆为导向的注册评估替补。gydF4y2Ba

bgydF4y2BaBERT:来自变形金刚的双向编码器表示。gydF4y2Ba

cgydF4y2BaROUGE-1:面向回忆的单图重叠评价替代研究。gydF4y2Ba

dgydF4y2BaROUGE-2:面向记忆的重图重叠注册评价替代研究。gydF4y2Ba

egydF4y2BaROUGE-L:对表示参考标签数量的最长公共子序列(n)进行登记评估的面向回忆的替代研究。gydF4y2Ba

fgydF4y2BaBioBERT:在生物医学语料库上训练的变形金刚的双向编码器表示。gydF4y2Ba

ggydF4y2BaLSTM:长短期记忆。gydF4y2Ba

表2。胭脂gydF4y2Ba一个gydF4y2BaF1单词错误诊断结果。gydF4y2Ba
ROUGE-LgydF4y2BabgydF4y2Ba 伯特gydF4y2BacgydF4y2Ba BioBERTgydF4y2BadgydF4y2Ba LSTMgydF4y2BaegydF4y2Ba 提出的模型gydF4y2Ba
无错误词诊断(n=451)gydF4y2BafgydF4y2Ba 0.704gydF4y2Ba 0.717gydF4y2Ba 0.651gydF4y2Ba 0.698gydF4y2Ba
单词错误诊断(n=138)gydF4y2Ba 0.676gydF4y2Ba 0.692gydF4y2Ba 0.640gydF4y2Ba 0.674gydF4y2Ba

一个gydF4y2Ba胭脂:以回忆为导向的注册评估替补。gydF4y2Ba

bgydF4y2BaROUGE- l: ROUGE表示最长公共子序列。gydF4y2Ba

cgydF4y2BaBERT:来自变形金刚的双向编码器表示。gydF4y2Ba

dgydF4y2BaBioBERT:在生物医学语料库上训练的变形金刚的双向编码器表示。gydF4y2Ba

egydF4y2BaLSTM:长短期记忆。gydF4y2Ba

fgydF4y2BaN为参考标签的个数。gydF4y2Ba

表3。医生对模型的评价分数(N=246)。gydF4y2Ba
模型gydF4y2Ba 得分,平均值(SD)gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba
伯特gydF4y2Ba一个gydF4y2Ba BioBERTgydF4y2BabgydF4y2Ba LSTMgydF4y2BacgydF4y2Ba 提出的模型gydF4y2Ba
参考gydF4y2Ba 2.232 (0.832)gydF4y2Ba 厚gydF4y2Ba .66gydF4y2Ba <措施gydF4y2Ba .10gydF4y2Ba
伯特gydF4y2Ba 2.134 (0.877)gydF4y2Ba
.10gydF4y2Ba .001gydF4y2Ba .89gydF4y2Ba
BioBERTgydF4y2Ba 2.207 (0.844)gydF4y2Ba

<措施gydF4y2Ba .19gydF4y2Ba
LSTMgydF4y2Ba 1.927 (0.910)gydF4y2Ba


.002gydF4y2Ba
提出了gydF4y2Ba 2.126 (0.874)gydF4y2Ba



一个gydF4y2BaBERT:来自变形金刚的双向编码器表示。gydF4y2Ba

bgydF4y2BaBioBERT:在生物医学语料库上训练的变形金刚的双向编码器表示。gydF4y2Ba

cgydF4y2BaLSTM:长短期记忆。gydF4y2Ba


主要研究结果gydF4y2Ba

AlphaBERT有效地执行了医疗诊所记录的提取摘要任务,并且与BERT相比减小了模型大小,使用字符级标记器将参数数量从108,523,714减少到963,496。AlphaBERT在提取摘要任务中表现出与BERT和BioBERT相似的性能。尽管BERT和BioBERT模型很重,但它们都被证明是优秀的模型,并且非常适合少量调整的几个任务(包括本研究的主要任务)。为了方便,该模型可以直接使用,快速构建医疗领域的新应用程序。由于预训练良好的NLP特征提取模型,一个小标签数据集(微调训练集仅包含2530个案例)就足以实现监督学习并实现目标。gydF4y2Ba

在本研究中,我们获得了高ROUGEgydF4y2BaF1gydF4y2Ba所有模型的分数。在一般的总结研究中,ROUGEgydF4y2BaF1gydF4y2Ba得分一般小于0.40 [gydF4y2Ba6gydF4y2Ba-gydF4y2Ba9gydF4y2Ba],而我们获得了0.71的分数,这对应于该任务的保留率(15%)高于其他摘要任务的语料库,如CNN/Daily Mail语料库(约7%)[gydF4y2Ba7gydF4y2Ba]。由于诊断可视为住院记录的总结,因此较高的保留率是合理的;然而,对于紧急情况,在某些情况下,诊断将包含太多多余的单词。gydF4y2Ba

ICD-10是一个分类良好的系统,包含7万多个代码,但往往过于简单,无法完全捕捉患者记录的复杂背景。患者先前住院期间的治疗也是重要的考虑因素,当患者在危重状态下再次访问医院时,通常将其记录为自由文本诊断。例如,如果患者患有癌症,当患者病情严重时,以前的化疗过程是重要的信息。此外,医生很难准确地找到正确的密码;因此,仅仅从电子病历中获取ICD-10代码不足以代表患者的病情。但是,ICD-10码可以通过随机拼接来扩展预训练的训练集。gydF4y2Ba

结合随机数量的诊断不仅扩展了训练数据集,而且提高了模型的性能。诊断中的平均字符数为355,但范围更大(SD为318)。在没有增强的情况下,位置嵌入和自我关注脑在前部训练得更多,在后部表现得更差。增强方法结合了几种诊断方法来延长输入嵌入,可以训练自注意头来平等地考虑所有1350个字符。gydF4y2Ba

在预测阶段,我们得到了每个字符的概率。由于一个单词被分割成一个字符序列,因此结果是碎片化的,并且只有单词中的一些字符被预测选中。这导致了一个毫无意义的短语,并产生了糟糕的结果。因此,我们提出了一种基于单词中所有字符出现的概率来选择整个单词的清理方法。这个概念来源于计算机视觉中的分割任务,其中每个像素都有分类的可能性,导致预测无法继续。在计算机视觉领域,选择基于轮廓的超像素,所有超像素都是通过多数投票选出的[gydF4y2Ba31gydF4y2Ba]。在这项研究中,整个单词的平均概率代表每个字符的概率,结果是整个单词被选中或根本不被选中。gydF4y2Ba

由于总结任务是主观的,因此适当地评估模型的性能是一个相关的考虑。缺乏足够的医疗标签是一个重要的问题,因为合格医生的标签是罕见的,很难收集。尽管ROUGE分数[gydF4y2Ba54gydF4y2Ba]在这一领域被广泛使用,它是由相同的医生标签甚至分开的分割集来评估的。gydF4y2Ba

由于缺乏有能力标注参考摘要的医生,本研究评估的所有模型都局限于由A医生的标签进行微调。我们能够随机地将三位医生的标签分成训练集、验证集和测试集,但我们没有其他医生的参考标签来确认是否存在个体差异。即使使用这三个医生的标签,在收集另一个医生的标签时也会出现这个问题。gydF4y2Ba

为了确认与其他医生的差异,模型只使用一位医生的知识进行微调,其他医生的知识作为测试集。结果显示,根据ROUGE评分(gydF4y2Ba表1gydF4y2Ba)。该模型在医生C的标签参考上有一个很差的ROUGE评分,这意味着总结是一个高度主观的任务。某些词对一些医生来说很重要,但对另一些医生来说就不重要了,即使是在同一医学领域的医生之间,他们的解释过程也相似。因此,摘要任务很容易使模型过拟合。BioBERT的预测结果最准确,但相关的过拟合也更严重。gydF4y2Ba

我们为医生建立了一个网站,方便医生对标签引用内的性能和模型的预测进行评价,从而进一步客观地评价模型和医生的参考标签的性能。我们采用双盲法收集评分,系统随机选择一个诊断,并按随机排序显示相应的总结建议。因此,挑剔的审稿人对每个预测所使用的方法是不知情的。我们从这个分析中得到了与ROUGE分数相似的结果。此外,LSTM一直是表现最差的模型,而手动标记的参考文献获得了最高的平均分数,其次是BioBERT。gydF4y2Ba

虽然AlphaBERT的性能不是最优的,但BERT、BioBERT和AlphaBERT的性能之间没有统计学上的显著差异。AlphaBERT的优势在于字符级的预测概率及其与原始文档的一对一对应关系。预测的关键字可以直接在原始文档上突出显示,并且可以很容易地被用户编辑。例如,虽然AlphaBERT的预测建议的ROUGE-L得分为0.701,但它可以识别重要的单词,这可能比医生的参考标签(gydF4y2Ba图4gydF4y2Ba)。在某些情况下,我们提出的方法可以预测有关疾病和相关治疗的更多信息,而在其他情况下,一些疾病丢失(例如肺炎、高血压和呼吸衰竭),在其他情况下,正式医学术语被预测,但参考标签是缩写(gydF4y2Ba多媒体附录3gydF4y2Ba)。这种变化也反映了总结任务的主观性。gydF4y2Ba

‎gydF4y2Ba
图4。AlphaBERT的性能说明。gydF4y2Ba
查看此图gydF4y2Ba

限制gydF4y2Ba

由于文本摘要任务的主观性,预测的摘要结果可能会丢失一些可能相关的信息。所提出的模型有助于医院工作人员在轮班开始时快速查看大量患者的信息;然而,他们仍然需要在查房期间阅读所有从电子病历收集到的信息。gydF4y2Ba

拼写错误仍然是自然语言处理中的一个问题。然而,字符级和词块级的BPE方法不仅可以减少词汇量,而且可以有效地处理错别字,以保持不差的结果(gydF4y2Ba多媒体附录4gydF4y2Ba)。尽管自动拼写纠正可能是这个问题的解决方案,但我们没有在我们提出的方法中包含此功能,因为我们对字符级和BPE方法的强大容错能力很有信心。gydF4y2Ba

这是一项基于深度学习方法的医学文本摘要领域的试点研究。我们计划建立一个网站,提供这项服务,并提供一种编辑建议和反馈的方式,以收集志愿者的标签,并在不久的将来解决个人的差异。gydF4y2Ba

结论gydF4y2Ba

AlphaBERT在基于bert的模型中使用字符级标记,可以大大减小模型大小,而不会显著降低文本摘要任务的性能。该模型将为进一步提取电子病历中的非结构化自由文本部分提供一种方法,以获得丰富的健康数据。随着我们进入人工智能时代的前沿,NLP深度学习模型也在不断发展。在我们的模型中,所有的医学自由文本数据都可以转化为有意义的嵌入,这将增强医学研究,增强医生的能力。gydF4y2Ba

致谢gydF4y2Ba

我们要感谢台湾科学技术部对这项研究的财政支持(资助MOST 109-2634-F-002-029)。我们还要感谢Yun-Nung Chen对这项工作提供了有用的评论,以及hug face提供了几个优秀的深度学习编码。我们非常感谢GitHub为AlphaBERT提供了代码库。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

输入嵌入。gydF4y2Ba

PNG文件,17kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录2gydF4y2Ba

流程图,以确定超参数和测量模型的性能。gydF4y2Ba

PNG文件,35kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录3gydF4y2Ba

错误统计(强错误和弱错误)。gydF4y2Ba

PDF档案(adobepdf档案),409kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录4gydF4y2Ba

错误统计(打字错误、拼写错误或不正确的单词)。gydF4y2Ba

PDF档案(adobepdf档案),703kbgydF4y2Ba

  1. 徐晨,梁磊,张勇,张伟。台湾医疗中心急诊科过度拥挤:质量改进。中华医学杂志,2019,31 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. 林晨,梁辉,韩晨,陈玲,谢晨。台湾急诊科护士职业弹性研究。国际急诊护理杂志2019年1月42:44-50。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 世界卫生组织。ICD-10版本:2019gydF4y2Bahttps://icd.who.int/browse10/2019/engydF4y2Ba[2016-01-01]访问gydF4y2Ba
  4. 福特E,卡罗尔JA,史密斯HE,斯科特D,卡塞尔JA。从电子病历文本中提取信息以改进病例检测:系统综述。医学信息学报,2016;23(5):1007-1015 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Workman TE, Fiszman M,跨栏JF。文本摘要作为决策支持的辅助工具。中国医学杂志2012年5月23日;12:41 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 张建军,张建军,张建军,等。基于语义的医学文献文摘。2018,中国科学院生物信息学与生物医学学术会议(ei);2018年12月3日至6日;马德里,西班牙gydF4y2Bahttps://ieeexplore.ieee.org/document/8621539gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  7. 张建军,周建军,张建军,等。基于序列到序列rnn的文本文摘。在:计算语言学协会。:计算语言学协会;2016年8月发表于第20届SIGNLL计算自然语言学习会议论文集;2016年8月;柏林,德国gydF4y2Bahttps://www.aclweb.org/anthology/K16-1028/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  8. 参见A,刘平。切中要害:指针生成器网络的摘要。在:计算语言学协会。2017年7月发表于:计算语言学协会第55届年会论文集(卷1:长论文);2017年7月;加拿大温哥华1073-1083页gydF4y2Bahttps://www.aclweb.org/anthology/P17-1099gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  9. 周强,杨宁,魏峰,黄松,周明。基于联合学习的神经网络文档摘要评分和句子选择。在:计算语言学协会。:计算语言学协会;2018年7月发表于:计算语言学协会第56届年会论文集(卷1:长论文);2018年/ 7月;墨尔本,澳大利亚,654-663页gydF4y2Bahttps://www.aclweb.org/anthology/P18-1061gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  10. Elhadad N, McKeown K, Kaufman D, Jordan D.通过定制文本摘要促进医生获取信息。AMIA年度会议程序2005:226-230 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 牛勇,朱鑫,Hirst G.基于结果极性的医学问答句子提取。AMIA年会程序2006:599-603 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 马建军,李建军,李建军,等。基于领域知识和语料库统计的医学文献提取摘要。澳大利亚医学杂志,2012;5(9):478-481 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. Ranjan H, Agarwal S, Prakash A, Saha S.医学讨论中重要术语和短语的自动标注。: IEEE。: IEEE;演讲地点:2017年信息通信技术大会(CICT);2017年11月3-5日;瓜廖尔,印度gydF4y2Bahttps://ieeexplore.ieee.org/document/8340644gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  14. M, Rindflesch TC, Kilicoglu H.总结Medline引文中的药物信息。AMIA年度会议程序2006:254-258 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 李建军,李建军,李建军,等。基于证据的医学治疗的MEDLINE引文的自动总结:一个主题导向的评价。中华生物医学杂志;2009;42(5):801-813 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. Sarkar K, Nasipuri M.使用机器学习进行医疗文档摘要。[J]数据库理论与应用,2011;4(1):31-48 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  17. Johnson AE, Pollard TJ, Shen L, Lehman LH, Feng M, Ghassemi M,等。MIMIC-III,一个免费访问的重症监护数据库。Sci Data 2016; 5 (1):160035 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. 一种基于知识的纵向多变量临床数据自动文本摘要系统。[J]中国生物医学工程学报(英文版);2009;31 (1):591 - 591 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 刘建军,刘建军,李建军,等。基于多模态识别和命名实体识别的医学文本摘要系统。在:计算语言学协会。:计算语言学协会;2009年6月发表于:BioNLP 2009研讨会论文集;2009年6月;博尔德,科罗拉多州,第185-192页gydF4y2Bahttps://www.aclweb.org/anthology/W09-1324/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. 李建军,李建军,李建军,李建军。电子病历中多发性硬化症临床特征的自动提取医学信息学报,2013;20(2):334- 334。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。在:计算语言学协会。:计算语言学协会;2019年6月发表于:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长、短论文);2019年6月;明尼阿波利斯,明尼苏达州,第4171-4186页gydF4y2Bahttps://www.aclweb.org/anthology/N19-1423/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. 张建军,张建军,张建军,张建军,张建军。第31届神经信息处理系统国际会议论文集。纽约红钩:Curran Associates Inc;12月2017:6000 - 6010。gydF4y2Ba
  23. 李建军,李建军,郭建军,郭建军。深度语境化词表征。2018年北美计算语言学分会(NAACL) 2018年会议;2018年6月1日至6日;新奥尔良,路易斯安那州。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  24. Rajpurkar P, Zhang J, Lopyrev K, Liang P.小组:10000 +问题的文本机器理解。:计算语言学协会;2016年发表于:自然语言处理经验方法会议论文集;2016年11月;奥斯汀,得克萨斯州2383-2392页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  25. 张建军,张建军,张建军,等。神经网络计算1997;11(8):1735-1780。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  26. 王金玛,王伟。自编码变分贝叶斯算法。2013.URL:gydF4y2Bahttps://arxiv.org/abs/1312.6114gydF4y2Ba[2013-12-20]访问gydF4y2Ba
  27. 何凯,张翔,任松,孙杰。基于深度残差学习的图像识别。2016年发表于:IEEE计算机视觉模式识别会议论文集;2016年6月26日至7月1日;拉斯维加斯,内华达州[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  28. 王晓东,王晓东,王晓东。2016年7月21日。层规范化URL:gydF4y2Bahttps://arxiv.org/abs/1607.06450gydF4y2Ba[2016-07-21]访问gydF4y2Ba
  29. 何伟,刘志强。自动文本摘要与SUMMARIST系统。在:计算语言学协会。:计算语言学协会;1998年10月13日发表于:TIPSTER '98:在马里兰州巴尔的摩举行的研讨会论文集;1998年10月13日至15日;巴尔的摩,马里兰州,第197-214页gydF4y2Bahttps://www.aclweb.org/anthology/W97-0704gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  30. 张建军,张建军,张建军,等。基于卷积神经网络的生物医学图像分割。:施普林格;2015年发表于:医学图像计算与计算机辅助干预国际会议;2015年10月;慕尼黑,德国,第234-241页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  31. 李建军,李建军,李建军,李建军。视频目标分割。2017年发表于:IEEE计算机视觉与模式识别会议论文集;2017年7月21日至26日;夏威夷火奴鲁鲁。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  32. 王勇,李浩。学习用生成对抗网络将文本编码为人类可读摘要。发表于:2018年自然语言处理经验方法会议;10月,2018;比利时,布鲁塞尔gydF4y2Bahttps://www.aclweb.org/anthology/D18-1451/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. 刘建军,张建军,张建军,等。基于神经网络的抽象句子总结模型。发表于:2015年自然语言处理经验方法会议;2015年9月;里斯本,葡萄牙gydF4y2Bahttps://www.aclweb.org/anthology/D15-1044/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  34. 康诺A, Kiela D, Schwenk H, Barrault L, Bordes AJ。基于自然语言推理数据的通用句子表示的监督学习。发表于:2017年自然语言处理经验方法会议;2017年9月;哥本哈根,丹麦gydF4y2Bahttps://arxiv.org/pdf/1705.02364.pdfgydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  35. Yosinski J, Clune J, Bengio Y, Lipson H.深度神经网络特征的可转移性如何?:麻省理工学院出版社;2014年12月发表于:NIPS'14:第27届国际神经信息处理系统会议论文集;2014年12月8-13日;加拿大蒙特利尔,第3320-3328页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  36. 杨志,戴志,杨勇,Carbonell J, Salakhutdinov R.[14]。2019.面向语言理解的广义自回归预训练gydF4y2Bahttps://arxiv.org/abs/1906.08237gydF4y2Ba[2019-06-19]访问gydF4y2Ba
  37. 刘建军,李建军,刘建军,刘建军,刘建军。基于自然语言处理的自然语言处理方法研究。URL:gydF4y2Bahttps://huggingface.co/gydF4y2Ba[2019-01-01]访问gydF4y2Ba
  38. 张建军,张建军,张建军。基于分类的自然语言n-gram模型。计算机科学,1992:467-480 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  39. 陈凯,陈建军,陈建军。基于分布式表征的词和短语组合。: Curran Associates Inc;2013发表于:NIPS'13:第26届神经信息处理系统国际会议论文集;2013年12月5日至10日;塔霍湖,内华达州第3111-3119页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  40. 李洪波,陈志强,陈志强。卷积网络需要深度文本分类吗?URL:gydF4y2Bahttps://arxiv.org/abs/1707.04108gydF4y2Ba[2017-07-13]访问gydF4y2Ba
  41. 李建军,李建军,李建军,等。基于子词信息的词向量提取方法。计算机工程学报,2017,25(5):1335 - 1346。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  42. 张建军,张建军,张建军,等。一种基于bert的质量评价模型。在:计算语言学协会。:计算语言学协会;发表于:2019年自然语言处理经验方法会议论文集和第九届自然语言处理国际联合会议(EMNLP-IJCNLP);2019年11月;中国香港6005-6011gydF4y2Bahttps://www.aclweb.org/anthology/D19-1618/gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  43. 郭明,李建军,李建军。基于深度自我注意的字符级语言建模。: AAAI。演讲地点:具有更深层次自我关注的字符级语言建模;2019;AAAI人工智能会议论文集,第3159-3166页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  44. 张欣,赵军,乐存云。字符级卷积网络在文本分类中的应用。2015,中文信息学报(自然科学版),第28期(NIPS 2015);2015年12月7-12日;加拿大蒙特利尔。gydF4y2Ba
  45. 吴勇,Schuster M,陈志,乐强,Norouzi M, Macherey W.谷歌的神经机器翻译系统:弥合人类和机器翻译之间的差距。计算机工程学报,2017;5:339-351 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  46. 李军,尹伟,金山,金东,金山,苏昌,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. Ubuntu。下载Ubuntu桌面网址:gydF4y2Bahttps://ubuntu.com/download/desktopgydF4y2Ba[2019-01-01]访问gydF4y2Ba
  48. 蟒蛇。面向数据科学从业者和企业机器学习的解决方案gydF4y2Bahttps://www.anaconda.com/gydF4y2Ba[2019-01-01]访问gydF4y2Ba
  49. PyTorch。从研究到生产gydF4y2Bahttps://pytorch.org/gydF4y2Ba[2019-01-01]访问gydF4y2Ba
  50. 泰勒王。“完形填空程序”:一种测量可读性的新工具。新闻学杂志1953年9月1日;30(4):415-433。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  51. Kingma D. Adam:一种随机优化方法。亚当;2015年发表于:国际学习代表会议(ICLR) 2015;2015;圣地亚哥,加利福尼亚p. A URL:gydF4y2Bahttps://arxiv.org/abs/1412.6980gydF4y2Ba
  52. 刘建军,刘建军,刘建军,等。基于网络的残差连接对学习的影响。: AAAI。: AAAI出版社;2017年2月出席:第三十一届AAAI人工智能会议;2017年2月;旧金山,加利福尼亚4278-4284页。gydF4y2Ba
  53. Goyal P, Dollár P, Girshick R, Noordhuis P, Wesolowski L, Kyrola A. arvix。准确,大型小批量sgd: 1小时内训练图像gydF4y2Bahttps://arxiv.org/abs/1706.02677gydF4y2Ba[2018-04-30]访问gydF4y2Ba
  54. 林志光:一个自动评估摘要的程式包。发表于:“文本摘要分支”研讨会,acl2004年会后研讨会;2004年7月;巴塞罗那,西班牙,第74-81页gydF4y2Bahttps://www.aclweb.org/anthology/W04-1013gydF4y2Ba
  55. michael - box K, Braun KL.父亲对母乳喂养的看法及其对基于理论干预的影响。妇产科新生儿护理杂志;2012;41(6):941 - 950。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  56. 陈YP。Azure。URL:gydF4y2Bahttp://diagnosislabelevaluateweb.azurewebsites.net/ExtractgydF4y2Ba[2020-01-13]访问gydF4y2Ba
  57. 陈YP。Github。AlphaBERT URL:gydF4y2Bahttps://github.com/wicebing/AlphaBERT.gitgydF4y2Ba[2020-04-10]访问gydF4y2Ba


‎gydF4y2Ba
AUROCs:gydF4y2Ba接收器工作特性下的面积gydF4y2Ba
伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba
BPE:gydF4y2Babyte-pair编码gydF4y2Ba
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba
诊断结果:gydF4y2Ba国际疾病和有关健康问题统计分类第十次修订gydF4y2Ba
LSTM:gydF4y2Ba长短期记忆gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
NTUH-iMD:gydF4y2Ba国立台湾大学医院综合医学资料库gydF4y2Ba
中华民国:gydF4y2Ba接收机工作特性gydF4y2Ba
胭脂:gydF4y2Ba以回忆为导向的注册评估替补gydF4y2Ba


G·艾森巴赫编辑;提交13.01.20;由G Mayer, T Muto, S Ma, HH Rau同行评审;对作者06.02.20的评论;收到05.03.20订正版本;接受10.04.20;发表29.04.20gydF4y2Ba

版权gydF4y2Ba

©陈彦品,陈宜颖,林小俊,黄建华,赖飞培。原发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2020年4月29日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map