发表在6卷,第9号(2022): 9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/32460,首次出版
使用社区参与的研究协议对小数据集进行分类的基于注意力的模型:分类系统开发和验证试点研究

使用社区参与的研究协议对小数据集进行分类的基于注意力的模型:分类系统开发和验证试点研究

使用社区参与的研究协议对小数据集进行分类的基于注意力的模型:分类系统开发和验证试点研究

原始论文

1社区参与和影响中心,弗吉尼亚联邦大学,里士满,弗吉尼亚州,美国

2美国弗吉尼亚州里士满市弗吉尼亚联邦大学L·道格拉斯·怀尔德政府与公共事务学院

3.弗吉尼亚联邦大学社会与健康中心,里士满,弗吉尼亚州,美国

4弗吉尼亚联邦大学计算机科学系,美国弗吉尼亚州里士满

5美国弗吉尼亚州里士满,弗吉尼亚联邦大学家庭医学和人口健康系

*所有作者贡献均等

通讯作者:

Brian J . Ferrell, MDA

社区参与和影响中心

弗吉尼亚联邦大学

弗洛伊德大街907号

里士满,弗吉尼亚州,23284

美国

电话:1 8043505426

电子邮件:ferrellbj@vcu.edu


背景:社区参与研究(CEnR)是一种研究方法,学者与社区组织或个人合作,他们对研究主题有共同的兴趣,通常以支持该社区的福祉为目标。CEnR在包括临床和社会科学在内的许多学科中都建立了良好的基础。然而,大学在报告全面的CEnR指标方面遇到了挑战,限制了适当的CEnR基础设施的发展以及与社区、资助者和利益相关者关系的发展。

摘要目的:我们提出了一种新的方法,通过将基于注意力的深度学习模型应用于已提交给大学机构审查委员会(IRB)的人类参与者协议,来识别和分类社区参与的研究。

方法:我们使用3级和6级CEnR启发式对提交给IRB的280个协议样本进行了手动分类。然后,我们在分类协议上训练了一个基于注意力的双向长短期记忆单元(Bi-LSTM),并将其与变形模型(如变形器的双向编码器表示(BERT)、生物+临床BERT和跨语言语言模型-鲁棒优化BERT预训练方法(XLM-RoBERTa))进行了比较。我们将表现最佳的模型应用于2013-2019年提交的未标记IRB协议的完整样本(n>6000)。

结果:虽然迁移学习更优越,与基于注意力的Bi-LSTM(48%-80%)相比,迁移学习对所有变压器模型的评价F1得分为0.9952,但存在过拟合的关键问题。这一发现在几个方法调整中是一致的:有和没有交叉验证的增强数据集,有和没有交叉验证的未增强数据集,6类的CEnR谱,和3类的。

结论:迁移学习是一种比基于注意力的双向lstm更可行的方法,用于区分主要研究人员在研究方案中使用的以cnr描述的特质和可变性为特征的小数据集。尽管存在这些涉及过拟合的问题,BERT和其他变压器模型显著地显示出对我们数据的理解,这与基于注意力的Bi-LSTM模型不同,有望为解决这一现实应用提供更现实的途径。

地球物理学报,2022;6(9):e32460

doi: 10.2196/32460

关键字



在比较传统机器学习和深度学习模型时,迁移学习被广泛使用[1]。变压器模型,如变压器的双向编码器表示(BERT) [2]是一种基于神经网络的自然语言处理(NLP)预训练技术,将在我们如何建模语言中发挥重要作用[3.]。研究人员试图利用这些语言模型,并使用不同的数据集对它们进行微调,以适应他们的分类任务。在大数据集上发现了更好的结果[4],小数据集[56],短文本长度[7],更长的文本长度[8],甚至是不同语言的数据集[1]。这些研究以及本文所报道的工作表明,在没有大量计算能力和数据的情况下也可以获得更好的结果。

社区参与研究(community -engaged research,简称CEnR)是指来自传统研究机构(如大学)的研究人员与他们有共同兴趣的社区成员或组织合作的一种研究方法,其目标通常是促进社区的福祉[9]。中央研究中心的研究理念和研究伙伴之间的关系,而不是方法论,现已成为许多学科的既定学术传统,包括健康科学、社会科学、社会工作、城市规划、教育和艺术。使用CEnR的团队已经实施了研究项目,解决了广泛的利益相关者关注的问题;在整个研究过程中与合作伙伴合作[10-13],从问题识别到扩大循证干预措施[14];以反映学生兴趣和学习风格的新课程和教学法转变服务学习[15];改造自然、建筑和艺术环境,以更好地反映社区的价值和利益[16]。

CEnR的灵活性和广度是富有成效的,产生了专门的期刊、会议、课程、资助机制、评估指标和分类理论,以及持续的活动和治理结构。然而,总体上识别、描述、测量和报告CEnR研究对大学和其他机构(例如学科协会)来说是一个挑战[17]),特别是向资助者和利益相关者报告有效和可靠的指标[17],并开发和维护适当的内部CEnR基础设施。依赖传统的评审机制(如学术数据库)来提供关于cnr生产力的数据可能会受到学科、方法和传播途径多样性的限制;主要在传统学术机制(如同行评议期刊)之外共享的影响;关键词选择不准确。有限的联邦和基金会对CEnR的支持避免了对资助数据库的搜索。此外,已建立的识别和跟踪CEnR的机制可能会对沿着单向途径进行的CEnR合作给予特权,在这种单向途径中,专业研究人员和社区成员之间的关系随着时间的推移而加深合作,从而产生资助和同行评审的出版物。这种强调掩盖了维持这种合作所需的资源分配不公平的现实,例如,学科之间、研究生产机构和教学机构之间、老教师和初级教师之间的资源分配不公平。

弗吉尼亚联邦大学(VCU)是被卡内基基金会指定为具有“最高研究活动”的“社区参与”的R01机构。2013年,VCU开始使用三个自定义字段来标记CEnR研究[18]在大学的在线人类参与者协议提交表格中,作为国家促进转化科学中心奖励的一部分。

  • 是否至少有一个社区伙伴参与拟议的研究?(是的/不回答)
  • 如果是,谁是社区伙伴?
    • 机构名称
    • 组织的邮政编码或国家
  • 以下三个陈述中哪一个最能描述社区合作伙伴在研究中的作用?
    • 社区合作伙伴仅向研究参与者或项目站点提供访问权限。他们不参与研究设计、参与者招募、数据收集或数据分析。
    • 社区合作伙伴不决定研究的设计或行为,但为研究人员提供有关研究设计、参与者招募、数据收集或数据分析的指导。
    • 社区合作伙伴与研究人员就研究活动做出决定或帮助开展这些活动(即研究设计、参与者招募、数据收集或数据分析)[19]。

2018年发现了在这些自定义字段中输入数据的技术障碍。这种质量问题在VCU的利益相关者之间引发了关于文档系统中其他可能限制的更广泛的讨论,例如,主要研究者或研究管理员提交协议时对这些领域的不一致解释。这一讨论导致了本文所述的探索性研究。这项研究的总体目标是开发一种方法,在大学在线机构审查委员会(IRB)系统提交的协议中自动检测CEnR研究,该系统包含所有人类参与者的研究数据[20.]。本研究提供了测试和构建添加到IRB协议中的三个自定义字段的机会。主要内容如下:开发一个分类系统,使传统的CEnR理论在合作范围内适应R01大学进行的研究的实际现实,确定一个或多个深度学习模型是否可以自动识别由手工标记的IRB协议子集训练的CEnR研究。并确定表现最佳的算法,并将其应用于未纳入算法训练的未标记研究协议(n>6000)的回顾性5年数据集。


数据

数据收集

这个过程的第一阶段是从IRB的数据库(n>20,000)中提取研究协议。然后,我们对记录进行清理和重复数据删除(每个方案包括1项研究,“豁免”、“加速”、“完整”和“启动/提交”的方案包括在内,但“尚未审查”的研究被排除),剩下6000项研究,从中随机选择一个样本(n=280),进行审查,并手动标记为六个类别之一(在数据注释部分中描述)。我们选择该样本集的标准是基于一项研究是否是CEnR的可能性。文本框1显示所选的列和数据的片段。我们用于寻找潜在的CEnR研究的术语示例如下:社区参与,社区参与研究,(社区)行动研究,参与行动研究,社区咨询小组,社区指导等。

机构审查委员会协议字段用于用简短的例句对协议进行分类。在训练期间,这些字段被连接到一列中。

研究题目

  • “调查牙科服务利用不足的情况……”
  • 社区工程的区域扫描与策略
  • “5年来社区部分的思考……”

通知人员

  • “研究小组正在与……进行日常接触。”
  • “团队每周开三次会通知……”
  • “我们是一个研究团队,合作研究……”

科学的好处

  • “这项研究旨在识别、描述……”
  • “这项研究旨在告知社区领导人……”
  • “这项研究将填补科学知识的空白……”

目的和目标

  • “这项混合方法研究的总体目标是……”
  • “根据文献综述的结果,……”
  • “我们的目标是描述和发表效果……”

确定参与者

  • “所有参与者社区合作伙伴都有管理经验……”
  • “我们将首先扫描区域组织……”
  • “我们已经有了联系和工作关系……”

背景

  • “未满足的牙科需求是重要的公共医疗……”
  • “这个项目是里士满大项目的一部分……”
  • “CBPR领域仍存在技术空白……”

假设

  • “作为一项混合方法的研究,这项研究使用了……”
  • “这个项目是为了完成一篇文献综述……”
  • “我们正试图记录直接和间接……”

研究设计

  • “研究设计这个混合方法的研究是一个交叉…”
  • “区域扫描对于区域扫描,项目…”
  • “我们将与选定的社区合作伙伴进行对话……”
文本框1。机构审查委员会协议字段用于用简短的例句对协议进行分类。在训练期间,这些字段被连接到一列中。
数据注释

我们将新提取的样本数据集上传到Google Sheets中,以促进人工审查和标记用于训练算法的协议的协作过程。由三名审稿人组成的团队(每个研究两名)审查了每个方案的可用数据,并将其标记为“是”(CEnR)或“否”(非CEnR),并分配了与CEnR级别(0-6)相对应的类别。在每周的会议上讨论和解决没有得到两位审稿人相同指定的方案。

CEnR水平

在对协议进行初步审查后,审稿人归纳地制定了一个编码系统,以反映协议中描述的关系类型。文本框2显示了审稿人使用的CEnR级别的细分。

用于手动分类训练数据的CEnR水平。

没有社区参与研究(CEnR);0)

没有伙伴关系或社区参与的研究

非cenr伙伴关系(1)

这里提到了伙伴关系,但这种关系是无法分类的(例如,没有充分描述),或者不是传统的社区参与伙伴关系(例如,合同关系)。

工具性伙伴关系(2)

社区合作伙伴主要协助获取开展研究所需的“输入”(例如,张贴招聘传单,提供参与者联系信息,提取数据,或提供研究地点进行观察)。

学术主导型伙伴关系(3)

研究团队和社区合作伙伴之间最小但重要的互动,这通常是项目成功的关键(例如,学术合作伙伴在研究设计和研究活动中起主导作用,社区合作伙伴在特定的点上参与,例如解决招聘问题或促进社区会议)。

合作伙伴关系(4)

研究团队和社区合作伙伴之间的共同投资和相互考虑,没有共同决策(例如,社区咨询委员会提供研究设计方法的输入,审查数据收集工具,解释结果或告知传播计划)。

互惠伙伴关系(5)

社区合作伙伴和研究团队共享决策权和治理(例如,基于社区的参与性研究、团队科学或具有决策权的指导委员会)。

文本框2。用于手动分类训练数据的CEnR水平。
数据清理

在审查和分类协议之后,我们再次检查是否有重复,进行手动拼写检查,并删除空白和任何不相关的符号。最后的数据清理是由Python使用NLTK包完成的(停止单词、词序化、小写、删除标点、拆分缩写和其他RegEx操作)。

数据增加

我们测试了数据增强技术[21(替换和插入词[22])使用nlpag库[23]使用蒸馏器综合增加训练数据量[24会提高性能。表1显示增强前后的样本数量。

表1。数据扩充前后每个类的示例数(第二个数据集)。
样品(以前),n 样本(后),n
0 82 1931
1 40 1427
2 11 1413
3. 101 1564
4 32 1431
5 13 1404
数据集

我们使用了三个数据集:(1)280个手工分类协议的原始样本,(2)280个协议的增强数据集使用蒸馏器扩展到9170个样本,以及(3)前两个数据集的版本,其中6个类合并为3个。我们使用较少的CEnR类别对数据集进行测试,以探索使用更广泛的类别是否会提高模型的泛化和预测分数。对于包含三个类别的数据集,我们折叠1s和2s (=1);塌陷的3s、4s和5s (=2);保持类0不变。

模型

我们探索了四种模型来将数据分类为CEnR类:双向长短期记忆单元(Bi-LSTM)、BERT、生物+临床BERT和跨语言语言模型-鲁棒优化BERT预训练方法(XLM-RoBERTa)转换模型。我们将在本节中介绍模型架构和超参数。

双lstm注意力模型

图1举例说明第一个模型:Bi-LSTM [25-27]有一个基本的自定义注意力层[2829,它与GlobalMaxPooling和GlobalAveragePooling层连接。使用的嵌入是100个模糊的全局词表示向量(GloVe)嵌入文件,其中包含400,000个单词,该文件是根据2014年的英文维基百科转储计算的[30.]。GloVe是一种无监督学习算法,用于检索可以在几何空间中绘制的单词的向量表示[31],见于图2

图1所示。基于注意力的双向LSTM模型架构。LSTM:长短期存储单元。
查看此图
图2。在谷歌嵌入投影仪中搜索“社区参与研究”。
查看此图

嵌入层捕获单词之间的相似性,以最佳地优化我们的输入,Bi-LSTM从句子的开头到结尾遍历数据,反之亦然。这是通过它的四个[32]组件,参见图3:细胞状态(Ct),忘记门(ft),输入门(t),输出门(Otht).它们控制着序列信息的流动,从这些嵌入中调节什么是重要的,什么是不重要的。注意层(增加重要性的权重)33]到那些Bi-LSTM输出),最大池化层(从Bi-LSTM输出中找到最重要的特征)和平均池化层(将Bi-LSTM的所有输出加权为重要)被融合到一个矩阵中,为神经网络提供更多基于预测的特征。最后,带有softmax函数的密集层是计算流,用于为我们提供Y=[0,1,2,3,4,5]分类的最终输出。

分层7重交叉验证,合成少数过采样技术[34], F1宏观优化[35也被使用。分层K-fold交叉验证确保类别分布在每个折叠中保持相同。SMOTE是一种使用相似的示例(k近邻)为少数类创建假数据的方法。这项技术是在训练期间的交叉验证中使用的,而不是之前。F1宏优化确保F1分数在训练过程中得到优化,而不是准确性。F1宏是指班级F1成绩的平均值;这项技术使我们的评估F1得分提高了7%。

图3。长短期存储单元的结构。
查看此图
变压器模型

迁移学习采用大型且强大的语言模型,这些模型在大型未标记数据库上进行预训练,然后对其进行微调并重新用于第二个相关任务,这对小型数据集是有益的。本研究的一个主要方面是看看迁移学习的使用是否提高了我们文本分类任务的预测性能。我们使用bert -base-uncase [2]、生物+临床BERT [36]和XLM-RoBERTa [37]模型,并分别为这三个模型尝试了不同的学习率、批处理大小和时间(每个变压器大约训练了30-50个不同的模型)。Results部分显示了每个变压器的最佳调优模型。

来自变压器的双向编码器表示

我们的第一种迁移学习方法是对文本分类问题的预训练BERT模型进行微调。BERT由Devlin等人提出[2]。它是在BookCorpus(8亿字)和Wikipedia(25亿字)上进行预训练的。该模型的架构确保了它在NLP任务中的优势,因为它学习单词的上下文含义,以及每个单词如何在一个序列中使用,这是由于它的12个注意头和1.1亿个总参数。手套嵌入没有考虑一个词如何使用的上下文,也没有捕捉到词可能具有的不同语义(例如,蝙蝠可以是动物或棒球设备);因此,“社区”或“伙伴”这两个词在不同的研究中可以有不同的用法。然而,BERT将捕捉到这些差异。此外,BERT可以在大型和小型数据集的各种任务上获得最先进的结果,并且不需要超过2到4个epoch的训练。

BIO +临床BERT

迁移学习的第二种方法是使用生物+临床BERT进行微调[36]。如前所述,BERT是在BookCorpus和Wikipedia上进行预训练的,通常可以为任何NLP任务很好地建模语言;然而,Alsentzer等[36研究了改进BERT中的一般语言模型的方法,使用面向临床文本和出院摘要的BERT模型。他们证明,与通用语言不同,特定领域的预训练可以提高性能。作者以两种方式使用MIMIC-III数据库中的数据,临床BERT(包含所有笔记类型)和出院摘要BERT(仅包含出院摘要),以进一步完成可用于更具体分类问题的临床数据的下游任务。然后,他们在临床文本上训练了两个BERT模型,其中一个从BERT基础模型初始化,另一个从BioBERT(我们选择的模型)初始化。

跨语种语言模型鲁棒优化BERT预训练方法

我们的第三种迁移学习方法是一个有趣的模型,可以进行微调,主要是因为这种类型的转换模型不是为我们的任务创建的;然而,它仍然表现良好。它是由Conneau等人提出的[37],并于2020年更新。这个模型与RoBERTa架构非常相似[38],但它是一个跨语言模型,预先训练了100种不同的语言。这种类型的模型是为在超过2tb的CommonCrawl语料库上训练的跨语言迁移学习任务而制作的。

其他模型

本研究还使用了卷积神经网络(CNN)、深度神经网络(dnn)、CNN + LSTM、CNN + Bi-LSTM、CNN + Bi-LSTM带注意、CNN +门控循环单元(GRU)、CNN + Bi-GRU带注意、CNN + GRU带注意等模型;然而,他们的表现不如Bi-LSTM +注意力(评价F1得分从0.30-0.40不等);因此,我们没有将他们的结果纳入本文。

实验的细节

双lstm注意力模型

在这个模型中,我们使用Keras库来训练、标记和填充文本序列。Bi-LSTM模型训练了40个epoch,学习率为0.001,batch size为64,训练时间为12小时;此外,我们使用了Adam优化器和稀疏分类交叉熵来处理我们的损失。清洗后的最大序列长度为10137。该模型被训练为CuDNNLSTM,这是由CuDNN备份的LSTM的更快实现,只能在GPU上运行。

变压器模型

我们使用了由Rajapakse创建的SimpleTransformers库[39],它可以用几行代码训练和评估变压器模型(来自HuggingFace网站)。每个变压器模型的超参数可以从一个名为Weights and Biases的网站上看到,该网站在训练期间组织并捕获了所有必要的数据[4041]。由于我们示例中的文本字段长度超过了BERT和其他变压器模型的限制,因此我们使用了滑动窗口技术。在这里,任何超过最大序列长度的数据序列将被分成几个子集,每个子集与最大序列长度值的长度有关。使用这种技术,来自滑动窗口的每个子集都有重叠的值,也称为stride (stride 0.8),导致窗口之间大约有20%的重叠。这个过程延长了训练时间,但比在训练期间截断数据更可取。所有模型都使用Google Colab Pro进行训练,并具有与类相对应的权重,以便在训练过程中均衡[42]。

评价指标

使用F1分数宏对训练的模型进行评估,该宏对精度和召回率进行平衡度量,然后对F1分数进行平均值。


表2显示了在交叉验证和不交叉验证的情况下,我们的每个模型在原始和增强数据集上的holdout F1分数。Bi-LSTM的评价F1分数(未在表中显示)平均为63.25%。从的顺序表2, 6个类别的F1评分分别为65%(经交叉验证、增强)和48%(未经交叉验证、增强),3个类别的F1评分分别为80%(经交叉验证、增强)和60%(未经交叉验证、增强),而变压器模型的F1评分均在99%以上。我们使用了Bio + Clinical BERT,因为特定领域的预训练已经被证明可以提高性能[34,因为我们的数据集包含临床研究数据,所以我们认为比较其结果是相关的。事实证明,XLM-RoBERTa做得很好,并且对数据有全面的理解,所以它也被纳入了这个实验。holdout数据集包含30个样本,这几乎太小了,无法准确描述模型的运行情况,因此我们的团队将致力于标记额外的数据。结果也有一点欺骗性,因为Bi-LSTM注意力模型的分类是错误的,而当变压器模型对研究进行错误分类时,它会偏离1或2个类别。很多结果没有显示在表格中。这是因为由于数据集的大小,不进行交叉验证的原始数据集不值得训练,这也会使评估数据集不同,并且由于计算限制,使用交叉验证的增强数据集没有对Bio + Clinical BERT和XLM-RoBERTa进行训练。

表2。各种模型在原始和增强数据集上的结果。
模型 数据 6班,F1成绩 3班,F1成绩


与简历一个 没有简历 与简历 没有简历
Bi-LSTMbw /关注 原始 0.2000 N/Ac 0.3000 N/A
Bi-LSTM注意 增强 0.2667 0.3000 0.4000 0.2667
伯特d基础外露的 原始 0.2333 N/A 0.5000 N/A
BERT-base外露的 增强 0.3333 0.4000 0.4667 0.5333
生物+临床BERT 原始 0.3000 N/A 0.4667 N/A
生物+临床BERT 增强 N/A 0.4000 N/A 0.4333
XLM-RoBERTae 原始 0.3667 N/A 0.4667 N/A
XLM-RoBERTa 增强 N/A 0.4000 N/A 0.4667

一个简历:交叉验证。

bBi-LSTM:双向长短期记忆单元。

c-不适用。

dBERT:来自变形金刚的双向编码器表示。

e跨语言模型-鲁棒优化BERT预训练方法。


主要研究结果

变压器模型在注意情况下的表现明显优于Bi-LSTM。在所有使用的数据集上,它们的评估分数几乎是完美的(都达到了0.995)(由于每层使用相同的学习率,它们在保留数据集上过拟合)。此外,当类别数量适合3类频谱而不是6类频谱时,所有模型都显示出轻微的改进。很难说增强的数据集是否给模型带来了优势;因此,有必要研究其他技术。对Bi-LSTM的交叉验证显着改善了其评估分数的结果,但这并没有延续到保留数据集。6类频谱的最佳表现模型是不使用交叉验证的变压器模型之间的3-way联系。当使用增强数据集时,不需要交叉验证。虽然在增强数据集上训练的BERT模型在没有使用交叉验证的情况下具有更好的性能(0.533 holdout F1分数),但使用较少数据集训练的第二好的模型(BERT在原始数据集上进行交叉验证训练)训练得更快,结果与表现最好的模型相比只有很小的差异。我们相信数据增强具有巨大的潜力(考虑到它提供了更多的数据),并且它可能在模型训练期间赋予优势,但我们认为在研究更多策略之前最好不要使用它。 The strategies used were a faster way of synthetically creating more data, which does not necessarily mean it was the best way.

Bi-LSTM注意力模型并没有像BERT和其他转换模型那样很好地描述类之间的关系,这给了我们的团队一个概念的证明,无论是更多的数据还是更多的计算能力,我们都可以继续工作和改进。此外,由于在研究的扩展(简单替换和插入上下文相似的单词)中只有很小的差异,BERT和其他转换器能够与Bi-LSTM模型相比几乎完美地拾取这些模式。

本研究表明,迁移学习对CEnR的分类水平有较好的效果。然而,拒绝集的结果仍然相对较低(最高为0.533),我们希望随着数据集大小的增加而改善。BERT和其他变压器模型的效率给我们留下了深刻印象。虽然花了几个月的时间来测试确定使用Bi-LSTM的方法,并且花了更多的时间来调优超参数,但在一天之内,BERT就能够实现如下所示的性能表2,训练时间显著减少。考虑到这些优势,迁移学习似乎在超参数选择方面脱颖而出。

变压器模型的最终预测与Bi-LSTM对剩余未标记数据集的最终预测显示在图4.图中显示,在迁移学习模型中,具有最高参与度(45分和5分)的预测较低,这表明我们对现实世界中的数据有了更好的理解,在现实世界中,数据集中很少出现45分和5分,大多数协议都是零。之所以会出现这种情况,是因为IRB数据库代表了所有类型的研究,而CEnR只是其中相对较小的一部分。Bio + Clinical BERT和XLM-RoBERTa的结果与BERT相似,尽管BERT可以说更现实。在变压器模型中,他们同意近4000项研究的预测;然而,基于注意力的模型只与所有这些模型中的850次(6000次)一致。

图4。对6000项研究进行模型预测。丙:注意;BERT:来自变压器的双向编码器表示Bi-LSTM:双向长短期记忆单元;跨语言模型-鲁棒优化BERT预训练方法。
查看此图

限制

研究人员可以选择将详细的协议附加为PDF文件,而不是填写数据库字段。我们无法检索本研究的PDF数据,减少了研究的总数,这限制了我们可以标记的数据。此外,我们观察到,与较小的类别(例如,二级、四级和五级)相比,变压器模型预测的类别更大。尽管如此,他们仍然做出了合理的预测,这是令人兴奋的,因为这意味着我们可以通过标记更多的数据或坚持3类频谱来改进这个问题。在使用Google Colab Pro时,我们计算大型模型的能力也受到限制,因为它有一定的计算限制。另一个耗时的步骤是审查和标记数据。变压器模型来源于一个库,其中整体结构处于其基本形式;因此,可以对其架构进行更多的调整[48]。

结论

总之,我们比较了在分类任务中广泛使用的技术:使用BERT的迁移学习、Bio + Clinical BERT、XLM-RoBERTa和Bi-LSTM注意模型。我们发现迁移学习最能达到我们的目的,而且实施起来又快又容易。在系统中应用模型需要额外的工作。在过程方面,我们发现扩充数据集具有改善结果的潜力,当使用不太通用的分类谱时,交叉验证对变压器模型的帮助不大,变压器模型的超参数调谐压力较小且耗时较短,变压器模型可以很好地处理小数据集,并且将6类压缩为3类是模型区分的较不严格的谱,并且提供了更好的结果。

还可以进行其他改进,例如通过使用与之前相同的搜索词标准(数据收集部分)来纠正最终预测数据集中的样本,或者通过随机样本来增加我们的训练数据。我们也可以使用不同的增强技术,因为还有其他方法可以实现。未来的工作包括微调策略和超参数优化,如判别学习率、倾斜三角形学习率和冻结层。BERT是本研究中最好的模型,主要是由于BERT对3类频谱的holdout分数,并且BERT的训练时间比其他两个变压器模型快得多;然而,展望未来,所有三种变压器模型将继续用于改进该实验,因为每种模型对数据的理解都是独一无二的。

确定CEnR并对参与程度进行分类,使我们能够了解整个大学正在进行的研究类型。这些数据可以帮助组织更好地为利益相关者服务,并规划支持社区参与所需的基础设施。此外,跟踪这些指标可以帮助机构向资助者和利益相关者报告他们的参与活动。这个方法学研究的创新之处在于创建了一个自动化系统,使用管理数据对研究进行分类。本研究描述了变压器模型如何使这一过程自动化。

致谢

我们的工作得到了美国国立卫生研究院的支持(授予CTSA UL1TR002649,国家推进转化科学中心)。

作者的贡献

BJF、SER和EBZ对研究进行了概念化并设计了方法。BJF和DHT使用了该软件。BJF进行了形式分析。BJF、SER、EBZ和DHT进行了调查。BJF和DHT对数据进行了整理。BJF写了最初的草稿。BJF创建了数据的可视化。BJF, BTM和AHK监督研究。BJF、SER和EBZ是该研究的项目管理者。BJF和DHT为本研究提供了资源。 BFJ and BTM validated the study. SER, EBZ, BTM, and AHK reviewed and edited the paper.

利益冲突

没有宣布。

  1. González-Carvajal S, Garrido-Merchán EC。比较BERT和传统机器学习文本分类。arXiv预印本于2020年5月26日在线发布。[免费全文
  2. Devlin J, Chang MW, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。arXiv预印本发布于2018年10月11日。[免费全文
  3. 王超,李敏,司摩拉。带转换器的语言模型。arXiv预印本发布于2019年4月20日。[免费全文
  4. Colón-Ruiz C, Segura-Bedmar I.深度学习架构在药物评论情感分析中的比较。[J]中国生物医学工程学报,2010;22 (10):1039 - 1039 [J]免费全文] [CrossRef] [Medline
  5. 刘建军,刘建军,刘建军,等。基于神经网络的阿尔茨海默病诊断方法的研究进展。arXiv预印本于2020年7月26日在线发布。[免费全文
  6. [3]刘建军,刘建军。基于深度迁移的机器学习分类方法研究。arXiv预印本2019年7月17日发布。[免费全文
  7. Ranti D, hans K, Zhao S, arind V, Titano J, Costa A,等。通用领域迁移学习在医学语言任务中的应用。arXiv预印本于2020年2月16日在线发布。[免费全文
  8. 孙超,邱鑫,徐勇,黄霞。如何对BERT进行文本分类微调?编辑:孙明,黄旭,季宏,刘志,刘勇。中文计算语言学第十八届全国学术会议,CCL 2019,中国昆明,2019年10月18-20日,论文集。可汗:施普林格;2019:194 - 206。
  9. 社区参与原则-第二版。疾病控制和预防中心有毒物质和疾病登记处,1997。URL:https://www.atsdr.cdc.gov/communityengagement/[2022-08-28]访问
  10. Bers MU, González-González C, Armas-Torres MB.作为游乐场的编码:在儿童课堂中促进积极的学习体验。计算机教育2019年9月;138:130-145。[CrossRef
  11. Brewer LC, Fortuna KL, Jones C, Walker R, Hayes SN, Patten CA,等。回到未来:通过卫生信息学和数字卫生实现卫生公平。[j] Mhealth Uhealth 2020;8(1):e14512 [j]免费全文] [CrossRef] [Medline
  12. 莫萨维尔M, Ferrell D, LaRose JG, Lu J, Winship J.社区“街道调查”对肥胖干预的影响:WE项目。社区卫生;2011;44(3):117-125 [j]免费全文] [CrossRef] [Medline
  13. Mosavel M, Gough MZ, Ferrell D.利用资产映射使青年参与社区参与性研究:WE项目。社区卫生进展,2018;12(2):223-236。[CrossRef] [Medline
  14. 齐默尔曼EB。共同研究健康:参与患者和利益相关者,从主题确定到政策变化。纽伯里公园,CA: SAGE出版物;2020.
  15. richard - schuster K. In: Cammarota J, Fine M,编辑。革命教育:青年参与行动研究在运动。牛津郡阿宾登:劳特利奇;2008.
  16. 范赞特S, matson JH, Newman GD, Meyer MA。社区应对气候变化能力的参与研究。阿姆斯特丹:爱思唯尔;2020.
  17. Eder MM, Evans E, Funes M, Hong H, Reuter K, Ahmed S,等。定义和衡量社区参与和社区参与研究:临床和转化科学机构实践。Prog Community Health partnership, 2018;12(2):145-156 [j]免费全文] [CrossRef] [Medline
  18. irb批准的VCU社区参与研究:基线数据分析和新数据系统概述。社区参与资源2013:1。
  19. 霍尔顿VL,杰特纳JF,肖KK。衡量一所复杂研究型大学的社区-大学伙伴关系:来自试点企业数据收集机制的经验教训和发现。城市高校2015;26(2):124。
  20. 齐尔曼EB, Raskin SE, Ferrell B, Krist a .基于IRB协议的社区参与研究分类系统和算法。中华临床医学杂志;2009;6(1):1 - 6 [J]免费全文] [CrossRef] [Medline
  21. Kumar V, Choudhary A, Cho E.使用预训练变压器模型的数据增强。arXiv预印本于2020年3月4日在线发布。[免费全文
  22. Ferrell B. data- augmentation for text-data- nlpag。GitHub。2020.URL:https://github.com/brianferrell787/Data-augmentation-for-text-data-nlpaug[2022-08-25]访问
  23. 马e.n npag。GitHub。2019.URL:https://github.com/makcedward/nlpaug[2022-08-25]访问
  24. Sanh V, Debut L, Chaumond J, Wolf T.蒸馏版的BERT:更小、更快、更便宜、更轻。arXiv预印本发布于2019年10月2日。[免费全文
  25. 李建军,李建军。双向递归神经网络。信号处理学报(英文版);1997;45(11):673- 681。[CrossRef
  26. 张建军,张建军,张建军,等。神经网络计算1997;11月15日;9(8):1735-1780。[CrossRef] [Medline
  27. 郭志强。基于递归神经网络的长短时记忆。CiteSeerX。2001.URL:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.28.6677[2022-08-28]访问
  28. 杨建军,赵凯。基于神经网络的机器翻译研究。arXiv Preprint于2014年9月1日在网上发布。[免费全文
  29. 王晓明,王晓明,冯鹏,等。基于LSTM的远程监督下的心理压力检测。2018年发表于:IEEE声学、语音和信号处理国际会议;2018年4月15日至20日;卡尔加里,AB。
  30. 张建军,张建军。基于全局向量的词表示方法。2014年发表于:自然语言处理经验方法会议;2014年10月25-29日;多哈,卡塔尔。
  31. 交互-词嵌入-投影-来自谷歌。GitHub。2020.URL:https://github.com/brianferrell787/Interactive-Word-Embedding-Projector-from-Google[2022-08-25]访问
  32. 于勇,司翔,胡超,张杰。递归神经网络研究进展:LSTM细胞和网络结构。神经网络学报,2019;31(7):1235-1270。[CrossRef] [Medline
  33. 可视化-注意层-文本-分类-深度学习-算法。GitHub。2020.URL:https://github.com/brianferrell787/Visualizing-attention-layer-in-text-classification-deep-learning-algorithm[2022-08-25]访问
  34. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J] .人工智能学报,2002;16(1):321-357。[CrossRef
  35. 计算F1宏在Keras。知识转移。2021年6月11日。URL:https://androidkt.com/calculate-f1-macro-in-keras/[2022-08-25]访问
  36. Alsentzer E, Murphy JR, Boag W, Weng WH, Jin D, Naumann T,等。公开可用的临床BERT嵌入。arXiv预印本发布于2019年4月6日。[免费全文
  37. Conneau A, Khandelwal K, Goyal N, Chaudhary V, Wenzek G, Guzmán F,等。大规模的无监督跨语言表示学习。arXiv预印本于2019年11月5日在线发布。[免费全文
  38. 刘勇,Ott M, Goyal N,杜军,Joshi M,陈东,等。罗伯塔:一个鲁棒优化的BERT预训练方法。arXiv预印本于2019年7月26日发布。[免费全文
  39. 简单的变形金刚。URL:https://simpletransformers.ai/[2022-08-25]访问
  40. Ferrell B. transformer_class工作区。权重与偏差。2020。URL:https://wandb.ai/brianferrell78/transformer_2class?workspace=user-[2021-05-15]访问
  41. Biwald L.基于权重和偏差的实验跟踪。权重与偏差。2020。URL:https://wandb.ai/site[2022-05-15]访问
  42. Ferrell B.基于变压器模型的社区参与研究分类。GitHub。2020.URL:https://github.com/brianferrell787/Classifying-community-engaged-research-with-transformer-based-models[2022-08-25]访问


伯特:来自变压器的双向编码器表示
Bi-LSTM:双向长短期记忆单元
CEnR:community-engaged研究
有线电视新闻网:卷积神经网络
款:深度神经网络
手套:单词表示的全局向量
IRB:院校审查委员会
NLP:自然语言处理
杀:合成少数派过采样技术
联邦:弗吉尼亚联邦大学
XLM-RoBERTa:跨语种语言模型鲁棒优化BERT预训练方法


编辑:A Mavragani;提交30.07.21;孙c、李海、董旭同行评议;对作者10.09.21的评论;订正版收到30.12.21;接受15.06.22;发表06.09.22

版权

©Brian J Ferrell, Sarah E Raskin, Emily B Zimmerman, David H Timberline, Bridget T McInnes, Alex H kriist。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com), 2022年9月6日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR Formative Research上,并适当引用。必须包括完整的书目信息,到https://formative.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。


Baidu
map