发表在gydF4y2Ba在gydF4y2Ba10卷gydF4y2Ba,第9号gydF4y2Ba(2022)gydF4y2Ba: 9月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/37770gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
识别关于COVID的患者生成的远程医疗查询的感知严重性:开发和评估基于迁移学习的解决方案gydF4y2Ba

识别关于COVID的患者生成的远程医疗查询的感知严重性:开发和评估基于迁移学习的解决方案gydF4y2Ba

识别关于COVID的患者生成的远程医疗查询的感知严重性:开发和评估基于迁移学习的解决方案gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

约瑟夫·加托,文学士gydF4y2Ba

计算机科学系gydF4y2Ba

达特茅斯学院gydF4y2Ba

塞耶路15号gydF4y2Ba

汉诺威,新罕布什尔州,03755gydF4y2Ba

美国gydF4y2Ba

电话:1 603 646 1110gydF4y2Ba

电子邮件:gydF4y2Bajoseph.m.gatto.gr@dartmouth.edugydF4y2Ba


背景:gydF4y2Ba对于远程医疗资源有限的医疗服务提供者来说,文本远程医疗查询的分类是一项安全关键任务。有必要对包含医学上严重的文本的患者查询进行优先排序,以优化资源使用并为有时间敏感需求的人提供护理。gydF4y2Ba

摘要目的:gydF4y2Ba我们的目标是评估迁移学习解决方案在远程医疗分类任务中的有效性,并提供彻底的错误分析,识别挑战最先进的自然语言处理(NLP)系统的远程医疗查询。此外,我们的目标是提供一个公开可用的远程医疗查询数据集,用于呼吸问题的远程医疗分诊的严重程度分类标签。gydF4y2Ba

方法:gydF4y2Ba我们对来自HealthTap、HealthcareMagic和iCliniq三个在线健康平台的573条医疗查询进行了注释。然后,我们利用不同的文本嵌入策略评估了6种迁移学习解决方案。具体来说,我们首先使用具有术语频率-逆文档频率(TF-IDF)特征的词法分类模型建立基线。接下来,我们研究了全局向量文本表示(GloVe)的有效性,这是一种预训练的词嵌入方法。我们在支持向量机(svm)、双向长短期记忆(bi-LSTM)网络和分层注意网络(HANs)的背景下评估了GloVe嵌入的性能。最后,我们使用基于转换器的架构评估了上下文文本嵌入的性能。具体来说,我们评估了变压器(BERT)、生物+临床-BERT和句子-BERT (SBERT)在远程医疗分诊任务中的双向编码器表示。gydF4y2Ba

结果:gydF4y2Ba我们发现一个简单的词汇模型在远程医疗分诊任务上的平均F1得分为0.865 (SD 0.048)。使用支持向量机、HANs和bi- lstm的基于手套的模型分别使F1得分提高了0.8、1.5和2.1分。BERT、Bio+Clinical-BERT和SBERT等基于变压器的模型的F1平均得分分别为0.914 (SD 0.034)、0.904 (SD 0.041)和0.917 (SD 0.037)。与所有基于手套的基线和词法基线相比,性能最高的模型SBERT提供了统计上显著的改进。然而,当比较基于变压器的模型时,没有发现统计学意义。此外,我们的错误分析揭示了极具挑战性的查询类型,包括那些具有复杂否定、时间关系和患者意图的查询类型。gydF4y2Ba

结论:gydF4y2Ba我们表明,最先进的迁移学习技术在远程医疗分类任务上工作得很好,比词汇模型提供了显着的性能提高。此外,我们发布了一个公共远程医疗分类数据集,使用来自在线医疗问答(Q&A)平台的标记问题。我们的分析强调了明确建模此类查询挑战的未来工作的各种途径。gydF4y2Ba

中国生物医学工程学报;2010;31 (9):877 - 877gydF4y2Ba

doi: 10.2196/37770gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

COVID-19大流行导致对远程医疗服务的需求增加[gydF4y2Ba1gydF4y2Ba]。预测表明,到2025年,某些人口群体可通过远程保健进行多达50%的咨询[gydF4y2Ba2gydF4y2Ba]。1研究发现,远程医疗患者的总体人口构成通常是使用私人医疗保险的说英语的白人女性,少数群体使用远程医疗服务的人数明显减少[gydF4y2Ba3.gydF4y2Ba]。患者使用这些服务与各种各样的医学专家进行交流,包括牙医、风湿病学家和产前护理专家等,所有这些都非常满意[gydF4y2Ba2gydF4y2Ba]。然而,这些研究调查了在远程环境中利用远程医疗服务与现有护理提供者互动的患者。最近,价格合理且易于使用的远程医疗平台有所增加,这些平台将世界各地有互联网连接的任何人与有执照的医疗专业人员联系起来。这些平台包括gydF4y2BaHealthTapgydF4y2Ba[gydF4y2Ba4gydF4y2Ba],gydF4y2BaiCliniqgydF4y2Ba,gydF4y2BaHealthcareMagicgydF4y2Ba。例如,HealthTap是一个获得《健康保险流通与责任法案》(HIPAA)认证的网站,它为在线用户提供与持有有效美国医疗执照的合格医生的联系[gydF4y2Ba4gydF4y2Ba]。这些平台易于访问,并为专业医疗咨询提供了更大的可访问性。然而,这种易用性和可访问性可能会导致这些服务充斥着大量问题gydF4y2Ba不gydF4y2Ba医学上严重或相关。这是一个安全关键问题,因为大量的非严重医疗查询将阻碍医疗专业人员对时间敏感问题的响应速度。这一现象的证据是在COVID-19热线中观察到的,在这些热线中,对冠状病毒的混淆导致了很长的等待时间,Margolius等人[gydF4y2Ba5gydF4y2Ba发现在2020年3月13日至4月20日期间向其分流系统拨打的12512个电话中,“52%与COVID-19无关或不需要额外护理。”大量不严重的远程医疗询问不仅是危险的,而且可能不必要地增加医疗保健支出,因为远程医疗服务的便利性可能鼓励患者询问微不足道的健康问题[gydF4y2Ba6gydF4y2Ba]。gydF4y2Ba

这种情况需要一个系统来优先处理需要立即处理的查询。为了解决这个问题,我们检查了3个远程医疗平台的数据:HealthTap、iCliniq和HealthcareMagic。这些平台便于有执照的医生远程回答书面医疗问题。我们的目标是通过按严重程度对患者查询进行排序来优化医护人员花费的时间,以便首先回答可能严重的查询。在这项研究中,当患者至少有1个活跃的COVID-19或肺炎相关症状时,一个查询被认为是严重的。然而,非严重问题来自没有活跃症状的患者,他们提交了一般信息请求、无意义的文本或极其模糊的问题。远程医疗分类通过优先处理严重问题,鼓励向最迫切需要的人提供远程医疗服务,节省了远程医疗平台可用的有限的专业医疗服务提供者资源。gydF4y2Ba

在这项工作中,我们通过在线医疗问答(Q&A)论坛的镜头检查了远程医疗分类。具体地说,我们将分类制定为一个二进制文本分类问题,我们的目标是对医疗查询进行分类[gydF4y2Ba7gydF4y2Ba或严重或不严重。我们注意到,这一提法没有涵盖所有的严重程度,但对于降低没有医疗紧急情况的查询的优先级是有用的。为此,我们对公开可用的数据集引入了一个扩展gydF4y2BaCOVID-DialoguegydF4y2Ba[gydF4y2Ba8gydF4y2Ba],其中包含从HealthTap、iCliniq和HealthcareMagic中提取的603个医患对话,并带有用于严格查询分类的标签。鉴于可用样本数量有限,我们随后研究了各种文本分类的迁移学习方法,并将它们与词汇方法进行了对比。具体来说,我们探索了不同嵌入方法的适用性,例如文本表示的全局向量(GloVe)和转换器,与术语频率-逆文档频率(TF-IDF)特征相比,使用一般文本和医学文本进行预训练。我们的实验表明,基于变压器的解决方案是识别严重医疗查询的优越迁移学习方法。此外,我们发现对医学文本的预训练在对我们的远程医疗分类数据集进行分类时没有任何好处。最后,我们对来自变压器(sentence- bert或SBERT)的句子双向编码器表示进行了深入的误差分析[gydF4y2Ba9gydF4y2Ba],确定具有挑战性的患者查询模式,以激励远程医疗分诊的未来工作。具体来说,我们注意到在患者生成的文本查询中对症状提及的否定、时间性和意图进行建模的困难。gydF4y2Ba

我们的贡献如下:gydF4y2Ba

  • 我们在远程医疗分类任务上建立了6个相关的自然语言处理(NLP)模型的基线结果,确定了根据严重程度排序查询的最佳预训练策略。我们确定了最适合分类的上下文嵌入模型,所有基于转换器的方法都比基于词汇和词嵌入的方法取得了统计上显著的改进。我们发现用临床文本预训练变压器模型没有任何好处。gydF4y2Ba
  • 我们对SBERT进行了彻底的错误分析,并确定了几种对NLP系统构成困难的医学查询类型,其中核心挑战被确定为复杂症状表现的建模。gydF4y2Ba
  • 据我们所知,我们已经使用来自在线远程医疗服务的真实样本提供了第一个公开可用的远程医疗分类数据集。本研究的所有代码及数据均已公开[gydF4y2Ba7gydF4y2Ba]。gydF4y2Ba

相关的工作gydF4y2Ba

医学文本分类的迁移学习gydF4y2Ba

对数据隐私和患者匿名的需求使得大规模收集和标记医疗保健文本极其困难。这促使在医学NLP中使用迁移学习来缓解资源受限建模的挑战。近年来,迁移学习从利用大量未标记文本来训练基于转换器的模型中获益良多[gydF4y2Ba10gydF4y2Ba]使用掩码语言建模目标。该框架允许将公共语言模式理解转移到其他下游任务,从而减少了解决各种低资源问题对大量标记数据的需求。gydF4y2Ba

变压器的双向编码器表示(BERT) [gydF4y2Ba11gydF4y2Ba是一种流行的基于转换器的模型,它已经在一般文本上进行了预训练,比如维基百科和布朗语料库。需要特定领域语言知识的医学推理任务,如医学自然语言推理[gydF4y2Ba12gydF4y2Ba]或医学概念提取[gydF4y2Ba13gydF4y2Ba],已被证明从针对医学特定文本的预训练中显著受益[gydF4y2Ba14gydF4y2Ba]。在这项研究中,我们探讨了使用普通和医学文本作为预训练方法的迁移学习。分析远程医疗分诊的最佳预训练策略是有意义的,因为患者查询通常由共同语言组成,但往往与复杂的医学术语交织在一起。gydF4y2Ba

分类的机器学习gydF4y2Ba

COVID-19大流行使美国的医疗保健系统不堪重负,导致对远程医疗分诊问题的机器学习解决方案的需求。例如,Lai等[gydF4y2Ba15gydF4y2Ba发现新冠肺炎热线电话爆满,促使人们开发了一种人工智能(AI)患者排名系统。Lai等[gydF4y2Ba15gydF4y2Ba[gm66nd]使用人工智能聊天机器人,通过询问患者是否有新冠肺炎症状的问题来预先筛选来电者。得到的信息被输入到一个基于逻辑的推理模型中,该模型决定是否需要热线医护人员的进一步咨询。gydF4y2Ba

医院急诊科也同样人满为患[gydF4y2Ba16gydF4y2Ba],对急症患者造成危险的治疗延误。Yao等[gydF4y2Ba16gydF4y2Ba]训练了一个深度学习模型,通过使用传入的病人紧急医疗记录来预测哪些病人最终需要住院治疗。这允许一个不依赖于护理资源的病人护理优先级的自动化系统。Gligorijevic等人也做了类似的工作[gydF4y2Ba17gydF4y2Ba],其中使用深度关注模型使用多模式电子健康记录(EHR)数据对患者进行分类,其中分类被制定为基于紧急程度指数的分类问题[gydF4y2Ba18gydF4y2Ba]。gydF4y2Ba

与前面提到的工作不同,我们仅仅通过文本查询来看待分诊,特别是那些由患者提交到远程医疗平台的查询。随着对文本医疗支持的需求不断增长,无论是通过公共医疗问答平台,如HealthTap,还是私人医患信息应用程序,我们预计对NLP解决方案的需求将不断增长,以解决自由文本患者查询的分诊问题。gydF4y2Ba

医疗风险识别gydF4y2Ba

Si等人对远程医疗平台信息进行了类似的分类工作[gydF4y2Ba19gydF4y2Ba他利用从一所大学医院的成年人那里收集的数据,将医患信息根据紧急程度进行分类。不幸的是,这些数据并不公开。此外,消息内容包含从患者到他们现有的心脏病专家的关于心脏病学的查询。这与我们的数据集形成鲜明对比,我们的数据集是公开的,具有不同的标签空间,并且包含从患者到他们以前从未与之交谈过的医生的呼吸系统疾病样本(因此无法使用先前的病史知识做出决定)。我们和Si等人的研究[gydF4y2Ba19gydF4y2Ba],然而,探索基于bert的分类解决方案。gydF4y2Ba

此外,类似的工作也存在于从文本识别医疗风险的领域。例如,Fu等[gydF4y2Ba20.gydF4y2Ba]引入了一种基于知识图的远程监督方法来预测社交媒体帖子的自杀风险,Wang等[gydF4y2Ba21gydF4y2Ba]从社交媒体数据中探索了基于变压器的抑郁症风险预测解决方案,Klein等人[gydF4y2Ba22gydF4y2Ba应用基于bert的分类器从推文中识别潜在的COVID-19病例。gydF4y2Ba

这项工作的相似之处在于,我们探索了基于bert的医疗风险识别解决方案。然而,与社交媒体数据不同,提交给远程医疗平台的医疗查询通常包含复杂的临床术语。此外,医生与患者互动的远程医疗服务包含较少的限制性字符限制,需要对远程文本依赖关系进行建模。最后,基于社交媒体的研究拥有大规模数据挖掘的优势。在这项研究中,我们在一个资源极度受限的数据设置中操作,这对我们建模和理解医疗查询文本的能力提出了挑战。gydF4y2Ba


数据集gydF4y2Ba

在本研究中,我们利用了公开可用的COVID-Dialogue数据集[gydF4y2Ba8gydF4y2Ba]。该数据集包含603个匿名患者查询,提取自3个远程医疗平台,即HealthTap, iCliniq和HealthcareMagic。收集原始数据集的目的是在COVID-19大流行期间促进更好的人工智能对话系统。因此,603个医患对话中的每一个都包括完整的患者查询、汇总的患者查询和医生的响应。该数据集没有用于文本分类;因此,在过滤了在我们的分类设置中无法使用的样本(即重复、非英语和超出范围的条目-其中“超出范围”定义为与COVID-19或肺炎症状无关的条目)之后,我们注释了573(95%)个样本。所有的多回合对话都被截断为最初的患者话语,并且在我们的管道中没有使用医生的回应。gydF4y2Ba

COVID-19对话数据集中的每个样本都包含关于COVID-19或相关肺炎症状的查询。每个样本不包括患者人口统计数据或病史;因此,仅使用单个自由文本查询就可以检测严重性。gydF4y2Ba表1gydF4y2Ba提供标记数据集中每个类的示例。我们标记方案的总体目标是优先考虑那些有活跃症状的样本,并降低数百个没有医学严重文本的样本的优先级。我们的最终数据集包含314个(55%)严重样本和259个(45%)非严重样本。gydF4y2Ba

表1。来自带有我们引入的严重性标签的covid - 19对话数据集的样本。非严重样本通常是不相关的查询或来自很少或没有症状的患者。严重的样本中总是含有可能需要就医的活跃症状患者。gydF4y2Ba
病人查询gydF4y2Ba 基础真值标签gydF4y2Ba
“我应该刮胡子以减少感染冠状病毒/covid-19的机会吗?”gydF4y2Ba 不严重的gydF4y2Ba
“我的女儿今年11岁,她患有肺炎,自1月3日以来,她一直在生病,症状不断变化。她在晚上痒的所有她的上半身,头部和耳朵。她有严重的头痛和腹痛。”gydF4y2Ba 严重的gydF4y2Ba

道德的考虑gydF4y2Ba

鉴于数据是公开的,本研究不需要机构审查委员会的批准。gydF4y2Ba

用于开发和评估解决方案的数据集是匿名的,不会透露医生和患者的身份。此数据集没有可用的人口统计信息。gydF4y2Ba

我们就这种远程医疗分诊系统的现实意义咨询了3位专业医疗服务提供者。我们咨询了Timothy E. Burdick, Stephen K. Liu, and jiauo H. Feng博士。他们都在当地一家教学医院担任初级保健提供者。关于未来远程医疗分诊系统的伦理使用,一个有趣的问题是,是否在未来的医疗分诊系统中包括人口统计、社会经济、生理或其他电子病历信息,如果这些信息是可用的。虽然人口统计或过去的病史(例如,患者的年龄,先前存在的疾病)可能与确定患者查询的实际严重程度相关,但此类信息也可能引入偏见。远程医疗分诊的相关工作,如Si等[gydF4y2Ba19gydF4y2Ba],同样建议在今后的工作中使用人口统计资料。要确定这种系统的公平性和公平性,需要对电子病历数据中用户提供的额外的基础事实进行额外的探索,包括但不限于急诊就诊、紧急护理就诊以及在收到护理提供者的回复后立即安排新的预约。这超出了本文的范围。然而,正如后面提到的,我们目前正在设计一项研究,通过使用从当地医院收集的电子病历数据来调查这个问题。gydF4y2Ba

数据源gydF4y2Ba

接下来,我们将介绍收集covid - 19 -对话会数据集时使用的来源[gydF4y2Ba8gydF4y2Ba],于2020年3月公开发布。该数据集中的样本收集于2020年2月7日至3月25日之间。gydF4y2Ba

HealthTapgydF4y2Ba

HealthTap成立于2010年,是一个远程医疗平台,可将患者与美国持牌医疗专业人员远程连接,提供各种服务,包括虚拟咨询和医患问答。根据Dahl [gydF4y2Ba23gydF4y2Ba],病人在HealthTap上得到了近10亿个问题的回答。此外,HealthTap接受超过100个保险计划,并雇用140多个专业的医生。covid - 19对话数据集中的HealthTap数据来自其医疗问答论坛。gydF4y2Ba

iCliniqgydF4y2Ba

iCliniq是一家虚拟医院,为全球患者提供视频、语音和文字聊天医疗服务。iCliniq与全球3500多名执业医生合作,涵盖80多个医学专业。iCliniq的样本来自其医学问答论坛。gydF4y2Ba

HealthcareMagicgydF4y2Ba

与Healthtap和iCliniq不同,HealthcareMagic是一个严格意义上的在线医疗问答论坛。来自78个医学专业的18,000多名医生在HealthcareMagic上回答了170万个问题。gydF4y2Ba

注释细节gydF4y2Ba

我们数据集中的每个样本都由3位作者标注为严重或非严重。在其他研究中,使用作者作为小规模医疗网络信息的注释者已经取得了成功[gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba]。每个注释者都有大学学位和足够的健康知识水平,并投入了大量时间来教育自己与本数据集中观察到的两种疾病相关的潜在症状。我们注意到,使用非医学专业人员限制了我们可以标记该数据集的粒度程度。但是,注释者会仔细检查对原始查询的响应,以确定潜在的严重查询。此外,注释者观察到,与表现出明显症状的样本相比,有很多无关的样本。例如,下面的问题可以安全地标注为“不严重”,因为回答“我在哪里可以得到COVID-19检测?”并不需要大量的医学知识。这个问题可以用谷歌搜索在美国大部分地区找到答案。然而,我们注意到,假设互联网搜索可用性可能会使注释偏向于那些没有可靠的互联网接入和不熟悉网络搜索健康的农村和偏远地区。然而,那些无法使用谷歌搜索或打算使用网络搜索健康问题的人也不太可能依赖远程医疗服务。gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba

我们还注意到,在某些样本中,基于查询和医疗专业人员的响应而感知到的严重程度可能与患者病情的实际严重程度不同。然而,由于我们没有从实际用户那里得到任何基本的事实,所以这种情况无法解决。这促使我们利用我们与当地医院医生的合作,在未来的工作一节中报道,在这个方向上继续开展未来的工作。此外,我们对我们提出的解决方案的性能进行了彻底的错误分析,并说明了它在这个带注释的数据集方面的优势和局限性。每个样本的最终注释是来自3个注释者的多数投票标签。所有样本的注释者一致性为82%。接下来,我们详细介绍非严重和严重样本的注释模式。gydF4y2Ba

不严重的gydF4y2Ba

背后的指导原则gydF4y2Ba者gydF4y2Ba注释是一个患者查询,它不指示活动症状、立即需要诊断或立即需要医疗响应。这包括不具体的或推测性的查询。下面列出了从数据集中选择的示例及其非严格注释原理。gydF4y2Ba

我在哪里可以获得新冠病毒检测?gydF4y2Ba

此查询并不表示有立即的危险、需要诊断或需要医疗响应。这个查询也可以通过谷歌搜索提供,因此不需要来自医疗专业人员的反馈。gydF4y2Ba

如果我感染了病毒,我必须住院吗?我有1型糖尿病。gydF4y2Ba

虽然这个问题在医学上是有效的,应该得到回应,但由于患者没有活跃的症状,因此不认为需要立即得到回应。gydF4y2Ba

严重的gydF4y2Ba

一个gydF4y2Ba严重的gydF4y2Ba如果患者表示存在可能对患者构成危险的活动症状,需要立即进行诊断或立即需要进行医疗反应,则对其进行注释。这包括患者列出当前症状或证明需要可操作的医生建议的查询。下面列出了从数据集中选择的示例及其严格的注释原理。gydF4y2Ba

我儿子不舒服。他流鼻涕,喉咙痛,偶尔咳嗽,胃不舒服。他昨晚头痛。没有发烧。是普通感冒还是必须检查一下是否感染了新冠病毒?没有旅行过或者和任何人有过接触吗?gydF4y2Ba

此查询描述了与COVID-19相符的症状,并证明有足够的必要进行医疗咨询。gydF4y2Ba

左侧耳前淋巴结很压痛,头部左侧头皮压痛摸,左侧腮腺浅表淋巴结肿大压痛。两耳都痛。没有受伤。突然来了,已经1天了。临时100.1°。gydF4y2Ba

此查询包含对患者的明确、直接的危险,需要医疗响应。gydF4y2Ba

迁移学习方法gydF4y2Ba

从变压器双向编码器表示gydF4y2Ba

BERT是一种最先进的基于转换器的模型,它利用未标记的文本来生成上下文化的语言表示[gydF4y2Ba11gydF4y2Ba]。在本研究中,我们对Devlin等人提出的文本分类管道使用标准BERT [gydF4y2Ba11gydF4y2Ba],我们首先使用预训练的BERT模型生成上下文化的文本特征,然后将特殊的CLS令牌提供给线性分类头,该分类头输出最终的查询标签。我们探索了BERT用于远程医疗分类,因为BERT已被证明在相关任务中是成功的,例如抑郁症风险预测[gydF4y2Ba21gydF4y2Ba]、自杀风险预测[gydF4y2Ba20.gydF4y2Ba],以及COVID-19病例识别[gydF4y2Ba22gydF4y2Ba]。gydF4y2Ba

生物+ Clinical-BERTgydF4y2Ba

Bio+ clinicalbert架构与BERT相同,但对医学文本进行了权重预训练。具体来说,这个预训练过程首先采用BioBERT模型[gydF4y2Ba26gydF4y2Ba],这是BERT对从PubMed收集的生物医学研究文本进行微调的结果。接下来,BioBERT根据重症监护医疗信息市场(MIMIC)-III数据库的临床记录进行微调[gydF4y2Ba27gydF4y2Ba],生产Bio+ clinicalbert [gydF4y2Ba14gydF4y2Ba]。BERT、生物医学研究文本和临床笔记的组合在医学自然语言推理任务上的表现明显优于BERT [gydF4y2Ba12gydF4y2Ba]。因此,我们使用Bio+Clinical-BERT作为患者查询任务的医学信息架构基线。这是我们唯一利用医学课本知识的迁移学习方法。gydF4y2Ba

SBERT有三重损失gydF4y2Ba

我们也探讨了SBERT [gydF4y2Ba9gydF4y2Ba进行远程医疗分诊。不像BERT,它学习输出上下文化嵌入gydF4y2Ba每一个gydF4y2Ba输入标记,SBERT为给定的输入生成单个嵌入。事实证明,SBERT在相邻的医学NLP任务中是有效的,例如COVID-19疫苗情绪分析[gydF4y2Ba28gydF4y2Ba]和COVID-19错误信息检测[gydF4y2Ba29gydF4y2Ba]。在本研究中,我们使用了SBERT,因为它允许文本分类和嵌入可解释性的有用方法。gydF4y2Ba

为了使用SBERT进行文本分类,我们首先对SBERT模型进行微调,以最小化以下三元组损失函数:gydF4y2Ba

其中,A为锚点样本,P为正样本(与A相同类别),N为负样本(与A相反类别),d为余弦相似距离函数。这个目标可以解释为学习在嵌入空间中将来自同一类的查询嵌入推得更近,同时将来自相反类的样本推得更远。边界参数α影响嵌入空间中正负对之间的距离。为了生成训练三人组,一个给定的样本与来自相同和相反类别的样本随机配对。每个样本重复此过程10次,生成4580个训练三胞胎。gydF4y2Ba

使用来自微调SBERT模型的嵌入,然后我们使用Scikit-Learn包训练了一个k最近邻(KNN)分类器[gydF4y2Ba30.gydF4y2Ba]。具体来说,我们设置邻居的数量K=10,否则使用Scikit-Learn提供的默认参数(它使用p=2的Minkowski距离度量)。KNN使用与所有其他实验相同的训练集进行训练,然后根据测试集查询与嵌入空间中训练样本的关系对测试集查询进行标记。gydF4y2Ba

基线实验gydF4y2Ba

对于TF-IDF+SVM,我们将TF-IDF [gydF4y2Ba31gydF4y2Ba从患者查询到支持向量机(SVM)分类器的特征向量[gydF4y2Ba32gydF4y2Ba]。这个基线检查了一个简单的词法模型对远程医疗分诊的有效性。gydF4y2Ba

对于GloVE+SVM,我们得到预训练好的GloVE [gydF4y2Ba33gydF4y2Ba]嵌入,并将均值向量馈送给SVM分类器。这个基线测试了迁移学习在不使用情境建模的情况下的表现。gydF4y2Ba

在GloVe嵌入上训练两层双向长短期记忆(bi-LSTM)模型进行分类。bi-LSTM模型检验了上下文序列建模在预训练词嵌入上的有效性。Bi-LSTM模型已被证明在各种临床文本预测任务中是有效的[gydF4y2Ba34gydF4y2Ba]。gydF4y2Ba

层次注意网络[gydF4y2Ba35gydF4y2Ba]用于文本分类,通过对句子和单词级别的注意力进行建模来模拟自然语言层次,用于文档分类。本实验中的HAN词嵌入使用GloVe进行初始化。其他先前的工作已经建立了一个HAN作为医学文本的有效分类器[gydF4y2Ba36gydF4y2Ba]。gydF4y2Ba

评价设置gydF4y2Ba

对于每个实验,我们报告了5倍交叉验证的加权平均F1、精度和召回分数。此外,我们报告了报告平均值的95% CI。最后,我们使用McNemar检验进行了统计显著性检验[gydF4y2Ba37gydF4y2Ba对于每个模型,我们表现最好的方法,SBERT。每个训练和测试分割分别包含大约458和115个样本。gydF4y2Ba


在本节中,我们展示了跨各种NLP基线的远程医疗分类任务的结果。我们的目标是回答以下研究问题(RQs):gydF4y2Ba

  • 与其他文本分类模型相比,用于远程医疗分诊的迁移学习模型对covid -19相关查询的效果如何?gydF4y2Ba
  • 哪些类型的健康查询挑战最先进的NLP系统?gydF4y2Ba

分析gydF4y2Ba

我们的研究结果表明,远程医疗分诊从迁移学习中受益匪浅,因为我们的性能最低的模型TF-IDF+SVM没有使用迁移学习。TF-IDF特征达到合理的平均F1评分0.865 (SD 0.048)。然而,我们发现,通过应用基于手套的模型,如GloVe+SVM、HAN和bi-LSTM模型,F1得分分别提高了0.8、1.5和2.1分。通常,轻量级建模选项,如TF-IDF和GloVe,报告合理的F1分数,因此在计算资源有限的情况下是可行的解决方案。gydF4y2Ba

RQ1:迁移学习模式在远程医疗分诊中的效果如何?gydF4y2Ba

我们发现基于变压器的模型是迁移学习的优越方法,BERT、Bio+Clinical BERT和SBERT的平均F1得分分别为0.914 (SD 0.034)、0.904 (SD 0.041)和0.917 (SD 0.037)。gydF4y2Ba表2gydF4y2Ba).我们注意到Bio+Clinical-BERT并没有优于BERT基线。这可能是由于BERT与生物+临床-BERT训练数据中发现的语言差异。用于培训Bio+ clinicalbert的临床记录由医生撰写,因此比患者撰写的查询更具技术性。因此,尽管远程医疗查询文本确实包含医学术语,但临床记录预训练在这种情况下没有帮助。gydF4y2Ba

我们的结果表明,平均而言,SBERT是查询严重性的最佳预测器,与其他方法相比,它产生了最高的平均F1、精度和召回分数。更高的召回率在分诊领域尤为重要,因为在这样一个安全关键的任务中,减少假阴性更为重要。gydF4y2Ba

使用McNemar检验统计显著性,我们发现SBERT的表现明显优于TF-IDF+SVM (gydF4y2BaPgydF4y2Ba<.001), GloVE+SVM (gydF4y2BaPgydF4y2Ba=.001), bi-LSTM (gydF4y2BaPgydF4y2Ba=.03), HAN (gydF4y2BaPgydF4y2Ba=措施)。然而,在将SBERT与其他基于变压器的模型(如BERT (gydF4y2BaPgydF4y2Ba=.81)和Clinical-BERT (gydF4y2BaPgydF4y2Ba= 22)。因此,基于变压器的方法之间的预测分布差异是微不足道的,所有这些都是远程医疗分诊迁移学习解决方案的有效选择。gydF4y2Ba

尽管基于变压器的模型的性能很高(所有F1分数>0.9),但重要的是要注意,远程医疗分诊的一般问题远未解决。这项研究通过COVID-19和肺炎相关查询的狭窄镜头研究了分诊;涉及非呼吸系统并发症的疾病将无法被该系统识别。gydF4y2Ba

表2。显示所有模型的分类性能的结果。每个指标是5倍交叉验证的平均结果,周围是使用每个验证折叠的指标得分计算的95% CI。gydF4y2Ba
模型gydF4y2Ba F1得分,均值(SD)gydF4y2Ba 精度,平均值(SD)gydF4y2Ba 召回率均值(SD)gydF4y2Ba
TF-IDFgydF4y2Ba一个gydF4y2Ba+支持向量机gydF4y2BabgydF4y2Ba 0.865 (0.048)gydF4y2Ba 0.871 (0.043)gydF4y2Ba 0.865 (0.048)gydF4y2Ba
手套gydF4y2BacgydF4y2Ba+支持向量机gydF4y2Ba 0.873 (0.036)gydF4y2Ba 0.878 (0.030)gydF4y2Ba 0.874 (0.035)gydF4y2Ba
Bi-LSTMgydF4y2BadgydF4y2Ba 0.886 (0.051)gydF4y2Ba 0.880 (0.049)gydF4y2Ba 0.879 (0.052)gydF4y2Ba
汉gydF4y2BaegydF4y2Ba 0.880 (0.035)gydF4y2Ba 0.890 (0.031)gydF4y2Ba 0.880 (0.033)gydF4y2Ba
伯特gydF4y2BafgydF4y2Ba 0.914 (0.034)gydF4y2Ba 0.917 (0.033)gydF4y2Ba 0.914 (0.034)gydF4y2Ba
生物+ Clinical-BERTgydF4y2Ba 0.904 (0.041)gydF4y2Ba 0.905 (0.040)gydF4y2Ba 0.904 (0.041)gydF4y2Ba
SBERTgydF4y2BaggydF4y2Ba 0.917 (0.037)gydF4y2Ba 0.920 (0.034)gydF4y2Ba 0.918 (0.036)gydF4y2Ba

一个gydF4y2BaTF-IDF:词频率-逆文档频率。gydF4y2Ba

bgydF4y2BaSVM:支持向量机。gydF4y2Ba

cgydF4y2BaGloVe:用于文本表示的全局向量。gydF4y2Ba

dgydF4y2BaBi-LSTM:双向长短期记忆。gydF4y2Ba

egydF4y2Ba层次注意网络。gydF4y2Ba

fgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

ggydF4y2Ba来自变压器的句子双向编码器表示。gydF4y2Ba

RQ2:哪些类型的远程医疗查询挑战最先进的NLP系统?gydF4y2Ba

在上一节中,我们确定了基于转换器的模型是最有效的分类预训练形式。为了识别难以分类的远程医疗查询,我们研究了SBERT,因为该体系结构为整个查询输出单个嵌入,这对可解释性很有用。gydF4y2Ba

我们首先使用t分布随机邻居嵌入(t-SNE)可视化每个测试样本的SBERT嵌入[gydF4y2Ba38gydF4y2Ba],将每个样本的768D SBERT嵌入投影到2D空间,目的是保留在高维中发现的嵌入距离。gydF4y2Ba

图1gydF4y2Ba可视化使用三重损失对SBERT进行微调之前和之后的测试查询的投影嵌入。我们发现SBERT学习了有意义的聚类,这些聚类在很大程度上将严重样本与非严重样本分开。使用K-means聚类,我们得到gydF4y2Ba图2gydF4y2Ba,其中突出显示每个集群的凸包。gydF4y2Ba

我们感兴趣的是分析不属于正确集群的患者查询。gydF4y2Ba文本框1gydF4y2Ba突出显示所有假阳性,如K-means集群所示gydF4y2Ba图2gydF4y2Ba。具体来说,这些是非严重(蓝色)的样本gydF4y2Ba图2gydF4y2Ba出现在严重星系团中。gydF4y2Ba

假阳性的一个共同主题是gydF4y2Ba所有样本都提到了一种症状或疾病gydF4y2Ba。因此,SBERT依赖于症状解释来进行正确的查询嵌入,并且可能误解了某些症状的呈现方式。的定性分析gydF4y2Ba文本框1gydF4y2Ba强调了以下挑战:gydF4y2Ba

  • 症状否定:样本1和4强调了否定的症状如何混淆远程医疗分诊症状。例如,在分析样本1时,分诊系统必须明白,提到干咳、发烧和喉咙痛是为了强调它们的不存在,而不是表明它们的严重程度。gydF4y2Ba
  • 症状时间性:样本4、5和11都在复杂的时间关系中提到了症状。自动分类系统必须能够识别并非所有提到的症状都是活跃的,同时突出显示与给定查询相关的症状。gydF4y2Ba
  • 模棱两可的问题:示例2、3和5突出了我们称之为“模棱两可的问题”的一个棘手子集,其中可能出现症状,但查询的目的不清楚,或者提出的问题难以回答。这些样本被注释者标记为不严重。gydF4y2Ba
  • 常规查询:示例6、7、9和10包含在常规、非严重查询的上下文中提到的症状。例如,来自肺炎患者的查询7的目的是获取有关肺炎如何在肺部表现的更多信息。注释者认为这并不严重,因为一般信息请求不应排在更相关、具体、严重的医疗需求之上。gydF4y2Ba
  • 自答问题:样本8和11包含对所询问问题的有效解释或解决方案。例如,样本11中的患者有持续的干咳和喉咙痛。然而,他们已经采取了所有必要的COVID-19预防措施(COVID-19检测,自我隔离)。这些样本被标记为不严重,可能对未来的远程医疗分诊系统具有挑战性。gydF4y2Ba

文本框2gydF4y2Ba突出显示所有假阴性,如K-means集群所示gydF4y2Ba图2gydF4y2Ba。具体来说,这些是严重(红色)的样本gydF4y2Ba图2gydF4y2Ba出现在不严重星系团中的gydF4y2Ba

的定性分析gydF4y2Ba文本框2gydF4y2Ba,发现了其他潜在的分诊挑战:gydF4y2Ba

  • 稀疏症状表示:样本1包含患者症状提及(呜呼、HIV、贫血),这些在训练数据中几乎没有表示。由于类似的数据集扩大了它们能够分类的疾病数量,学习大型症状集的良好表示可能具有挑战性。gydF4y2Ba
  • 隐性症状提到:样本2表示,他们除了发烧外,其他症状都有。读者理解这意味着病人可能会咳嗽,失去味觉/嗅觉等。SBERT无法做出这种推断,这使得这种类型的样本具有挑战性。gydF4y2Ba

综上所述,SBERT的误差集中在具有复杂症状表现的样本上。未来在远程医疗分类方面的工作可能会侧重于对所呈现症状的明确建模,如时间性、否定性、意图和其他语言现象。gydF4y2Ba

‎gydF4y2Ba
图1所示。使用t-SNE投影到二维的SBERT嵌入。左图描述了在基于三重态损失的微调之前测试样本在嵌入空间中的分布情况。右图显示了SBERT如何学习在嵌入空间中分离查询嵌入。注:comp-1和comp-2轴表示t-SNE将768D嵌件投射到的两个维度的名称,其中“comp”是“组件”的缩写。来自变压器的句子双向编码器表示;t-SNE: t分布随机邻居嵌入。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图2。对测试集t-SNEs上K-means聚类的输出进行可视化。注:comp-1和comp-2轴表示t-SNE将768D嵌件投射到的两个维度的名称,其中“comp”是“组件”的缩写。t-SNE: t分布随机邻居嵌入。gydF4y2Ba
查看此图gydF4y2Ba
患者查询测试集中的假阳性样本。gydF4y2Ba
  1. “我与刚从澳大利亚飞回来的人有过密切接触,自从他降落后我就一直在自我隔离,我没有出现任何症状(干咳、发烧、喉咙痛)吗?下一步是什么?”我要去工作吗?”gydF4y2Ba
  2. “我最近被诊断出患有流感(鼻拭子测试完成)。我今年34岁,曾经吸烟(到现在已经完全戒烟7年了),但是我每年至少得一次“行走性肺炎”。我几乎可以肯定我现在又得了。我能做些什么来防止得肺炎??”gydF4y2Ba
  3. “嗨!我是一名20岁的女性。我大约一年前开始健身。在参加腹部锻炼后,我注意到下腹部疼痛。但我也注意到,在我月经的时候。它就在我左侧髋骨旁边/下面。”gydF4y2Ba
  4. “我最近不是得了流感就是得了肺炎。我发现我的粪便越来越黄或越来越白。我30天前戒了烟,一直在吃尼古丁口香糖,现在又吃含片。我不觉得难受,但这很不寻常。尼古丁产品会不会是导致变色的原因呢?谢谢你。”gydF4y2Ba
  5. “去年在流感季节,我咳嗽得很厉害,呼吸困难,x光片显示我的胸/肺里有液体。对如何应对covid - 19有什么建议吗?”gydF4y2Ba
  6. “嗨。在病毒肆虐的这段时间,鼻窦炎和头痛可以吃什么药?谢谢你。”gydF4y2Ba
  7. “我最近被诊断出患有肺炎。我小时候得过肺炎,但从那以后就再没得过。当我听到诊断结果时,我很震惊。症状在3月28日开始显现。我从4月3日星期一开始服用一水多西环素,并且必须服用7天。我非常健康,多年没有生病。我甚至不记得上次生病是什么时候。这真的把我弄晕了。我一点精力都没有,胃口也很差。肺炎是如何在肺部表现出来的?细菌是如何进入肺部的? How long will it be until I recover? I am really having a hard time with this. Help!”
  8. “你好,我的鼻窦通常在季节变化时发作(就像现在)。我担心的是我的症状与covid-19相似。嗓子有点疼,最近一直流鼻涕。我不是一个人住,想知道怎样才能让自己接受检查,谢谢?”gydF4y2Ba
  9. “喉咙有点痛,想要得到一种好的免疫增强剂,特别是考虑到病毒。请建议。没有接触过任何感染病毒的人。”gydF4y2Ba
  10. “你好,我是一名学生,正在处理一项微生物学作业。给我一个病人样本。我的病人是4岁-诊断肺炎-目前的疾病总结=反复感冒,耳部感染和支气管炎。她已经病了三个星期了。昨天发烧了。一个lso nausia and vomiting,muscle aches. Past Medical history= Cystic Fibrosis diagnosed at age 3. I did all the lab work and found out that the bacteria causes the disease is Psudomonas aeruginosa. What is the appropriate treatment? Please help.”
  11. “嗨。这次COVID-19的爆发令人恐惧。我这周做了检查,结果是阴性的。但在筛查之前,我连续干咳了一个星期,喉咙也很痛。我把自己隔离了下一个什么?我还需要再做一次筛查吗?”gydF4y2Ba
文本框1。患者查询测试集中的假阳性样本。gydF4y2Ba
患者查询测试集中的假阴性样本。gydF4y2Ba
  1. “我的医生上周在CNBC做了例行节目。他的护士打来电话,我的血液显示出贫血的迹象。好了,今天他的护士打来电话,他们深入检查了血液,结果显示:是慢性肺炎吗?好吧,我没有艾滋病。我的问题是她说无药可救。我妈妈死于她的长首字母缩略词Boop的慢性感染。我联系了cdc。gov,他们让我联系了罕见病中心。妈妈无药可救。问题:他们告诉我Boop不是基因转移的。我妈妈的肺病就是这样开始的。 is thimy lung disease genetic? Is it curable? Help please.”
  2. “早上好,我有冠状病毒的所有症状,除了高智商。我接触过一个人(他现在也出现了这些症状),他和一个在过去几周访问过印度的人住在一起。我应该担心吗?”gydF4y2Ba
文本框2。患者查询测试集中的假阴性样本。gydF4y2Ba

主要结果gydF4y2Ba

在本研究中,我们提供了具有远程医疗查询严重性标签的COVID-Dialogue数据集的新扩展。此外,我们深入研究了几种迁移学习方法在资源受限环境下预测严重性的能力。我们得出结论,基于变压器的模型能够高效地进行分类(所有F1分数>0.9)。此外,我们还对SBERT进行了全面的错误分析,强调了需要深入理解症状表现的具有挑战性的样本。我们的错误分析强调了未来工作中显式建模各种患者查询类型的各种途径。gydF4y2Ba

这是一个新的研究领域,需要更多的调查来定义实际部署的需求。应该指出的是,这种系统不应该用于诊断。这种解决办法可以受益于在线学习方法,特别是在大流行的背景下(例如,时间和空间因素对于发现新感染变种的爆发很重要)。gydF4y2Ba

可解释性:性能权衡gydF4y2Ba

深度神经网络(dnn)的一个经常被讨论的限制是它们缺乏一种自然的方式来解释它们所做的预测[gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba],所以使用深度神经网络就很难提问了gydF4y2Ba为什么gydF4y2Ba某个样本被预测为严重或不严重。长短期记忆(LSTM)和基于变压器的模型等模型使识别不公平偏差或虚假相关性驱动预测变得具有挑战性。因此,在远程医疗分类中使用迁移学习必须谨慎进行,因为从其他数据集学习到的偏见可能会影响分类决策。gydF4y2Ba

词汇模型(如TF-IDF)与线性分类器相结合,可以直接访问模型对某些词汇术语的使用情况。gydF4y2Ba

鉴于我们基于bert的模型只提供了高达5分的F1分数提高,我们比较了SBERT和TF-IDF+SVM的测试集误差,以突出特定的样本类型,这些样本类型需要变压器架构的复杂性和知识可转移性才能进行准确的预测(gydF4y2Ba表3gydF4y2Ba).gydF4y2Ba

在所有测试集(即5重交叉验证中每重测试集)中,我们发现使用TF-IDF的词法模型犯了77个错误,而使用SBERT的词法模型犯了47个错误。此外,81%的SBERT错误也是TF-IDF造成的。在39个被SBERT正确预测但被TF-IDF错误预测的样本中,我们突出显示了7个查询gydF4y2Ba表3gydF4y2Ba这些错误代表TF-IDF错误。的定性分析gydF4y2Ba表3gydF4y2Ba重点介绍以下内容:gydF4y2Ba

  • 一般查询:这些样本要么询问一般医学知识,要么要求无症状患者提供有关COVID-19检测的信息。示例1和示例2突出显示了每种通用查询类型的示例。这些样本对TF-IDF来说是一个挑战,因为如果没有上下文建模,词法模型可能很难理解查询意图,因为我们的TF-IDF模型只考虑单图特征。在我们的39个样本评估集中,TF-IDF做出的22个预测是假阳性,其中59%是在一般查询样本上。gydF4y2Ba
  • 模棱两可的问题:这些示例查询没有包含足够的信息来进行有效的响应,或者没有提出可以从远程医生那里受益的问题。样本3和4是模棱两可问题的例子。我们发现SBERT正确预测的TF-IDF错误中有15%是对模棱两可问题的预测。gydF4y2Ba

许多假阴性对TF-IDF的失败没有明显的基于内容的理由。换句话说,TF-IDF的问题与假阴性在gydF4y2Ba表3gydF4y2Ba似乎是由于症状稀疏和拼写错误。基于变压器的模型传递知识和分析子词的能力使其更适合此类样本,这是任何投入生产的远程医疗分诊系统所面临的现实问题。gydF4y2Ba

表3。被TF-IDF错误预测的样本子集gydF4y2Ba一个gydF4y2Ba+支持向量机gydF4y2BabgydF4y2Ba但SBERT预测正确gydF4y2BacgydF4y2Ba。gydF4y2Ba
样本数量gydF4y2Ba 病人查询gydF4y2Ba 基础真值标签gydF4y2Ba
1gydF4y2Ba “关于布洛芬和covid - 19,我应该停止服用吗?这让我变得偏执。媒体一直在谈论这件事。我每天都用它来治颈痛和背痛。我不能吃止痛药,因为它们会让我恶心。有什么见解吗?”gydF4y2Ba 0gydF4y2Ba
2gydF4y2Ba “你好,我周一早上从荷兰来的。没有症状但一直在我的助手身边我们应该去检查一下吗?”gydF4y2Ba 0gydF4y2Ba
3.gydF4y2Ba “我发现很难在杂货店保持6英尺的精确度。今天,当我离开的时候,一个人(可能)在3英尺远的地方进入商店,他轻轻地咳嗽,我回家后洗了个澡。我是疑病症患者。可能covid-19 ?”gydF4y2Ba 0gydF4y2Ba
4gydF4y2Ba “你好,我叔叔被诊断出患有肝癌,已经是晚期了。在第一次化疗后,他因肺炎住进了医院。他又被诊断出肺癌了吗?治愈的机会有多大?你想让我们做什么治疗?”gydF4y2Ba 0gydF4y2Ba
5gydF4y2Ba “我相信我可能有新冠肺炎的症状。有可能在家里做测试来确认吗?现在我嗓子疼,昨晚19点半左右开始的。”gydF4y2Ba 1gydF4y2Ba
6gydF4y2Ba “嗨,我丈夫从今天早上开始就一直在呕吐,有严重的眩晕和失衡。我怀疑是食物中毒,但我想确认一下。我给他吃了治恶心的药,很有效。我还需要带他去看医生,看看有没有别的问题吗?”gydF4y2Ba 1gydF4y2Ba
7gydF4y2Ba “我住在法国。一个nd now 7days for home quarantine.i have no fever.but I have parangities in my thoart. last few years it\'s comes and goes. now I am worried because of covid-19. Does only parangities is only symptoms of this???” 1gydF4y2Ba

一个gydF4y2BaTF-IDF:词频率-逆文档频率。gydF4y2Ba

bgydF4y2BaSVM:支持向量机。gydF4y2Ba

cgydF4y2Ba来自变压器的句子双向编码器表示。gydF4y2Ba

局限性和未来工作gydF4y2Ba

不幸的是,我们只能通过患有COVID-19或相关肺炎症状的患者来看待远程医疗分诊。现实世界的系统需要理解各种各样的疾病和症状,以处理医生收到的各种各样的问题。例如,HealthTap提供超过147个专业的医疗建议,需要一个对不同医疗条件有更深入了解的系统。在未来,我们计划扩展我们的系统,以便它可以对跨越更多样化的医疗条件的患者查询进行分类。gydF4y2Ba

与任何其他自动推荐系统一样,这种自动分类系统的性能可能会受到用户查询质量的影响。例如,自动分诊系统可以对缺少信息的查询(例如,患者忘记提及相关症状或没有分享足够的细节)或写得不好的查询分配较低的严重性。这类似于Google搜索,其中搜索结果的质量取决于用户查询,用户满意度与查询的质量相关。像其他推荐系统(如Google Search或Amazon推荐)所显示的那样,这种自动分类仍然是有用的,并且在规模上显著改善纵向用户交互。另一个限制是二元分类系统,因为它忽略了潜在感知严重性的范围。未来的工作可以开发一个基于分数的系统,在连续的尺度上对严重程度进行评分。需要与多学科研究团队进行进一步的研究,以确定此类自动化解决方案的影响,并确定解决此类限制的潜在技术。gydF4y2Ba

在未来的工作中,我们将把这个系统从在线医疗问答论坛扩展到医患信息应用程序。我们正在积极与当地一家教学医院就医生被文本医疗查询淹没的问题进行对话。因此,本文中探索的NLP模型可能在未来的医患消息数据建模工作中被证明是有用的,包括诸如医院内部私人消息系统中患者查询重要性的相对排名等任务。然而,在医院信息系统环境中,分诊问题变得更具挑战性,因为患者自然会认为他们的医生熟悉他们的病史,在文本查询中提供狭隘和不完整的信息。为了处理这个问题,未来的系统必须能够使用多种模式(例如,电子病历、医学图像)以及过去的对话进行推断,这可能需要深度学习架构的转变,因为基于bert的模型仅限于处理512个令牌。gydF4y2Ba

结论gydF4y2Ba

远程医疗分诊是远程医疗领域的一项重要任务。根据严重程度对医疗问题进行排序,既优化了医生的时间,也允许对更多时间敏感问题的患者进行护理。我们表明,即使在数据量有限的情况下,迁移学习也可以用于对COVID-19和肺炎患者进行高精度的分类。具体来说,我们发现基于变压器的解决方案与基于词法和GloVe嵌入的解决方案在性能上存在统计学上的显著差异。我们还将所有模型错误分类为许多可解释的类别,突出了挑战我们基于nlp的分类系统的样本类型。具有复杂否定、时间性和歧义(以及其他语言现象)的查询显示在SBERT的错误中高度存在,为未来的远程医疗分类工作提供了具体的方向。gydF4y2Ba

数据可用性gydF4y2Ba

这项研究的数据和代码可以在GitHub上找到。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

  1. 刘建军,刘建军,刘建军。新型冠状病毒肺炎疫情期间远程医疗就诊人数的快速增长。中华临床医学杂志,2020;7(2):72-79。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  2. Nanda M, Sharma R.患者满意度和远程医疗体验综述:covid-19大流行期间和之后的虚拟解决方案。中华体检学杂志,2011;27(12):1325-1331。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Gmunder KN, Ruiz JW, Franceschi D, Suarez MM。2019冠状病毒病大流行期间远程医疗的激增加剧了与美国医疗保健差距相关的人口统计数据。[J] Telemed Telecare 2021 Jun 23:1357633X2110259。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  4. Healthtap审查。URL:gydF4y2Bahttps://www.telehealth.com/online-doctor/healthtap-review/gydF4y2Ba[2022-02-23]访问gydF4y2Ba
  5. Margolius D, Hennekes M, Yao J, einstein D, Gunzler D, Chehade N,等。在前线(电话):covid-19热线的结果。J Am Board Fam Med 2021 Feb 23;34(增刊):S95-S102。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  6. 退步还是前进?COVID-19大流行之外的美国医疗保健系统的虚拟医疗。中华数字医学杂志[j]; 2011;4(1):6 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. PersistLab / TelemedicalQueryClassification。URL:gydF4y2Bahttps://github.com/Persist-Lab/TelemedicalQueryClassificationgydF4y2Ba[2022-03-04]访问gydF4y2Ba
  8. 鞠志,Chakravorty S,何鑫,陈生,杨晓东,谢鹏。URL:gydF4y2Bahttps://github.com/UCSD-AI4H/COVID-DialoguegydF4y2Ba[2022-08-23]访问gydF4y2Ba
  9. 李建军,李建军。基于bert网络的句子嵌入。arXiv预印本发表于2019年8月27日。[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  10. Vaswani A, Shazeer N, Parmar N,注意力就是你所需要的。CoRR. arxiv预印本发布于2017年6月12日。[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  11. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。CoRR. arxiv预印本发布于2018年10月11日。[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  12. 李建军,李建军。基于自然语言推理的中文翻译。CoRR. arxiv预印本发布于2018年8月21日。[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  13. 吴志强,张建军,张建军。2010[2]/[2]/[3]临床文本的概念、断言和关系。医学信息学报,2011,01,18(5):552-556 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. Alsentzer E, Murphy J, Boag W.公开可用的临床BERT嵌入。2019年发表于:第二届临床自然语言处理研讨会;2019年6月7日;明尼阿波利斯。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  15. 赖利,李建军,李建军,李建军,等。数字分类:应对COVID-19大流行的人口健康管理新战略中国医学杂志,2020;8(4):100493 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 姚莉,梁凯,蔡晨,黄晨,付玲。基于深度学习的急诊电子病历分诊系统:回顾性队列研究。[J]互联网研究与发展[J]; 2011;23(12): 888 - 888 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 李建军,李建军,李建军,等。基于深度关注模型的急诊科患者分诊。CoRR. arxiv预印本发布于2018年3月28日。[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  18. 尼基赫亚。紧急严重性指数。版本4:实施手册。2012年版。Rockville, MD:医疗保健研究和质量机构;2012.gydF4y2Ba
  19. 司松,王锐,沃世杰,张宏,多东,王刚,等。学生需要更多的关注:基于bert的小数据关注模型及其在患者信息自动分诊中的应用。arXiv预印本发表于2020年6月22日。[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  20. 付刚,宋超,李军,马勇,陈鹏,王锐,等。社交媒体心理健康管理的远程监督:自杀风险分类系统开发研究[J]医学互联网研究与发展[J]; 2013;23(8):e26119 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. 王旭,陈生,李涛,李伟,周勇,郑杰,等。基于深度学习方法的微博抑郁风险预测:内容分析。中华医学杂志,2016;8(7):991 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. Klein AZ, Magge A, O connor K, Flores Amaro JI, Weissenbacher D, Gonzalez Hernandez G.使用Twitter跟踪covid-19:自然语言处理管道和探索性数据集。[J] .中国医学信息学报,2013;23(1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. 达尔·D.我是如何扰乱医疗保健行业的。URL:gydF4y2Bahttps://www.inc.com/magazine/201311/darren-dahl/how-healthtap-disrupted-the-health-care-industry.htmlgydF4y2Ba[2022-02-23]访问gydF4y2Ba
  24. 唐l, Fujimoto K, Amith MT, Cunningham R, Costantini RA, York F,等。YouTube上疫苗错误信息的“兔子洞”:网络暴露研究。[J] .中国医学信息学报,2011;23(1):562 - 562 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. Hansen ND, Mølbak K, Cox IJ, Lioma C.丹麦媒体报道与麻疹-腮腺炎-风疹(MMR)疫苗接种的关系:回顾性研究。公共卫生监测2019年1月23日;5(1):e9544 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. 李军,尹伟,金山,金东,金山,苏昌,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. Johnson A, Pollard TJ, Shen L, Lehman LWH, Feng M, Ghassemi M,等。MIMIC-III,一个免费访问的重症监护数据库。Sci Data 2016 5月24日;3:160035 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. 引用本文:Monselise M, Chang C, Ferreira G, Yang R R, Yang CC.公众对covid-19疫苗的关注话题和情绪:社交媒体趋势分析。[J]互联网研究与发展[J]; 2010;23(10): 563 - 567 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. Hossain T, Logan RI, Ugarte A, Matsubara Y, Young S, Singh S. covid-19社交媒体上的错误信息检测。在EMNLP 2020的第一届COVID-19 NLP研讨会(第二部分)上发表演讲;2020年12月;网上。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  30. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O,等。Scikit-learn: Python中的机器学习。中华医学杂志,2011;12(85):2825-2830 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  31. 李建军,李建军,李建军。信息检索技术的研究进展。生物工程学报,2010;16(1):100-103。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  32. 张建军,张建军。支持向量网络。Mach Learn 1995 Sep;20(3):273-297。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. 彭宁顿J, Socher R, Manning C. GloVe:基于全局向量的词表示。2014年自然语言处理(EMNLP)经验方法会议;2014年10月;多哈,卡塔尔。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  34. 张建军,张建军。电子病历文本分类方法的比较分析。2020年5月8日发表CoRR. arxiv预印本。[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  35. 杨忠,杨东,何晓东,何晓东。基于层次关注网络的文档分类。2016年发表于:计算语言学协会北美分会第15届年会:人类语言技术;2016年6月12日至17日;圣地亚哥,加州。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  36. 王他H,刘Z燕年代,Y,杨,李g .端到端模型来模拟在肺癌诊断:中医辨证模型开发和验证。中华医学杂志,2016;8(6):888 - 888 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. Q.关于相关比例或百分比之间差异的抽样误差的说明。心理医学学报;2007;12(2):153-157。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  38. van der Maaten L, Hinton G.利用t-SNE可视化数据。中华医学杂志2008;9:2579-2605 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  39. 张勇,Tino P, Leonardis A,唐凯。神经网络可解释性研究综述。计算机工程学报,2011,30(5):726-742。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  40. 不要再解释高风险决策的黑盒机器学习模型,而是使用可解释模型。物理学报,2019,5 (5):206-215 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
人工智能:gydF4y2Ba人工智能gydF4y2Ba
伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba
bi-LSTM:gydF4y2Ba双向长短期记忆gydF4y2Ba
款:gydF4y2Ba深度神经网络gydF4y2Ba
艾德:gydF4y2Ba急诊科gydF4y2Ba
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba
手套:gydF4y2Ba用于文本表示的全局向量gydF4y2Ba
汉:gydF4y2Ba分层注意网络gydF4y2Ba
资讯:gydF4y2Ba再gydF4y2Ba
LSTM:gydF4y2Ba长短期记忆gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
问答:gydF4y2Ba问答gydF4y2Ba
中移动:gydF4y2Ba研究问题gydF4y2Ba
SBERT:gydF4y2Ba句子双向编码器表示来自变压器gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba
TF-IDF:gydF4y2Ba术语频率-逆文档频率gydF4y2Ba
t-SNE:gydF4y2Bat分布随机邻居嵌入gydF4y2Ba


郝编辑;提交08.03.22;L Guo同行评议;对作者的评论28.05.22;收到修改版本17.06.22;接受11.08.22;发表02.09.22gydF4y2Ba

版权gydF4y2Ba

©Joseph Gatto, Parker Seegmiller, Garrett Johnston, Sarah Masud Preum。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 02.09.2022。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map