发表在gydF4y2Ba在gydF4y2Ba第八卷第三期(2022年):3月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/36119gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
从公共卫生部门的接触者追踪访谈表格识别COVID-19疫情:自然语言处理管道的开发gydF4y2Ba

从公共卫生部门的接触者追踪访谈表格识别COVID-19疫情:自然语言处理管道的开发gydF4y2Ba

从公共卫生部门的接触者追踪访谈表格识别COVID-19疫情:自然语言处理管道的开发gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

马吉德·阿夫沙尔,医学博士,硕士gydF4y2Ba

威斯康星大学麦迪逊分校gydF4y2Ba

高地大道1685号gydF4y2Ba

医疗基金会百年大楼5158号gydF4y2Ba

麦迪逊,威斯康星州,53705gydF4y2Ba

美国gydF4y2Ba

电话:1 3125459462gydF4y2Ba

传真:1 6082633104gydF4y2Ba

电子邮件:gydF4y2Bamajid.afshar@wisc.edugydF4y2Ba


相关的文章gydF4y2Ba这是更正后的版本。更正声明见:gydF4y2Bahttps://publichealth.www.mybigtv.com/2022/3/e37893gydF4y2Ba

背景:gydF4y2Ba在威斯康星州,COVID-19病例访谈表单包含自由文本字段,需要对这些字段进行挖掘,以确定潜在的疫情,以便制定有针对性的政策。我们开发了一种自动管道,将自由文本输入预训练的神经语言模型,以识别爆发疫情的企业和设施。gydF4y2Ba

摘要目的:gydF4y2Ba我们的目标是检查针对现有疫情和潜在的新群集的自然语言处理管道的准确性和召回率。gydF4y2Ba

方法:gydF4y2BaCOVID-19病例的数据提取自2020年7月1日至2021年6月30日期间戴恩县的威斯康星州电子疾病监测系统(WEDSS)。案例访谈表单中的特征被输入到来自变形金刚的双向编码器表示(BERT)模型中,该模型针对命名实体识别(NER)进行了微调。我们还开发了一种新的位置映射工具,为相关NER提供地址。精度和召回率是根据人工验证的爆发和WEDSS中的有效地址进行测量的。gydF4y2Ba

结果:gydF4y2Ba共有46,798例COVID-19病例,共有4,183,273个BERT令牌和15,051个唯一令牌。NER工具的召回率和精密度分别为0.67 (95% CI 0.66-0.68)和0.55 (95% CI 0.54-0.57)。对于定位绘图工具,召回率和精密度分别为0.93 (95% CI 0.92-0.95)和0.93 (95% CI 0.92-0.95)。在每个月的间隔内,NER工具识别出的潜在集群比WEDSS验证的要多。gydF4y2Ba

结论:gydF4y2Ba我们开发了一种新的工具管道,用于识别具有相关地址的现有疫情和新集群。我们的管道从全州数据库中获取数据,并可能用于协助当地卫生部门进行有针对性的干预。gydF4y2Ba

JMIR公共卫生监测2022;8(3):e36119gydF4y2Ba

doi: 10.2196/36119gydF4y2Ba

关键字gydF4y2Ba



截至2021年12月1日,威斯康星州确诊了884,701例SARS-CoV-2 (COVID-19)病例[gydF4y2Ba1gydF4y2Ba].在县一级,卫生部门使用COVID-19最初病例访谈(接触者追踪)表格中的自由文本字段,以确定发生病毒传播的潜在企业和设施以及个人感染的时间。在病例激增期间,公共卫生工作者面临着大量病例,并且在访谈表格中大量的自由文本信息使他们不堪重负。目前挖掘自由文本字段的方法是手动的和基于关键字的方法,没有快速和系统的方法来寻找集群热点进行有针对性的干预(例如,指导风险沟通、限制某些企业产能的政策、在设施和企业执行命令的合规性)。自然语言处理(NLP)和机器学习的方法已经在其他资源和人员配备紧张的环境中增强了COVID-19护理的工作流程[gydF4y2Ba2gydF4y2Ba-gydF4y2Ba4gydF4y2Ba],并可能被证明对卫生部门及其与接触者追踪器和监测系统相互作用的covid -19数据团队有用。gydF4y2Ba

命名实体识别(NER)是一种根据类对单词进行分类的NLP任务,例如,将一个标记识别为一个人、组织或位置。目前的系统利用了预先训练的神经语言模型的力量[gydF4y2Ba5gydF4y2Ba]在大量的数据语料库上进行训练,使NER任务的准确率达到90%以上。这些系统中有许多是公开可用的,并经过了微调,以“开箱即用”的应用程序运行,但仍然缺乏文献证明其在公共卫生暴发监测工作中的好处。先前在医疗保健领域的工作已经证明,在使用预训练的神经语言模型进行生物医学和临床实体规范化方面取得了成功[gydF4y2Ba6gydF4y2Ba]和建立可计算的疾病表型[gydF4y2Ba7gydF4y2Ba].公共卫生提供者和政策制定者利用自然语言处理方法进行数据分析的机会越来越多,非技术部门也越来越容易获得[gydF4y2Ba8gydF4y2Ba].gydF4y2Ba

我们的目标是开发一种NLP管道,使用预训练的NER神经语言模型,应用于威斯康星州电子疾病监测系统(WEDSS)记录的接触追踪访谈表单,以识别COVID-19大流行期间的潜在疫情。此外,我们试图设计一种新的位置映射工具,以从NER工具中识别给定命名实体的最可能地址。我们的研究目标是测量NLP管道中NER工具和位置映射工具的精度和召回率,以识别新的群集和现有爆发。我们的管道可以作为公共卫生信息学的基准,在COVID-19和其他大流行期间协助针对性政策的接触者追踪工作,并为州和地方卫生部门的工作人员提供大规模自动化。gydF4y2Ba


数据源gydF4y2Ba

WEDSS是一个安全的基于网络的系统,旨在促进传染病的报告、调查和监测,其中包括自2020年1月以来的COVID-19数据。WEDSS涵盖了整个威斯康星州,但这项研究是与麦迪逊和戴恩县公共卫生部门(PHMDC)合作进行的,后者是威斯康星州人口第二大县。我们从WEDSS中提取结构化和非结构化字段用于分析,包括来自县级数据的文本字段,其中包含来自病例访谈表格的相关接触者追踪字段。病例访谈表包含以下部分:(1)症状;(2)实验室和临床资料;(三)医疗条件;(4) COVID-19风险,包括旅行风险;(5)居住和职业设置;(六)潜在的病源;(七)隔离检疫措施; (8) facility intervention; (9) contact-tracing details; and (10) investigation notes. The text fields included addresses for businesses, facilities, and schools where the exposed individual may have entered or worked. The investigation note field was the longest text field with a median token count of 127 (IQR 67-233) and frequently included dates and names of places visited by the individual during their exposure period. For the pipeline development, 26 structured and unstructured text fields from WEDSS data extracts were concatenated into 1 document as input into our language model. There was 1 document per case, and model runs were at the case level. Postprocessing of the named entities included the removal of frequently occurring named entities (ie, “Wisconsin,” “GMT”) identified from 12 months of posttesting case interview forms and removal of duplicate named entities.

确诊病例是按照检测日期筛选的SARS-CoV-2 RNA分子或聚合酶链反应(PCR)检测结果为阳性的个体。根据美国疾病控制及预防中心(CDC)的个案定义[gydF4y2Ba9gydF4y2Ba],每次新感染COVID-19时(定义为之前感染COVID-19 90天或更长时间后检测呈阳性),都会对检测呈阳性的个体进行计数。因此,人们可能被统计了不止一次,但这种情况发生在不到1%的病例中。疑似病例是指实验室确证性检测方法(PCR或分子检测)未呈阳性,但符合以下条件之一的病例:(1)抗原检测方法呈阳性,(2)有COVID-19症状并已知接触过COVID-19(即与COVID-19确诊患者有密切接触),或(3)死亡证明上列有COVID-19或SARS-CoV-2。gydF4y2Ba

“群集”或“爆发”没有标准定义(这两个术语是可以互换的),疾病预防控制中心指出,爆发的定义与当地情况有关[gydF4y2Ba10gydF4y2Ba].因此,我们遵循了集群的PHMDC定义,即大约在同一时间与相同位置、组或事件相关联的2个或更多的情况[gydF4y2Ba11gydF4y2Ba],我们在7天的间隔内进行了检查。从今以后,我们将术语“集群”用于从NER工具识别的集群,将“爆发”用于PHMDC COVID-19数据团队按照标准操作程序识别和验证并记录在WEDSS中的集群。gydF4y2Ba

NER工具gydF4y2Ba

我们使用了预训练的来自变压器(BERT)基础模型的双向编码器表示[gydF4y2Ba12gydF4y2Ba],并根据计算自然语言学习会议(CoNLL)-2003 NER共享任务的数据集进行微调[gydF4y2Ba13gydF4y2Ba].这个英语数据集仍然是NER公共领域最大的语料集之一,包含1393个路透社新闻故事,总共有35,089个注释标签(测试集中有5648个),涵盖地点、组织、人员和其他类别。在Python transformer库中实现的预训练BERT模型维护在HuggingFace模型存储库[gydF4y2Ba14gydF4y2Ba-gydF4y2Ba16gydF4y2Ba].该模型报告了gydF4y2BaFgydF4y2Ba1gydF4y2Ba在CoNLL-2003测试数据集上,得分为91.3,召回率为91.9,精密度为90.7。在本文发表时,该模型代表了NER的最新水平[gydF4y2Ba15gydF4y2Ba].我们使用了“开箱即用”模型,并没有试图进一步微调模型或调整超参数。gydF4y2Ba

对WEDSS中的文本字段进行预处理,以删除没有意义的实体,例如联系人跟踪器的名称。命名实体的后处理包括删除频繁出现的术语(例如,“Wisconsin”,“GMT”),删除一个文档中重复的命名实体,删除模型偶尔标记的子词标记,以及删除不提供信息的模式。使用WordPiece标记器从每个文档构建最多512个标记的组,然后将它们输入模型。对于从提取的WEDSS数据中报告的具有相同命名实体的所有病例id,提供了平均预测概率作为将其识别为个人、组织、位置或其他类型的可能性的分数。gydF4y2Ba

通过模糊匹配确定了NER管道发现的与契约跟踪程序已经发现的爆发相关的实体。共享事件ID的NER工具中的已知爆发名称和实体也通过令牌排序比率进行匹配(要比较的每个字符串都按字母顺序进行标记和排序,然后相似性计算为相似性= [2 ×匹配字符数/字符总数]× 100)。令牌排序比为70或以上的实体和爆发被视为匹配。gydF4y2Ba

位置映射工具gydF4y2Ba

在开发NER管道期间,我们注意到许多命名实体包含在一个县内可能有多个位置的通用企业名称,例如“McDonald’s”或“Walmart”。因此,我们使用谷歌Places应用程序接口(API)在管道中开发了一个位置映射工具,以确定集群中靠近1个或多个case id的位置的可能匹配(gydF4y2Ba图1gydF4y2Ba).谷歌Places API要求搜索范围在最大半径为30公里的圆形区域内。示例搜索显示在gydF4y2Ba图2gydF4y2Ba.允许多次连续的搜索,尽管每次搜索都会增加API的成本,并且在一个大的搜索区域中充满API调用既不是最优的,也不是有效的。在威斯康辛州的36个主要城市中,超过三分之二的企业的通勤距离在0到24英里之间[gydF4y2Ba17gydF4y2Ba],因此映射算法的1个假设是,命名实体将在个人的家庭住所的通勤距离内。因此,从WEDSS中提取聚类中每个案例ID的个人纬度/经度坐标,并应用k-means无监督方法从谷歌Places中识别特定命名实体的案例ID聚类的质心坐标。gydF4y2Ba

‎gydF4y2Ba
图1。NER工具和位置映射工具的过程图。ETL:提取、转换和加载;NER:命名实体识别。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图2。截至2021年10月戴恩县COVID-19集群的位置映射示例。灰点显示可能或已知群集/爆发的事件案例。白点表示该星团的计算质心点。黑点显示提交给谷歌Places API的经过模糊处理的质心纬度/经度点,由较大的灰色圆圈显示。API:应用程序接口。gydF4y2Ba
查看此图gydF4y2Ba

位置映射器为命名实体提供了最可能的地址。如果不能进行精确匹配,则使用模糊字符串匹配对前3个结果进行过滤。在任何一种情况下,都会提供每个企业地址匹配的预测概率,然后将这些结果合并到最终报告中,以提供与已命名实体关联的地址,用于联系人跟踪。在威斯康辛州、明尼苏达州、爱荷华州、密歇根州和伊利诺伊州,映射到城市名称的命名实体被过滤掉了,因为它们不够具体,无法确定精确的位置。gydF4y2Ba

为了遵守谷歌Places API服务条款,我们从WEDSS数据中所有与covid -19相关的表单的字段中提取了组织和地点名称,以创建命名实体的内部数据库,用于在NER工具和谷歌Places API结果之间进行映射。因此,没有缓存谷歌数据。搜索算法只使用谷歌Places API来搜索与我们的内部命名实体数据库相匹配的命名实体。中显示管道和报告系统的完整流程图gydF4y2Ba图1gydF4y2Ba.gydF4y2Ba

流程图从WEDSS数据源开始,然后对威斯康星大学(UW)的内部健康保险可携带性和责任法案(HIPAA)安全计算环境进行提取、转换和加载(ETL)过程。案例报告访谈表单中的相关字段经过特征工程和WordPiece标记器,用于预训练的神经语言模型,以将命名实体分类为业务名称和设施。只有事件id为>2的集群中符合条件的命名实体才会被发送到位置映射工具。位置映射工具通过随机移动来识别集群的质心经度/纬度,以用于去识别目的。接下来,为转移的质心位置执行谷歌Places API,并针对来自NER工具的命名实体运行业务和设施名称的接近结果。如果在初始运行中没有返回地址,则处理扩展搜索半径。排名前三的结果显示在具有优先级分数的模糊匹配模式中,并共享在一份报告中,该报告被发送回威斯康星州卫生服务部(DHS)的基于web的报告系统。任何卫生部门的员工都可以通过基于网络的报告系统查看该报告。gydF4y2Ba

扩展定位算法gydF4y2Ba

一些提交给位置映射工具的命名实体在30公里搜索半径之外,但它们可能仍然与识别新集群有关。对于搜索半径之外的已命名实体,我们开发了一种扩展搜索算法,覆盖更大的搜索半径,并定位企业或组织名称,这些名称将映射到最初30公里搜索半径内未找到的给定已命名实体。该算法创建并利用了一个互锁等边三角形网格。搜索网格首先从原始纬度/经度质心点向外延伸,然后围绕该质心点顺时针旋转,创建互锁三角形(gydF4y2Ba图3gydF4y2Ba).网格中每个三角形的每个顶点都将成为API调用的一个新的纬度/经度起点。gydF4y2Ba

‎gydF4y2Ba
图3。扩展位置映射算法的框架。如果在初始搜索半径内没有找到指定的实体,则通过创建一系列互锁的等边三角形来创建从原始搜索向外扩展的额外搜索半径,其中三角形的每个顶点都是一个新的API起始搜索点。当找到至少1个匹配或达到最大距离时,扩展搜索将停止。API:应用程序接口。gydF4y2Ba
查看此图gydF4y2Ba

地球的曲率意味着这个网格不会沿着直线,所以我们使用haversine公式的实现来在网格中创建具有弯曲形状的多边形[gydF4y2Ba18gydF4y2Ba].通过向外绘制来创建多边形必然意味着网格的每次旋转的结束可能不是旋转的开始,因此我们将每个API调用的搜索半径设置为重叠,以确保搜索的总覆盖范围,并考虑到旋转的起点和终点之间的距离误差。当发生以下情况之一时,扩展搜索停止:(1)API调用至少找到一个搜索结果,或(2)网格到达距离原始质心纬度/经度点250公里的最大范围。gydF4y2Ba

NLP管道中NER工具的评估gydF4y2Ba

2020年7月1日至2021年6月30日期间戴恩县所有确诊和可能的个人病例都作为回顾性验证数据集。根据已确认的爆发设施/企业名称或与WEDSS数据库中记录的病例相关联的有效企业地址对NER工具进行了评估。NER工具生成的命名实体在1周内符合集群的标准(命名实体的>2个实例),并且与WEDSS中确认的爆发相匹配,则标记为真阳性(TPs)。此外,在一周内具有>2个实例且在WEDSS中具有有效业务地址的命名实体也包含在TP组中,并表示新的集群。将已确认和未确认的病毒爆发(可能是新的群集)都包括到TP组的理由是,它们符合PHMDC对群集的定义,并且包含值得进行调查(未验证的病毒爆发)或避免重复调查(已验证的病毒爆发)的有效地址。在WEDSS中没有地址匹配的NER工具生成的命名实体被标记为误报(FPs)。假阴性(FNs)定义为WEDSS数据集中没有来自NER工具的相应命名实体的已确认疫情。评价指标报告为精密度= [TP/(TP + FP)]和召回率= [TP/(TP + FN)]。这些指标也分别被称为阳性预测值和敏感性。在为期12个月的研究期间,对NER工具进行了评估。 The precision and recall across the 12 months were reported to provide the largest sample size for reporting metrics. Monthly metrics were also reported to represent seasonal variation and various public health policies that affected case rates and prevalence, which would also affect precision [19gydF4y2Ba].gydF4y2Ba

NLP管道中位置映射工具的评估gydF4y2Ba

对于位置映射算法,报告了一组单独的精度和召回措施。TPs被定义为WEDDS地址内部数据库中的业务地址,映射到NER工具生成的命名实体的谷歌Places API地址。FP是没有映射到WEDSS地址数据库的谷歌Places API地址。FN被定义为来自NER工具的命名实体,它映射到我们的内部业务名称数据库,但当可以找到合理的API结果时,却不返回谷歌Places API地址。由于成本和计算资源的限制,对位置映射算法的验证只进行了1个月(2020年10月)。对于NER和位置映射验证,精度和召回度量都是使用引导的95% ci生成的。gydF4y2Ba

为卫生部COVID-19数据小组生成报告gydF4y2Ba

该管道的目标是根据在WEDSS中收集的任何时间间隔的接触者跟踪表单生成摘要报告,并确定潜在的群集。示例报告显示在gydF4y2Ba表1gydF4y2Ba作为每周报告。报告中的每个聚类还包括相关的病例id,以指导COVID-19数据团队以及该聚类的预测概率。COVID-19数据小组已经确定或正在调查的已知疫情也从WEDSS中提取,并纳入报告,以防止有针对性的政策工作冗余。位置映射工具还提供了每个命名实体最可能的地址,以及预测的概率。gydF4y2Ba

表1。县卫生部门的接触者追踪者示例摘要报告gydF4y2Ba一个gydF4y2Ba.gydF4y2Ba
命名实体gydF4y2BabgydF4y2Ba 类型gydF4y2Ba 频率gydF4y2BacgydF4y2Ba 预测gydF4y2Ba
概率1gydF4y2BadgydF4y2Ba
例idgydF4y2BaegydF4y2Ba 爆发的实体gydF4y2BafgydF4y2Ba 地址gydF4y2BaggydF4y2Ba 预测gydF4y2Ba
概率2gydF4y2BahgydF4y2Ba
太阳大草原gydF4y2Ba 的地方gydF4y2Ba 12gydF4y2Ba 0.67gydF4y2Ba 12345年,12346年gydF4y2Ba 太阳大草原gydF4y2Ba - - - - - -gydF4y2Ba我gydF4y2Ba 100.0gydF4y2Ba
当地的零售商gydF4y2Ba 组织gydF4y2Ba 7gydF4y2Ba 0.54gydF4y2Ba 12347, 12349, 22221gydF4y2Ba 零售商001gydF4y2Ba 钥匙和东西,21科学博士,麦迪逊,威斯康星州gydF4y2Ba 95.2gydF4y2Ba
仓储式商店gydF4y2Ba 组织gydF4y2Ba 3.gydF4y2Ba 0.45gydF4y2Ba 13347, 18349, 22221gydF4y2Ba Boxstore 08年gydF4y2Ba 电路城,1561洛基路,维罗纳,WIgydF4y2Ba 87.1gydF4y2Ba
快餐的地方gydF4y2Ba 组织gydF4y2Ba 2gydF4y2Ba 0.71gydF4y2Ba 17247, 18149, 29121gydF4y2Ba - - - - - -gydF4y2Ba 汉堡时间:威斯康星州麦迪逊州街1234号gydF4y2Ba 88.2gydF4y2Ba

一个gydF4y2Ba该示例基于虚构的数据,由于隐私限制,并不是来自原始的威斯康星电子疾病监测系统(WEDDS)数据。gydF4y2Ba

bgydF4y2Ba命名实体:命名实体识别(NER)管道的结果。命名实体只有在具有与之关联的>2病例id时才符合集群爆发的条件。gydF4y2Ba

cgydF4y2Ba频率:报告期间可用病例id中唯一提到的NER。gydF4y2Ba

dgydF4y2Ba预测概率1:分类器对命名实体类型的平均预测概率。gydF4y2Ba

egydF4y2Ba案例id:联系人跟踪器用于查找的唯一案例id。gydF4y2Ba

fgydF4y2Ba爆发实体:已知爆发暴露。gydF4y2Ba

ggydF4y2Ba地址:使用来自谷歌的k-means聚类地址的经度/纬度匹配命名实体。gydF4y2Ba

hgydF4y2Ba预测概率2:位置映射工具预测的概率。gydF4y2Ba

我gydF4y2BaNER和位置映射工具没有结果。gydF4y2Ba

威斯康星大学的机构审查委员会批准了这项研究,威斯康星国土安全部和威斯康星大学之间建立了数据使用协议。没有华盛顿大学和国土安全部的明确许可,没有数据在批准的华盛顿大学研究环境及其批准的用户之外共享。该管道目前可在威斯康星州的公共卫生报告系统中使用,源代码是开源的,可供公众使用[gydF4y2Ba20.gydF4y2Ba].gydF4y2Ba


COVID-19病例与非病例的特征gydF4y2Ba

在46,902例确诊和疑似病例中,只有1595例(3.40%)为疑似病例,其余为COVID-19确诊病例。在Dane县,非西班牙裔白人占确诊和疑似病例30,423例(64.87%),中位年龄为30岁(IQR 20-47);看到gydF4y2Ba表2gydF4y2Ba.最常报告的职业是学生,但在我们的WEDDS提取中,职业变量的缺失率高达75%以上。中显示了WEDSS数据集的其他人口统计数据gydF4y2Ba表2gydF4y2Ba.戴恩县有病例和无病例的7天移动平均值显示在gydF4y2Ba图4gydF4y2Ba并划定了2020年1月至2021年9月期间的口罩强制政策。灰色阴影区域表示12个月的验证期,在此期间我们分析了本研究的NER工具。gydF4y2Ba

表2。2020年7月1日至2021年6月30日威斯康星州戴恩县COVID-19病例和非病例的特征。gydF4y2Ba
个人特征gydF4y2Ba 阴性病例(N=323,424例)gydF4y2Ba 疑似/确诊病例(N=46,902)gydF4y2Ba 总(N = 370326)gydF4y2Ba
年龄(年),中位数(IQR)gydF4y2Ba 32 (20-51)gydF4y2Ba 30日(20-47)gydF4y2Ba 31日(20-51)gydF4y2Ba
性别,n (%)gydF4y2Ba

男性gydF4y2Ba 152852 (47.26)gydF4y2Ba 23506 (50.12)gydF4y2Ba 176358 (47.62)gydF4y2Ba

女gydF4y2Ba 165482 (51.17)gydF4y2Ba 23314 (49.71)gydF4y2Ba 188796 (50.98)gydF4y2Ba

未知的gydF4y2Ba 5090 (1.57)gydF4y2Ba 82 (0.17)gydF4y2Ba 5172 (1.40)gydF4y2Ba
种族/民族,n (%)gydF4y2Ba

非西班牙裔白人gydF4y2Ba 199629 (61.72)gydF4y2Ba 30423 (64.87)gydF4y2Ba 230052 (62.12)gydF4y2Ba

非西班牙裔黑人gydF4y2Ba 14302 (4.42)gydF4y2Ba 3266 (6.96)gydF4y2Ba 17568 (4.74)gydF4y2Ba

拉美裔gydF4y2Ba 23878 (7.38)gydF4y2Ba 6662 (14.20)gydF4y2Ba 30540 (8.25)gydF4y2Ba

其他gydF4y2Ba 85615 (26.47)gydF4y2Ba 6551 (13.97)gydF4y2Ba 92166 (24.89)gydF4y2Ba
职业,n (%)gydF4y2Ba一个gydF4y2Ba

没有记录gydF4y2Ba 311809 (96.41)gydF4y2Ba 37083 (79.06)gydF4y2Ba 348892 (94.21)gydF4y2Ba

Nonuniversity学生gydF4y2Ba 3099 (0.96)gydF4y2Ba 2391 (5.10)gydF4y2Ba 5490 (1.48)gydF4y2Ba

大学的学生gydF4y2Ba 1161 (0.36)gydF4y2Ba 903 (1.93)gydF4y2Ba 2064 (0.56)gydF4y2Ba

退休gydF4y2Ba 573 (0.18)gydF4y2Ba 468 (1.00)gydF4y2Ba 1041 (0.28)gydF4y2Ba

失业gydF4y2Ba 502 (0.16)gydF4y2Ba 429 (0.91)gydF4y2Ba 931 (0.25)gydF4y2Ba

其他gydF4y2Ba 6280 (1.94)gydF4y2Ba 5628 (12.00)gydF4y2Ba 11908 (3.22)gydF4y2Ba
城市,n (%)gydF4y2Ba

麦迪逊gydF4y2Ba 159983 (49.47)gydF4y2Ba 23949 (51.06)gydF4y2Ba 183932 (49.67)gydF4y2Ba

太阳大草原gydF4y2Ba 22667 (7.01)gydF4y2Ba 3722 (7.94)gydF4y2Ba 26389 (7.13)gydF4y2Ba

菲奇堡gydF4y2Ba 16104 (4.98)gydF4y2Ba 2983 (6.36)gydF4y2Ba 19087 (5.15)gydF4y2Ba

米德尔顿gydF4y2Ba 15991 (4.94)gydF4y2Ba 1838 (3.92)gydF4y2Ba 17829 (4.81)gydF4y2Ba

维罗纳gydF4y2Ba 15224 (4.71)gydF4y2Ba 1745 (3.72)gydF4y2Ba 16969 (4.58)gydF4y2Ba

其他gydF4y2Ba 93455 (28.90)gydF4y2Ba 12665 (27.00)gydF4y2Ba 106120 (28.66)gydF4y2Ba

一个gydF4y2Ba可能有多种反应。gydF4y2Ba

‎gydF4y2Ba
图4。2020年1月1日至2021年10月31日,威斯康星州戴恩县COVID-19病例和非病例的时间变化趋势。数据从WEDSS中检索。类别折线图按天汇总,并在2020年1月至2021年10月的移动7天窗口中平均。美国疾病控制与预防中心于2020年3月11日宣布COVID - 19为全球大流行。麦迪逊和戴恩县公共卫生部的初步口罩规定(第1号命令)于2020年5月13日生效,并在2021年6月2日之前进行了更新和修改。命令2(蒙面紧急命令)于2021年8月19日生效。垂直虚线是卫生政策变化的界限。灰色阴影区域表示管道分析的验证期。疾病控制和预防中心; WEDSS: Wisconsin Electronic Disease Surveillance System.
查看此图gydF4y2Ba

验证数据集包括在联系访谈表单的自由文本字段中的4,183,273个总BERT令牌和15,051个唯一BERT令牌。最长的字段是“InvestigationNotes”,中位数token计数为126.5 (IQR 60.7 -232.5)。gydF4y2Ba

在12个月的验证中,召回率为0.67 (95% CI 0.66-0.68),精密度为0.55 (95% CI 0.54-0.57)。值得注意的是,随着COVID-19的激增和减弱,精确度和召回分数逐月变化。最好的表现是在病例量高的高峰月份。在2020年10月至2021年1月期间,病例量分别为3300至7100例,召回率分别为0.69至0.72例。然而,在病例较少的月份,如2021年5月至2021年6月(病例数在149至410之间),召回率分别降至0.33和0.29。为了精确起见,也观察到了类似的趋势,峰值为0.64,低谷为0.30 (gydF4y2Ba表3gydF4y2Ba).在所有月份中,NER工具识别出的潜在疫情比WEDSS确认的要多。gydF4y2Ba

在1个月的位置映射工具验证期内(2020年10月)gydF4y2BaFgydF4y2Ba1gydF4y2Ba评分为0.93,召回率为0.93 (95% CI 0.92-0.95),精密度为0.93 (95% CI 0.92-0.95)。有355个命名实体没有返回Dane County搜索半径的结果,但扩展位置算法将其中202个(56.9%)命名实体的地址匹配到我们的内部命名实体数据库,以寻找潜在的新集群。gydF4y2Ba

表3。NER的结果gydF4y2Ba一个gydF4y2Ba2020年7月1日至2021年6月30日期间,威斯康星州戴恩县的工具按月分类。gydF4y2Ba
月gydF4y2Ba 情况下,NgydF4y2Ba 确认爆发,n (%)gydF4y2Ba 通过词法操作(APOLLO)自动公开爆发本地化识别的爆发总数,n (%)gydF4y2Ba 精度(95%置信区间)gydF4y2Ba 召回率(95%置信区间)gydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba
2020年7月gydF4y2Ba 508gydF4y2Ba 137 (27.0)gydF4y2Ba 251 (49.4)gydF4y2Ba 0.51 (0.40 - -0.62)gydF4y2Ba 0.28 (0.23 - -0.34)gydF4y2Ba 0.37gydF4y2Ba
2020年8月gydF4y2Ba 783gydF4y2Ba 133 (17.0)gydF4y2Ba 350 (44.7)gydF4y2Ba 0.34 (0.25 - -0.44)gydF4y2Ba 0.23 (0.17 - -0.29)gydF4y2Ba 0.27gydF4y2Ba
2020年9月gydF4y2Ba 2693gydF4y2Ba 256 (9.5)gydF4y2Ba 889 (33.0)gydF4y2Ba 0.51 (0.46 - -0.56)gydF4y2Ba 0.56 (0.51 - -0.59)gydF4y2Ba 0.53gydF4y2Ba
2020年10月gydF4y2Ba 4619gydF4y2Ba 459 (9.9)gydF4y2Ba 1267 (27.4)gydF4y2Ba 0.64 (0.60 - -0.67)gydF4y2Ba 0.69 (0.67 - -0.71)gydF4y2Ba 0.66gydF4y2Ba
2020年11月gydF4y2Ba 7129gydF4y2Ba 564 (7.9)gydF4y2Ba 1906 (26.7)gydF4y2Ba 0.62 (0.59 - -0.65)gydF4y2Ba 0.70 (0.68 - -0.72)gydF4y2Ba 0.66gydF4y2Ba
2020年12月gydF4y2Ba 3772gydF4y2Ba 308 (8.2)gydF4y2Ba 1078 (28.6)gydF4y2Ba 0.58 (0.54 - -0.62)gydF4y2Ba 0.70 (0.67 - -0.73)gydF4y2Ba 0.64gydF4y2Ba
2021年1月gydF4y2Ba 3361gydF4y2Ba 241 (7.2)gydF4y2Ba 1062 (31.6)gydF4y2Ba 0.53 (0.49 - -0.58)gydF4y2Ba 0.72 (0.69 - -0.75)gydF4y2Ba 0.61gydF4y2Ba
2021年2月gydF4y2Ba 2339gydF4y2Ba 157 (6.7)gydF4y2Ba 899 (38.4)gydF4y2Ba 0.42 (0.36 - -0.47)gydF4y2Ba 0.56 (0.51 - -0.61)gydF4y2Ba 0.48gydF4y2Ba
2021年3月gydF4y2Ba 1513gydF4y2Ba 134 (8.9)gydF4y2Ba 647 (42.8)gydF4y2Ba 0.37 (0.31 - -0.43)gydF4y2Ba 0.52 (0.46 - -0.57)gydF4y2Ba 0.43gydF4y2Ba
2021年4月gydF4y2Ba 1460gydF4y2Ba 161 (11.0)gydF4y2Ba 639 (43.8)gydF4y2Ba 0.46 (0.39 - -0.53)gydF4y2Ba 0.50 (0.45 - -0.55)gydF4y2Ba 0.48gydF4y2Ba
2021年5月gydF4y2Ba 410gydF4y2Ba 81 (19.8)gydF4y2Ba 233 (56.8)gydF4y2Ba 0.41 (0.28 - -0.52)gydF4y2Ba 0.33 (0.23 - -0.4)gydF4y2Ba 0.36gydF4y2Ba
2021年6月gydF4y2Ba 149gydF4y2Ba 21日(14.1)gydF4y2Ba 88 (59.1)gydF4y2Ba 0.30 (0.12 - -0.52)gydF4y2Ba 0.29 (0.11 - -0.44)gydF4y2Ba 0.30gydF4y2Ba

一个gydF4y2BaNER:命名实体识别。gydF4y2Ba


主要研究结果gydF4y2Ba

我们开发了一种新的工具管道,能够提取大量监测数据并总结报告,以突出现有和潜在的疫情及其相关地址。摘要报告以每周为间隔,以县为单位,以系统的方法确定威斯康星州任何地区的疫情。我们以麦迪逊和戴恩县为重点,展示了我们的管道的性能,并表明我们的管道在高病例量时期表现最佳,此时可能最需要使用自动化方法进行接触追踪工作。此外,我们的管道有潜力识别传统方法无法识别的新型群集爆发。最终,对于需要构建关键字和手动扫描自由文本报告以查找潜在爆发位置的数据团队来说,我们的工具可能会克服现有的限制。gydF4y2Ba

在COVID-19大流行期间,已经出现了利用人工智能方法的工具,用于公共卫生应用[gydF4y2Ba21gydF4y2Ba-gydF4y2Ba23gydF4y2Ba],并且随着更多工具的开发或可用,利用自然语言处理根据接触追踪数据进行有针对性的政策努力仍然是一个感兴趣的领域[gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba].其他研究表明,使用非传统和非常规的公共卫生数据源(如推特提要),预先训练的神经语言模型对COVID-19监测的好处。gydF4y2Ba26gydF4y2Ba].利用与公共卫生机构的已知联系方式开发了使用更传统方法的信息学工具[gydF4y2Ba25gydF4y2Ba,gydF4y2Ba27gydF4y2Ba];然而,这项研究并没有发现潜在的或新的疫情。我们展示了一种“开箱即用”的预训练神经语言模型,用于NER自动扫描COVID-19病例的接触访谈表格,并为接触追踪器提供现有和潜在疫情集群的简化和有组织的总结报告。我们的工具管道遵循CDC实施和使用数字工具的指南,以加强传统的接触追踪工作[gydF4y2Ba24gydF4y2Ba].随着PHMDC和威斯康辛州继续采用传统方法调查阳性病例并将其报告到其监测系统中,我们的工具可能有助于在大量病例期间集中和指导数据团队到集群。我们还分享了一种新颖的定位地图技术,该技术使用来自州监控系统的原始数据,并提供地址,以进一步减少从大型数据库中挖掘的工作量。gydF4y2Ba

这项工作的动机始于PHMDC的COVID-19数据团队联系华盛顿大学的数据科学团队,以帮助解决在联系访谈表单中挖掘许多自由文本字段时遇到的困难。与该地区其他州和县一样,戴恩县的召回率在秋冬季急剧上升,我们的工具显示,在这些时期召回率超过70%。尽管由于FPs的原因,精度值较低,但与手动扫描自由文本字段或为单个报告构建定制的基于规则的关键字算法相比,在我们的摘要报告中检查FPs对数据团队来说可能仍然不那么繁重。更重要的决定因素是通过可接受的召回来减少可能错过的爆发的fn。在病例量低于数百例的几个月里,我们工具的准确性会下降,但我们预计在这些时期,该工具的使用率可能会降低,因为工作人员有更多时间通过现有的标准操作程序来识别和调查疫情。目前,该报告的一个版本已被纳入全州范围的报告系统,用于在威斯康星州的任何县进行beta测试和应用(gydF4y2Ba图1gydF4y2Ba).首先,在华盛顿大学的hipaa安全计算环境中,通过ETL过程将来自WEDSS的数据输入NLP管道。结果被开发为平面文件输出,并在第二个ETL过程中返回到州卫生服务部卫生信息学办公室,进入全州报告系统,供县卫生部门的最终用户通过网络界面访问。我们的下一步是通过试点验证测试来检查我们的PHMDC卫生部门数据团队的接受度,并监测采用情况,类似于其他人所描述的[gydF4y2Ba28gydF4y2Ba].我们已经将我们的管道整合到现有的全州报告系统中。gydF4y2Ba

虽然像谷歌这样的私营企业在地理测绘技术领域处于领先地位,但我们利用他们的定位软件来支持我们独特的位置测绘工具。我们首先从我们的WEDSS数据库中建立了我们自己的所有潜在企业名称和组织的内部数据库,以遵守许可协议。这允许我们执行API调用并识别任何匹配,而不存储谷歌的任何数据,也不违反任何使用该工具的许可协议。我们注意到一些NER地点是连锁餐馆和商店,因此使用无监督的方法来识别集群中的质心经度/纬度,使我们能够预测从NER工具中识别出的业务最有可能的位置。我们在这部分系统中的准确性和召回率得分很高,可能会减少工作人员识别准确地址所需的时间。接触追踪访谈表格是在威斯康辛州的县级收集的,并记录到中央WEDSS数据库中,因此我们预计我们的工具可能会在全州范围内扩展,以捕捉更多的农村地区或覆盖跨越多个县的通勤距离。gydF4y2Ba

限制gydF4y2Ba

在我们的工作中出现了一些限制。首先,我们运行NER工具作为一个“开箱即用”的解决方案,没有任何进一步的调优。用于微调BERT-base-NER模型的训练数据集来自特定的时间跨度,可能不能很好地推广到我们的领域。然而,由于时间和资源的限制,我们不能投资于构建内部注释的数据集以进行微调。我们期望模型的性能可以通过领域适应继续提高,但是我们选择使用当前通用的最先进的工具来开发我们的管道。其次,我们假设集群家庭地址质心周围的半径从我们的位置映射工具中捕获了所有相关的位置。这还不包括从州外或离家更远的地方旅行的人。我们尝试用半径为250公里的扩展映射算法来缓解这个问题。最后,我们的工具可以灵活地处理跨越不同时间间隔的联系访谈表单,但ETL数据从威斯康星州报告系统传输到PHMDC政策制定者的延迟阻碍了该工具的实时警报系统。我们目前的系统可以每24-48小时刷新一次,从病例报告表单输入WEDSS开始,这对于在高负载期间积压病例的数据分析师来说仍然很有用。 Our data use agreement prevented the real-time, on-site application of the pipeline by PHMDC staff, but this remains a future direction in data access and software development for our tool. Lastly, future work will incorporate results on the potentially new clusters to verify their relevance for investigation and confirm an outbreak. Prospective evaluation of the tool was not possible, given existing staff demands from the pandemic.

结论gydF4y2Ba

我们的自动化管道从全州数据库中获取数据,并可能在各个县部署,以协助威斯康星州的其他卫生部门在疫情爆发期间制定有针对性的政策。该工具是开源的,是一种可互操作的资源,也可以被邻国使用。此外,我们的管道也可以应用于其他需要分析自由文本数据的传染病和监测工作。gydF4y2Ba

致谢gydF4y2Ba

我们要感谢威斯康辛大学(UW)和卫生服务部(DHS)的数据协调员,特别是威斯康辛大学社会科学计算合作社的Dan Bongert,以及威斯康辛州公共卫生部门卫生信息学办公室的Jesus S Bacos和Jerry O Lipsey。我们还要感谢美国家庭数据科学研究所促成了数据使用协议,以及华盛顿大学的社会科学计算合作组织托管了用于分析的数据。gydF4y2Ba

本出版物中报道的研究得到了美国国立卫生研究院国家药物滥用研究所的支持,奖项为R01-DA051464 (MA), R01-DA051464- s1 (MA), K23-AA024503 (MA), R01-LM010090 (DD), R01-LM012973 (DD), R01-GM123193 (MMC), R01-HL157262 (MMC)和R01-DK126933-A1 (MMC)。gydF4y2Ba

利益冲突gydF4y2Ba

MMC拥有一项住院患者风险分层算法专利(ARCD P0535US.P2),并获得了EarlySense (Tel Aviv, Israel)的研究支持。其余作者没有利益冲突。gydF4y2Ba

  1. COVID-19:威斯康星州病例。按确诊日期划分的COVID-19累计确诊病例。URL:gydF4y2Bahttps://www.dhs.wisconsin.gov/covid-19/cases.htmgydF4y2Ba[2021-12-16]访问gydF4y2Ba
  2. 张志刚,张志刚,张志刚,张志刚,等。自然语言处理和机器学习用于通过胸部CT成像检测呼吸道疾病和跟踪美国COVID-19大流行。Radiol心肺影像2021 Feb 01;3(1):e200596 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Izquierdo JL, Ancochea J, Savana COVID-19研究小组,Soriano JB。COVID-19患者重症监护病房入院的临床特征和预后因素:使用机器学习和自然语言处理的回顾性研究J Med Internet Res 2020年10月28日;22(10):e21801 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Khaitan S, Shukla P, Mitra A, Poongodi TR.使用机器学习进行数据可视化以有效跟踪COVID-19大流行。马赫学习电子健康系统2020:417-441。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  5. Lewis P, Ott M, Du JV, Stoyanov V.生物医学和临床任务的预训练语言模型:理解和扩展最先进的技术。Proc第三临床NLP研讨会2020:146-157。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  6. 李峰,金勇,刘伟,蔡鹏,于慧。基于BERT模型的大规模电子病历笔记的优化研究。JMIR Med Inform 2019年9月12日;7(3):e14830 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 谢震,陶晨,张晓明,张晓明。基于嵌入式的疾病预测方法研究。NPJ数字医学2021年5月20日;4(1):86 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. Feroz A, Perveen S, Aftab W.移动健康应用对改善低收入和中等收入国家产前和产后护理的作用:系统综述。BMC Health Serv Res 2017 11月07日;17(1):704 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 2019冠状病毒病(COVID-19): 2021病例定义。URL:gydF4y2Bahttps://ndc.services.cdc.gov/case-definitions/coronavirus-disease-2019-2021/gydF4y2Ba[2021-09-15]访问gydF4y2Ba
  10. COVID-19:疫情期间的调查管理。URL:gydF4y2Bahttps://www.cdc.gov/coronavirus/2019-ncov/php/contact-tracing/contact-tracing-plan/outbreaks.htmlgydF4y2Ba[2022-03-02]访问gydF4y2Ba
  11. 理解“集群”。URL:gydF4y2Bahttps://publichealthmdc.com/blog/understanding-clustersgydF4y2Ba[2021-09-09]访问gydF4y2Ba
  12. 戴夫林,张敏,李K, Toutanova K.伯特:深度双向转换器的语言理解预训练。Proc NAACL-HLT 2019:4171-4186。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  13. Sang ETK, De Meulder F.介绍CoNLL-2003共享任务:独立于语言的命名实体识别。2003年发表于:HLT-NAACL 2003第七届自然语言学习会议;2003年5月31日;加拿大埃德蒙顿,第142-147页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  14. 使用Python进行数据分析的实用机器学习。华盛顿:学术出版社;2020.gydF4y2Ba
  15. dslim / bert-base-NER。URL:gydF4y2Bahttps://huggingface.co/dslim/bert-base-NER/tree/maingydF4y2Ba[2021-08-15]访问gydF4y2Ba
  16. Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A,等。HuggingFace的变形金刚:最先进的自然语言处理。arXiv预印本2019:1-8。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  17. 美国人口调查局。OnTheMap。URL:gydF4y2Bahttps://onthemap.ces.census.govgydF4y2Ba[2021-03-03]访问gydF4y2Ba
  18. 威廉姆斯E.航空公式v1.47。大圆导航公式。URL:gydF4y2Bahttps://www.edwilliams.org/avform147.htmgydF4y2Ba[2021-06-14]访问gydF4y2Ba
  19. 沃克·N,布莱斯·J,布莱克·RE.为政策制定解读卫生统计数据:头条背后的故事。《柳叶刀》2007年3月;369(9565):956-963。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. APOLLO(项目ID: 10061)。URL:gydF4y2Bahttps://git.doit.wisc.edu/smph-public/dom/uw-icu-data-science-lab-public/APOLLOgydF4y2Ba[2022-03-02]访问gydF4y2Ba
  21. Aspelund G.冰岛的COVID-19:人工智能在公共卫生中的作用日益增强。艺术Int外科2021;1:11-17。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. 人工智能对抗COVID-19:当前研究的元分析。Stud大数据2020:165-176。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. Venkataraman N, Poon BC, Siau C.在一家急症医院创新使用卫生信息学来加强COVID-19大流行期间的接触者追踪。美国医学通报协会2020年12月09日;27(12):1964-1967 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. Liu Y, Whitfield C, Zhang T, Hauser A, Reynolds T, Anwar M.利用自然语言处理和机器学习通过社交媒体的镜头监测COVID-19大流行健康信息科学系统2021年12月25日;9(1):25 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 麦基TK,李J公司V, Purushothaman Nali M, N,国王Bardier C, et al。大数据、自然语言处理和深度学习用于检测和描述非法COVID-19产品销售:在Twitter和Instagram上进行信息监测研究。JMIR公共卫生监测2020年8月25日;6(3):e20794 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Klein AZ, Magge A, O'Connor K, Flores Amaro JI, Weissenbacher D, Gonzalez Hernandez G.使用Twitter跟踪COVID-19:自然语言处理管道和探索性数据集。J Med Internet Res 2021 1月22日;23(1):e25314 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. 实施和使用数字工具加强传统接触者追踪指南:卫生部门COVID-19接触者追踪。URL:gydF4y2Bahttps://www.cdc.gov/coronavirus/2019-ncov/downloads/php/guidelines-digital-tools-contact-tracing.pdfgydF4y2Ba[2021-11-18]访问gydF4y2Ba
  28. Gunasekeran DV, Tham Y, Ting DSW, Tan GSW, Wong TY. 2019冠状病毒病期间的数字健康:从眼科护理新模式运营中获得的经验教训。《柳叶刀》数字健康2021年2月;3(2):e124-e134。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
API:gydF4y2Ba应用程序接口gydF4y2Ba
伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba
疾病预防控制中心:gydF4y2Ba疾病控制和预防中心gydF4y2Ba
CoNLL:gydF4y2Ba计算自然语言学习会议gydF4y2Ba
国土安全部:gydF4y2Ba卫生服务部gydF4y2Ba
ETL:gydF4y2Ba提取、转换和加载gydF4y2Ba
尼珥:gydF4y2Ba命名实体识别gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
PHMDC:gydF4y2Ba麦迪逊戴恩县公共卫生部门gydF4y2Ba
FN:gydF4y2Ba假阴性gydF4y2Ba
外交政策:gydF4y2Ba假阳性gydF4y2Ba
TP:gydF4y2Ba真阳性gydF4y2Ba
华盛顿大学:gydF4y2Ba威斯康星大学gydF4y2Ba
结合:gydF4y2Ba威斯康星州电子疾病监测系统gydF4y2Ba


T·桑切斯编辑;提交02.01.22;同行评审:K Wrona, M Elbattah, D Gunasekeran;对作者20.01.22的评论;修订版收到03.02.22;接受08.02.22;发表08.03.22gydF4y2Ba

版权gydF4y2Ba

©John Caskey, Iain L McConnell, Madeline Oguss, Dmitriy Dligach, Rachel Kulikoff, Brittany Grogan, Crystal Gibson, Elizabeth Wimmer, Traci E DeSalvo, Edwin E nyakee - nyasani, Matthew M Churpek, Majid Afshar。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com), 2022年3月8日。gydF4y2Ba

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map