JPHgydF4y2Ba JMIR公共卫生监测gydF4y2Ba JMIR公共卫生和监视gydF4y2Ba 2369 - 2960gydF4y2Ba 卡塔尔世界杯8强波胆分析 加拿大多伦多gydF4y2Ba v8i3e36119gydF4y2Ba 35144241gydF4y2Ba 10.2196/36119gydF4y2Ba 原始论文gydF4y2Ba 原始论文gydF4y2Ba 从公共卫生部门的接触者追踪访谈表格识别COVID-19疫情:自然语言处理管道的开发gydF4y2Ba 桑切斯gydF4y2Ba 特拉维斯gydF4y2Ba WronagydF4y2Ba 卡米尔gydF4y2Ba ElbattahgydF4y2Ba 马哈茂德gydF4y2Ba GunasekerangydF4y2Ba 书中gydF4y2Ba :gydF4y2Ba 约翰gydF4y2Ba 博士学位gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000-0002-4838-9049gydF4y2Ba 麦康奈尔gydF4y2Ba 伊恩•LgydF4y2Ba 博士学位gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000-0002-9982-7088gydF4y2Ba OgussgydF4y2Ba 玛德琳gydF4y2Ba MScgydF4y2Ba 1gydF4y2Ba https://orcid.org/0000-0002-4983-8109gydF4y2Ba DligachgydF4y2Ba 他在gydF4y2Ba 博士学位gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000-0002-2585-2707gydF4y2Ba KulikoffgydF4y2Ba 瑞秋gydF4y2Ba 英里每小时gydF4y2Ba 3.gydF4y2Ba https://orcid.org/0000-0002-3860-1691gydF4y2Ba 甘gydF4y2Ba 布列塔尼gydF4y2Ba 英里每小时gydF4y2Ba 3.gydF4y2Ba https://orcid.org/0000-0002-7336-9058gydF4y2Ba 吉布森gydF4y2Ba 水晶gydF4y2Ba 英里每小时gydF4y2Ba 3.gydF4y2Ba https://orcid.org/0000-0002-1211-7674gydF4y2Ba 威默gydF4y2Ba 伊丽莎白gydF4y2Ba 二元同步通信gydF4y2Ba 4gydF4y2Ba https://orcid.org/0000-0003-4123-1318gydF4y2Ba 迪沙佛gydF4y2Ba Traci EgydF4y2Ba 英里每小时gydF4y2Ba 4gydF4y2Ba https://orcid.org/0000-0003-2186-6236gydF4y2Ba Nyakoe-NyasanigydF4y2Ba 埃德温·EgydF4y2Ba 4gydF4y2Ba https://orcid.org/0000-0003-1911-4510gydF4y2Ba ChurpekgydF4y2Ba 马修米gydF4y2Ba 医学博士,公共卫生硕士,博士gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000-0002-4030-5250gydF4y2Ba AfshargydF4y2Ba 马吉德gydF4y2Ba 医学博士,硕士gydF4y2Ba 1gydF4y2Ba
威斯康星大学麦迪逊分校gydF4y2Ba 高地大道1685号gydF4y2Ba 医疗基金会百年大楼5158号gydF4y2Ba 麦迪逊,威斯康星州,53705gydF4y2Ba 美国gydF4y2Ba 1 3125459462gydF4y2Ba 1 6082633104gydF4y2Ba majid.afshar@wisc.edugydF4y2Ba
https://orcid.org/0000-0002-6368-4652gydF4y2Ba
威斯康星大学麦迪逊分校gydF4y2Ba 麦迪逊,WIgydF4y2Ba 美国gydF4y2Ba 洛约拉大学gydF4y2Ba 芝加哥,gydF4y2Ba 美国gydF4y2Ba 麦迪逊戴恩县公共卫生部门gydF4y2Ba 麦迪逊,WIgydF4y2Ba 美国gydF4y2Ba 威斯康辛州卫生服务部gydF4y2Ba 麦迪逊,WIgydF4y2Ba 美国gydF4y2Ba 通讯作者:Majid AfshargydF4y2Ba majid.afshar@wisc.edugydF4y2Ba 3.gydF4y2Ba 2022gydF4y2Ba 8gydF4y2Ba 3.gydF4y2Ba 2022gydF4y2Ba 8gydF4y2Ba 3.gydF4y2Ba e36119gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba 2022gydF4y2Ba 20.gydF4y2Ba 1gydF4y2Ba 2022gydF4y2Ba 3.gydF4y2Ba 2gydF4y2Ba 2022gydF4y2Ba 8gydF4y2Ba 2gydF4y2Ba 2022gydF4y2Ba ©John Caskey, Iain L McConnell, Madeline Oguss, Dmitriy Dligach, Rachel Kulikoff, Brittany Grogan, Crystal Gibson, Elizabeth Wimmer, Traci E DeSalvo, Edwin E nyakee - nyasani, Matthew M Churpek, Majid Afshar。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com), 2022年3月8日。gydF4y2Ba 2022gydF4y2Ba

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba

背景gydF4y2Ba

在威斯康星州,COVID-19病例访谈表单包含自由文本字段,需要对这些字段进行挖掘,以确定潜在的疫情,以便制定有针对性的政策。我们开发了一种自动管道,将自由文本输入预训练的神经语言模型,以识别爆发疫情的企业和设施。gydF4y2Ba

客观的gydF4y2Ba

我们的目标是检查针对现有疫情和潜在的新群集的自然语言处理管道的准确性和召回率。gydF4y2Ba

方法gydF4y2Ba

COVID-19病例的数据提取自2020年7月1日至2021年6月30日期间戴恩县的威斯康星州电子疾病监测系统(WEDSS)。案例访谈表单中的特征被输入到来自变形金刚的双向编码器表示(BERT)模型中,该模型针对命名实体识别(NER)进行了微调。我们还开发了一种新的位置映射工具,为相关NER提供地址。精度和召回率是根据人工验证的爆发和WEDSS中的有效地址进行测量的。gydF4y2Ba

结果gydF4y2Ba

共有46,798例COVID-19病例,共有4,183,273个BERT令牌和15,051个唯一令牌。NER工具的召回率和精密度分别为0.67 (95% CI 0.66-0.68)和0.55 (95% CI 0.54-0.57)。对于定位绘图工具,召回率和精密度分别为0.93 (95% CI 0.92-0.95)和0.93 (95% CI 0.92-0.95)。在每个月的间隔内,NER工具识别出的潜在集群比WEDSS验证的要多。gydF4y2Ba

结论gydF4y2Ba

我们开发了一种新的工具管道,用于识别具有相关地址的现有疫情和新集群。我们的管道从全州数据库中获取数据,并可能用于协助当地卫生部门进行有针对性的干预。gydF4y2Ba

自然语言处理gydF4y2Ba 公共卫生信息学gydF4y2Ba 命名实体识别gydF4y2Ba 接触者追踪gydF4y2Ba 新型冠状病毒肺炎gydF4y2Ba 爆发gydF4y2Ba 神经语言模型gydF4y2Ba 疾病监测gydF4y2Ba 数字医疗gydF4y2Ba 电子监控gydF4y2Ba 公共卫生gydF4y2Ba 数字监控工具gydF4y2Ba
简介gydF4y2Ba

截至2021年12月1日,威斯康星州确诊了884,701例SARS-CoV-2 (COVID-19)病例[gydF4y2Ba 1gydF4y2Ba].在县一级,卫生部门使用COVID-19最初病例访谈(接触者追踪)表格中的自由文本字段,以确定发生病毒传播的潜在企业和设施以及个人感染的时间。在病例激增期间,公共卫生工作者面临着大量病例,并且在访谈表格中大量的自由文本信息使他们不堪重负。目前挖掘自由文本字段的方法是手动的和基于关键字的方法,没有快速和系统的方法来寻找集群热点进行有针对性的干预(例如,指导风险沟通、限制某些企业产能的政策、在设施和企业执行命令的合规性)。自然语言处理(NLP)和机器学习的方法已经在其他资源和人员配备紧张的环境中增强了COVID-19护理的工作流程[gydF4y2Ba 2gydF4y2Ba-gydF4y2Ba 4gydF4y2Ba],并可能被证明对卫生部门及其与接触者追踪器和监测系统相互作用的covid -19数据团队有用。gydF4y2Ba

命名实体识别(NER)是一种根据类对单词进行分类的NLP任务,例如,将一个标记识别为一个人、组织或位置。目前的系统利用了预先训练的神经语言模型的力量[gydF4y2Ba 5gydF4y2Ba]在大量的数据语料库上进行训练,使NER任务的准确率达到90%以上。这些系统中有许多是公开可用的,并经过了微调,以“开箱即用”的应用程序运行,但仍然缺乏文献证明其在公共卫生暴发监测工作中的好处。先前在医疗保健领域的工作已经证明,在使用预训练的神经语言模型进行生物医学和临床实体规范化方面取得了成功[gydF4y2Ba 6gydF4y2Ba]和建立可计算的疾病表型[gydF4y2Ba 7gydF4y2Ba].公共卫生提供者和政策制定者利用自然语言处理方法进行数据分析的机会越来越多,非技术部门也越来越容易获得[gydF4y2Ba 8gydF4y2Ba].gydF4y2Ba

我们的目标是开发一种NLP管道,使用预训练的NER神经语言模型,应用于威斯康星州电子疾病监测系统(WEDSS)记录的接触追踪访谈表单,以识别COVID-19大流行期间的潜在疫情。此外,我们试图设计一种新的位置映射工具,以从NER工具中识别给定命名实体的最可能地址。我们的研究目标是测量NLP管道中NER工具和位置映射工具的精度和召回率,以识别新的群集和现有爆发。我们的管道可以作为公共卫生信息学的基准,在COVID-19和其他大流行期间协助针对性政策的接触者追踪工作,并为州和地方卫生部门的工作人员提供大规模自动化。gydF4y2Ba

方法gydF4y2Ba 数据源gydF4y2Ba

WEDSS是一个安全的基于网络的系统,旨在促进传染病的报告、调查和监测,其中包括自2020年1月以来的COVID-19数据。WEDSS涵盖了整个威斯康星州,但这项研究是与麦迪逊和戴恩县公共卫生部门(PHMDC)合作进行的,后者是威斯康星州人口第二大县。我们从WEDSS中提取结构化和非结构化字段用于分析,包括来自县级数据的文本字段,其中包含来自病例访谈表格的相关接触者追踪字段。病例访谈表包含以下部分:(1)症状;(2)实验室和临床资料;(三)医疗条件;(4) COVID-19风险,包括旅行风险;(5)居住和职业设置;(六)潜在的病源;(七)隔离检疫措施; (8) facility intervention; (9) contact-tracing details; and (10) investigation notes. The text fields included addresses for businesses, facilities, and schools where the exposed individual may have entered or worked. The investigation note field was the longest text field with a median token count of 127 (IQR 67-233) and frequently included dates and names of places visited by the individual during their exposure period. For the pipeline development, 26 structured and unstructured text fields from WEDSS data extracts were concatenated into 1 document as input into our language model. There was 1 document per case, and model runs were at the case level. Postprocessing of the named entities included the removal of frequently occurring named entities (ie, “Wisconsin,” “GMT”) identified from 12 months of posttesting case interview forms and removal of duplicate named entities.

确诊病例是按照检测日期筛选的SARS-CoV-2 RNA分子或聚合酶链反应(PCR)检测结果为阳性的个体。根据美国疾病控制及预防中心(CDC)的个案定义[gydF4y2Ba 9gydF4y2Ba],每次新感染COVID-19时(定义为之前感染COVID-19 90天或更长时间后检测呈阳性),都会对检测呈阳性的个体进行计数。因此,人们可能被统计了不止一次,但这种情况发生在不到1%的病例中。疑似病例是指实验室确证性检测方法(PCR或分子检测)未呈阳性,但符合以下条件之一的病例:(1)抗原检测方法呈阳性,(2)有COVID-19症状并已知接触过COVID-19(即与COVID-19确诊患者有密切接触),或(3)死亡证明上列有COVID-19或SARS-CoV-2。gydF4y2Ba

“群集”或“爆发”没有标准定义(这两个术语是可以互换的),疾病预防控制中心指出,爆发的定义与当地情况有关[gydF4y2Ba 10gydF4y2Ba].因此,我们遵循了集群的PHMDC定义,即大约在同一时间与相同位置、组或事件相关联的2个或更多的情况[gydF4y2Ba 11gydF4y2Ba],我们在7天的间隔内进行了检查。从今以后,我们将术语“集群”用于从NER工具识别的集群,将“爆发”用于PHMDC COVID-19数据团队按照标准操作程序识别和验证并记录在WEDSS中的集群。gydF4y2Ba

NER工具gydF4y2Ba

我们使用了预训练的来自变压器(BERT)基础模型的双向编码器表示[gydF4y2Ba 12gydF4y2Ba],并根据计算自然语言学习会议(CoNLL)-2003 NER共享任务的数据集进行微调[gydF4y2Ba 13gydF4y2Ba].这个英语数据集仍然是NER公共领域最大的语料集之一,包含1393个路透社新闻故事,总共有35,089个注释标签(测试集中有5648个),涵盖地点、组织、人员和其他类别。在Python transformer库中实现的预训练BERT模型维护在HuggingFace模型存储库[gydF4y2Ba 14gydF4y2Ba-gydF4y2Ba 16gydF4y2Ba].该模型报告了gydF4y2Ba FgydF4y2Ba1gydF4y2Ba在CoNLL-2003测试数据集上,得分为91.3,召回率为91.9,精密度为90.7。在本文发表时,该模型代表了NER的最新水平[gydF4y2Ba 15gydF4y2Ba].我们使用了“开箱即用”模型,并没有试图进一步微调模型或调整超参数。gydF4y2Ba

对WEDSS中的文本字段进行预处理,以删除没有意义的实体,例如联系人跟踪器的名称。命名实体的后处理包括删除频繁出现的术语(例如,“Wisconsin”,“GMT”),删除一个文档中重复的命名实体,删除模型偶尔标记的子词标记,以及删除不提供信息的模式。使用WordPiece标记器从每个文档构建最多512个标记的组,然后将它们输入模型。对于从提取的WEDSS数据中报告的具有相同命名实体的所有病例id,提供了平均预测概率作为将其识别为个人、组织、位置或其他类型的可能性的分数。gydF4y2Ba

通过模糊匹配确定了NER管道发现的与契约跟踪程序已经发现的爆发相关的实体。共享事件ID的NER工具中的已知爆发名称和实体也通过令牌排序比率进行匹配(要比较的每个字符串都按字母顺序进行标记和排序,然后相似性计算为相似性= [2 ×匹配字符数/字符总数]× 100)。令牌排序比为70或以上的实体和爆发被视为匹配。gydF4y2Ba

位置映射工具gydF4y2Ba

在开发NER管道期间,我们注意到许多命名实体包含在一个县内可能有多个位置的通用企业名称,例如“McDonald’s”或“Walmart”。因此,我们使用谷歌Places应用程序接口(API)在管道中开发了一个位置映射工具,以确定集群中靠近1个或多个case id的位置的可能匹配(gydF4y2Ba 图1gydF4y2Ba).谷歌Places API要求搜索范围在最大半径为30公里的圆形区域内。示例搜索显示在gydF4y2Ba 图2gydF4y2Ba.允许多次连续的搜索,尽管每次搜索都会增加API的成本,并且在一个大的搜索区域中充满API调用既不是最优的,也不是有效的。在威斯康辛州的36个主要城市中,超过三分之二的企业的通勤距离在0到24英里之间[gydF4y2Ba 17gydF4y2Ba],因此映射算法的1个假设是,命名实体将在个人的家庭住所的通勤距离内。因此,从WEDSS中提取聚类中每个案例ID的个人纬度/经度坐标,并应用k-means无监督方法从谷歌Places中识别特定命名实体的案例ID聚类的质心坐标。gydF4y2Ba

NER工具和位置映射工具的过程图。ETL:提取、转换和加载;NER:命名实体识别。gydF4y2Ba

截至2021年10月戴恩县COVID-19集群的位置映射示例。灰点显示可能或已知群集/爆发的事件案例。白点表示该星团的计算质心点。黑点显示提交给谷歌Places API的经过模糊处理的质心纬度/经度点,由较大的灰色圆圈显示。API:应用程序接口。gydF4y2Ba

位置映射器为命名实体提供了最可能的地址。如果不能进行精确匹配,则使用模糊字符串匹配对前3个结果进行过滤。在任何一种情况下,都会提供每个企业地址匹配的预测概率,然后将这些结果合并到最终报告中,以提供与已命名实体关联的地址,用于联系人跟踪。在威斯康辛州、明尼苏达州、爱荷华州、密歇根州和伊利诺伊州,映射到城市名称的命名实体被过滤掉了,因为它们不够具体,无法确定精确的位置。gydF4y2Ba

为了遵守谷歌Places API服务条款,我们从WEDSS数据中所有与covid -19相关的表单的字段中提取了组织和地点名称,以创建命名实体的内部数据库,用于在NER工具和谷歌Places API结果之间进行映射。因此,没有缓存谷歌数据。搜索算法只使用谷歌Places API来搜索与我们的内部命名实体数据库相匹配的命名实体。中显示管道和报告系统的完整流程图gydF4y2Ba 图1gydF4y2Ba.gydF4y2Ba

流程图从WEDSS数据源开始,然后对威斯康星大学(UW)的内部健康保险可携带性和责任法案(HIPAA)安全计算环境进行提取、转换和加载(ETL)过程。案例报告访谈表单中的相关字段经过特征工程和WordPiece标记器,用于预训练的神经语言模型,以将命名实体分类为业务名称和设施。只有事件id为>2的集群中符合条件的命名实体才会被发送到位置映射工具。位置映射工具通过随机移动来识别集群的质心经度/纬度,以用于去识别目的。接下来,为转移的质心位置执行谷歌Places API,并针对来自NER工具的命名实体运行业务和设施名称的接近结果。如果在初始运行中没有返回地址,则处理扩展搜索半径。排名前三的结果显示在具有优先级分数的模糊匹配模式中,并共享在一份报告中,该报告被发送回威斯康星州卫生服务部(DHS)的基于web的报告系统。任何卫生部门的员工都可以通过基于网络的报告系统查看该报告。gydF4y2Ba

扩展定位算法gydF4y2Ba

一些提交给位置映射工具的命名实体在30公里搜索半径之外,但它们可能仍然与识别新集群有关。对于搜索半径之外的已命名实体,我们开发了一种扩展搜索算法,覆盖更大的搜索半径,并定位企业或组织名称,这些名称将映射到最初30公里搜索半径内未找到的给定已命名实体。该算法创建并利用了一个互锁等边三角形网格。搜索网格首先从原始纬度/经度质心点向外延伸,然后围绕该质心点顺时针旋转,创建互锁三角形(gydF4y2Ba 图3gydF4y2Ba).网格中每个三角形的每个顶点都将成为API调用的一个新的纬度/经度起点。gydF4y2Ba

扩展位置映射算法的框架。如果在初始搜索半径内没有找到指定的实体,则通过创建一系列互锁的等边三角形来创建从原始搜索向外扩展的额外搜索半径,其中三角形的每个顶点都是一个新的API起始搜索点。当找到至少1个匹配或达到最大距离时,扩展搜索将停止。API:应用程序接口。gydF4y2Ba

地球的曲率意味着这个网格不会沿着直线,所以我们使用haversine公式的实现来在网格中创建具有弯曲形状的多边形[gydF4y2Ba 18gydF4y2Ba].通过向外绘制来创建多边形必然意味着网格的每次旋转的结束可能不是旋转的开始,因此我们将每个API调用的搜索半径设置为重叠,以确保搜索的总覆盖范围,并考虑到旋转的起点和终点之间的距离误差。当发生以下情况之一时,扩展搜索停止:(1)API调用至少找到一个搜索结果,或(2)网格到达距离原始质心纬度/经度点250公里的最大范围。gydF4y2Ba

NLP管道中NER工具的评估gydF4y2Ba

2020年7月1日至2021年6月30日期间戴恩县所有确诊和可能的个人病例都作为回顾性验证数据集。根据已确认的爆发设施/企业名称或与WEDSS数据库中记录的病例相关联的有效企业地址对NER工具进行了评估。NER工具生成的命名实体在1周内符合集群的标准(命名实体的>2个实例),并且与WEDSS中确认的爆发相匹配,则标记为真阳性(TPs)。此外,在一周内具有>2个实例且在WEDSS中具有有效业务地址的命名实体也包含在TP组中,并表示新的集群。将已确认和未确认的病毒爆发(可能是新的群集)都包括到TP组的理由是,它们符合PHMDC对群集的定义,并且包含值得进行调查(未验证的病毒爆发)或避免重复调查(已验证的病毒爆发)的有效地址。在WEDSS中没有地址匹配的NER工具生成的命名实体被标记为误报(FPs)。假阴性(FNs)定义为WEDSS数据集中没有来自NER工具的相应命名实体的已确认疫情。评价指标报告为精密度= [TP/(TP + FP)]和召回率= [TP/(TP + FN)]。这些指标也分别被称为阳性预测值和敏感性。在为期12个月的研究期间,对NER工具进行了评估。 The precision and recall across the 12 months were reported to provide the largest sample size for reporting metrics. Monthly metrics were also reported to represent seasonal variation and various public health policies that affected case rates and prevalence, which would also affect precision [ 19gydF4y2Ba].gydF4y2Ba

NLP管道中位置映射工具的评估gydF4y2Ba

对于位置映射算法,报告了一组单独的精度和召回措施。TPs被定义为WEDDS地址内部数据库中的业务地址,映射到NER工具生成的命名实体的谷歌Places API地址。FP是没有映射到WEDSS地址数据库的谷歌Places API地址。FN被定义为来自NER工具的命名实体,它映射到我们的内部业务名称数据库,但当可以找到合理的API结果时,却不返回谷歌Places API地址。由于成本和计算资源的限制,对位置映射算法的验证只进行了1个月(2020年10月)。对于NER和位置映射验证,精度和召回度量都是使用引导的95% ci生成的。gydF4y2Ba

为卫生部COVID-19数据小组生成报告gydF4y2Ba

该管道的目标是根据在WEDSS中收集的任何时间间隔的接触者跟踪表单生成摘要报告,并确定潜在的群集。示例报告显示在gydF4y2Ba 表1gydF4y2Ba作为每周报告。报告中的每个聚类还包括相关的病例id,以指导COVID-19数据团队以及该聚类的预测概率。COVID-19数据小组已经确定或正在调查的已知疫情也从WEDSS中提取,并纳入报告,以防止有针对性的政策工作冗余。位置映射工具还提供了每个命名实体最可能的地址,以及预测的概率。gydF4y2Ba

县卫生部门的接触者追踪者示例摘要报告gydF4y2Ba一个gydF4y2Ba.gydF4y2Ba

命名实体gydF4y2BabgydF4y2Ba 类型gydF4y2Ba 频率gydF4y2BacgydF4y2Ba 预测gydF4y2Ba概率1gydF4y2BadgydF4y2Ba 例idgydF4y2BaegydF4y2Ba 爆发的实体gydF4y2BafgydF4y2Ba 地址gydF4y2BaggydF4y2Ba 预测gydF4y2Ba概率2gydF4y2BahgydF4y2Ba
太阳大草原gydF4y2Ba 的地方gydF4y2Ba 12gydF4y2Ba 0.67gydF4y2Ba 12345年,12346年gydF4y2Ba 太阳大草原gydF4y2Ba - - - - - -gydF4y2Ba我gydF4y2Ba 100.0gydF4y2Ba
当地的零售商gydF4y2Ba 组织gydF4y2Ba 7gydF4y2Ba 0.54gydF4y2Ba 12347, 12349, 22221gydF4y2Ba 零售商001gydF4y2Ba 钥匙和东西,21科学博士,麦迪逊,威斯康星州gydF4y2Ba 95.2gydF4y2Ba
仓储式商店gydF4y2Ba 组织gydF4y2Ba 3.gydF4y2Ba 0.45gydF4y2Ba 13347, 18349, 22221gydF4y2Ba Boxstore 08年gydF4y2Ba 电路城,1561洛基路,维罗纳,WIgydF4y2Ba 87.1gydF4y2Ba
快餐的地方gydF4y2Ba 组织gydF4y2Ba 2gydF4y2Ba 0.71gydF4y2Ba 17247, 18149, 29121gydF4y2Ba - - - - - -gydF4y2Ba 汉堡时间:威斯康星州麦迪逊州街1234号gydF4y2Ba 88.2gydF4y2Ba

一个gydF4y2Ba该示例基于虚构的数据,由于隐私限制,并不是来自原始的威斯康星电子疾病监测系统(WEDDS)数据。gydF4y2Ba

bgydF4y2Ba命名实体:命名实体识别(NER)管道的结果。命名实体只有在具有与之关联的>2病例id时才符合集群爆发的条件。gydF4y2Ba

cgydF4y2Ba频率:报告期间可用病例id中唯一提到的NER。gydF4y2Ba

dgydF4y2Ba预测概率1:分类器对命名实体类型的平均预测概率。gydF4y2Ba

egydF4y2Ba案例id:联系人跟踪器用于查找的唯一案例id。gydF4y2Ba

fgydF4y2Ba爆发实体:已知爆发暴露。gydF4y2Ba

ggydF4y2Ba地址:使用来自谷歌的k-means聚类地址的经度/纬度匹配命名实体。gydF4y2Ba

hgydF4y2Ba预测概率2:位置映射工具预测的概率。gydF4y2Ba

我gydF4y2BaNER和位置映射工具没有结果。gydF4y2Ba

威斯康星大学的机构审查委员会批准了这项研究,威斯康星国土安全部和威斯康星大学之间建立了数据使用协议。没有华盛顿大学和国土安全部的明确许可,没有数据在批准的华盛顿大学研究环境及其批准的用户之外共享。该管道目前可在威斯康星州的公共卫生报告系统中使用,源代码是开源的,可供公众使用[gydF4y2Ba 20.gydF4y2Ba].gydF4y2Ba

结果gydF4y2Ba COVID-19病例与非病例的特征gydF4y2Ba

在46,902例确诊和疑似病例中,只有1595例(3.40%)为疑似病例,其余为COVID-19确诊病例。在Dane县,非西班牙裔白人占确诊和疑似病例30,423例(64.87%),中位年龄为30岁(IQR 20-47);看到gydF4y2Ba 表2gydF4y2Ba.最常报告的职业是学生,但在我们的WEDDS提取中,职业变量的缺失率高达75%以上。中显示了WEDSS数据集的其他人口统计数据gydF4y2Ba 表2gydF4y2Ba.戴恩县有病例和无病例的7天移动平均值显示在gydF4y2Ba 图4gydF4y2Ba并划定了2020年1月至2021年9月期间的口罩强制政策。灰色阴影区域表示12个月的验证期,在此期间我们分析了本研究的NER工具。gydF4y2Ba

2020年7月1日至2021年6月30日威斯康星州戴恩县COVID-19病例和非病例的特征。gydF4y2Ba

个人特征gydF4y2Ba 阴性病例(N=323,424例)gydF4y2Ba 疑似/确诊病例(N=46,902)gydF4y2Ba 总(N = 370326)gydF4y2Ba
年龄(年),中位数(IQR)gydF4y2Ba 32 (20-51)gydF4y2Ba 30日(20-47)gydF4y2Ba 31日(20-51)gydF4y2Ba
性别,n (%)gydF4y2Ba
男性gydF4y2Ba 152852 (47.26)gydF4y2Ba 23506 (50.12)gydF4y2Ba 176358 (47.62)gydF4y2Ba
女gydF4y2Ba 165482 (51.17)gydF4y2Ba 23314 (49.71)gydF4y2Ba 188796 (50.98)gydF4y2Ba
未知的gydF4y2Ba 5090 (1.57)gydF4y2Ba 82 (0.17)gydF4y2Ba 5172 (1.40)gydF4y2Ba
种族/民族,n (%)gydF4y2Ba
非西班牙裔白人gydF4y2Ba 199629 (61.72)gydF4y2Ba 30423 (64.87)gydF4y2Ba 230052 (62.12)gydF4y2Ba
非西班牙裔黑人gydF4y2Ba 14302 (4.42)gydF4y2Ba 3266 (6.96)gydF4y2Ba 17568 (4.74)gydF4y2Ba
拉美裔gydF4y2Ba 23878 (7.38)gydF4y2Ba 6662 (14.20)gydF4y2Ba 30540 (8.25)gydF4y2Ba
其他gydF4y2Ba 85615 (26.47)gydF4y2Ba 6551 (13.97)gydF4y2Ba 92166 (24.89)gydF4y2Ba
职业,n (%)gydF4y2Ba一个gydF4y2Ba
没有记录gydF4y2Ba 311809 (96.41)gydF4y2Ba 37083 (79.06)gydF4y2Ba 348892 (94.21)gydF4y2Ba
Nonuniversity学生gydF4y2Ba 3099 (0.96)gydF4y2Ba 2391 (5.10)gydF4y2Ba 5490 (1.48)gydF4y2Ba
大学的学生gydF4y2Ba 1161 (0.36)gydF4y2Ba 903 (1.93)gydF4y2Ba 2064 (0.56)gydF4y2Ba
退休gydF4y2Ba 573 (0.18)gydF4y2Ba 468 (1.00)gydF4y2Ba 1041 (0.28)gydF4y2Ba
失业gydF4y2Ba 502 (0.16)gydF4y2Ba 429 (0.91)gydF4y2Ba 931 (0.25)gydF4y2Ba
其他gydF4y2Ba 6280 (1.94)gydF4y2Ba 5628 (12.00)gydF4y2Ba 11908 (3.22)gydF4y2Ba
城市,n (%)gydF4y2Ba
麦迪逊gydF4y2Ba 159983 (49.47)gydF4y2Ba 23949 (51.06)gydF4y2Ba 183932 (49.67)gydF4y2Ba
太阳大草原gydF4y2Ba 22667 (7.01)gydF4y2Ba 3722 (7.94)gydF4y2Ba 26389 (7.13)gydF4y2Ba
菲奇堡gydF4y2Ba 16104 (4.98)gydF4y2Ba 2983 (6.36)gydF4y2Ba 19087 (5.15)gydF4y2Ba
米德尔顿gydF4y2Ba 15991 (4.94)gydF4y2Ba 1838 (3.92)gydF4y2Ba 17829 (4.81)gydF4y2Ba
维罗纳gydF4y2Ba 15224 (4.71)gydF4y2Ba 1745 (3.72)gydF4y2Ba 16969 (4.58)gydF4y2Ba
其他gydF4y2Ba 93455 (28.90)gydF4y2Ba 12665 (27.00)gydF4y2Ba 106120 (28.66)gydF4y2Ba

一个gydF4y2Ba可能有多种反应。gydF4y2Ba

2020年1月1日至2021年10月31日,威斯康星州戴恩县COVID-19病例和非病例的时间变化趋势。数据从WEDSS中检索。类别折线图按天汇总,并在2020年1月至2021年10月的移动7天窗口中平均。美国疾病控制与预防中心于2020年3月11日宣布COVID - 19为全球大流行。麦迪逊和戴恩县公共卫生部的初步口罩规定(第1号命令)于2020年5月13日生效,并在2021年6月2日之前进行了更新和修改。命令2(蒙面紧急命令)于2021年8月19日生效。垂直虚线是卫生政策变化的界限。灰色阴影区域表示管道分析的验证期。疾病控制和预防中心;威斯康星电子疾病监测系统。gydF4y2Ba

验证数据集包括在联系访谈表单的自由文本字段中的4,183,273个总BERT令牌和15,051个唯一BERT令牌。最长的字段是“InvestigationNotes”,中位数token计数为126.5 (IQR 60.7 -232.5)。gydF4y2Ba

在12个月的验证中,召回率为0.67 (95% CI 0.66-0.68),精密度为0.55 (95% CI 0.54-0.57)。值得注意的是,随着COVID-19的激增和减弱,精确度和召回分数逐月变化。最好的表现是在病例量高的高峰月份。在2020年10月至2021年1月期间,病例量分别为3300至7100例,召回率分别为0.69至0.72例。然而,在病例较少的月份,如2021年5月至2021年6月(病例数在149至410之间),召回率分别降至0.33和0.29。为了精确起见,也观察到了类似的趋势,峰值为0.64,低谷为0.30 (gydF4y2Ba 表3gydF4y2Ba).在所有月份中,NER工具识别出的潜在疫情比WEDSS确认的要多。gydF4y2Ba

在1个月的位置映射工具验证期内(2020年10月)gydF4y2Ba FgydF4y2Ba1gydF4y2Ba评分为0.93,召回率为0.93 (95% CI 0.92-0.95),精密度为0.93 (95% CI 0.92-0.95)。有355个命名实体没有返回Dane County搜索半径的结果,但扩展位置算法将其中202个(56.9%)命名实体的地址匹配到我们的内部命名实体数据库,以寻找潜在的新集群。gydF4y2Ba

NER的结果gydF4y2Ba一个gydF4y2Ba2020年7月1日至2021年6月30日期间,威斯康星州戴恩县的工具按月分类。gydF4y2Ba

月gydF4y2Ba 情况下,NgydF4y2Ba 确认爆发,n (%)gydF4y2Ba 通过词法操作(APOLLO)自动公开爆发本地化识别的爆发总数,n (%)gydF4y2Ba 精度(95%置信区间)gydF4y2Ba 召回率(95%置信区间)gydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba
2020年7月gydF4y2Ba 508gydF4y2Ba 137 (27.0)gydF4y2Ba 251 (49.4)gydF4y2Ba 0.51 (0.40 - -0.62)gydF4y2Ba 0.28 (0.23 - -0.34)gydF4y2Ba 0.37gydF4y2Ba
2020年8月gydF4y2Ba 783gydF4y2Ba 133 (17.0)gydF4y2Ba 350 (44.7)gydF4y2Ba 0.34 (0.25 - -0.44)gydF4y2Ba 0.23 (0.17 - -0.29)gydF4y2Ba 0.27gydF4y2Ba
2020年9月gydF4y2Ba 2693gydF4y2Ba 256 (9.5)gydF4y2Ba 889 (33.0)gydF4y2Ba 0.51 (0.46 - -0.56)gydF4y2Ba 0.56 (0.51 - -0.59)gydF4y2Ba 0.53gydF4y2Ba
2020年10月gydF4y2Ba 4619gydF4y2Ba 459 (9.9)gydF4y2Ba 1267 (27.4)gydF4y2Ba 0.64 (0.60 - -0.67)gydF4y2Ba 0.69 (0.67 - -0.71)gydF4y2Ba 0.66gydF4y2Ba
2020年11月gydF4y2Ba 7129gydF4y2Ba 564 (7.9)gydF4y2Ba 1906 (26.7)gydF4y2Ba 0.62 (0.59 - -0.65)gydF4y2Ba 0.70 (0.68 - -0.72)gydF4y2Ba 0.66gydF4y2Ba
2020年12月gydF4y2Ba 3772gydF4y2Ba 308 (8.2)gydF4y2Ba 1078 (28.6)gydF4y2Ba 0.58 (0.54 - -0.62)gydF4y2Ba 0.70 (0.67 - -0.73)gydF4y2Ba 0.64gydF4y2Ba
2021年1月gydF4y2Ba 3361gydF4y2Ba 241 (7.2)gydF4y2Ba 1062 (31.6)gydF4y2Ba 0.53 (0.49 - -0.58)gydF4y2Ba 0.72 (0.69 - -0.75)gydF4y2Ba 0.61gydF4y2Ba
2021年2月gydF4y2Ba 2339gydF4y2Ba 157 (6.7)gydF4y2Ba 899 (38.4)gydF4y2Ba 0.42 (0.36 - -0.47)gydF4y2Ba 0.56 (0.51 - -0.61)gydF4y2Ba 0.48gydF4y2Ba
2021年3月gydF4y2Ba 1513gydF4y2Ba 134 (8.9)gydF4y2Ba 647 (42.8)gydF4y2Ba 0.37 (0.31 - -0.43)gydF4y2Ba 0.52 (0.46 - -0.57)gydF4y2Ba 0.43gydF4y2Ba
2021年4月gydF4y2Ba 1460gydF4y2Ba 161 (11.0)gydF4y2Ba 639 (43.8)gydF4y2Ba 0.46 (0.39 - -0.53)gydF4y2Ba 0.50 (0.45 - -0.55)gydF4y2Ba 0.48gydF4y2Ba
2021年5月gydF4y2Ba 410gydF4y2Ba 81 (19.8)gydF4y2Ba 233 (56.8)gydF4y2Ba 0.41 (0.28 - -0.52)gydF4y2Ba 0.33 (0.23 - -0.4)gydF4y2Ba 0.36gydF4y2Ba
2021年6月gydF4y2Ba 149gydF4y2Ba 21日(14.1)gydF4y2Ba 88 (59.1)gydF4y2Ba 0.30 (0.12 - -0.52)gydF4y2Ba 0.29 (0.11 - -0.44)gydF4y2Ba 0.30gydF4y2Ba

一个gydF4y2BaNER:命名实体识别。gydF4y2Ba

讨论gydF4y2Ba 主要研究结果gydF4y2Ba

我们开发了一种新的工具管道,能够提取大量监测数据并总结报告,以突出现有和潜在的疫情及其相关地址。摘要报告以每周为间隔,以县为单位,以系统的方法确定威斯康星州任何地区的疫情。我们以麦迪逊和戴恩县为重点,展示了我们的管道的性能,并表明我们的管道在高病例量时期表现最佳,此时可能最需要使用自动化方法进行接触追踪工作。此外,我们的管道有潜力识别传统方法无法识别的新型群集爆发。最终,对于需要构建关键字和手动扫描自由文本报告以查找潜在爆发位置的数据团队来说,我们的工具可能会克服现有的限制。gydF4y2Ba

在COVID-19大流行期间,已经出现了利用人工智能方法的工具,用于公共卫生应用[gydF4y2Ba 21gydF4y2Ba-gydF4y2Ba 23gydF4y2Ba],并且随着更多工具的开发或可用,利用自然语言处理根据接触追踪数据进行有针对性的政策努力仍然是一个感兴趣的领域[gydF4y2Ba 24gydF4y2Ba,gydF4y2Ba 25gydF4y2Ba].其他研究表明,使用非传统和非常规的公共卫生数据源(如推特提要),预先训练的神经语言模型对COVID-19监测的好处。gydF4y2Ba 26gydF4y2Ba].利用与公共卫生机构的已知联系方式开发了使用更传统方法的信息学工具[gydF4y2Ba 25gydF4y2Ba,gydF4y2Ba 27gydF4y2Ba];然而,这项研究并没有发现潜在的或新的疫情。我们展示了一种“开箱即用”的预训练神经语言模型,用于NER自动扫描COVID-19病例的接触访谈表格,并为接触追踪器提供现有和潜在疫情集群的简化和有组织的总结报告。我们的工具管道遵循CDC实施和使用数字工具的指南,以加强传统的接触追踪工作[gydF4y2Ba 24gydF4y2Ba].随着PHMDC和威斯康辛州继续采用传统方法调查阳性病例并将其报告到其监测系统中,我们的工具可能有助于在大量病例期间集中和指导数据团队到集群。我们还分享了一种新颖的定位地图技术,该技术使用来自州监控系统的原始数据,并提供地址,以进一步减少从大型数据库中挖掘的工作量。gydF4y2Ba

这项工作的动机始于PHMDC的COVID-19数据团队联系华盛顿大学的数据科学团队,以帮助解决在联系访谈表单中挖掘许多自由文本字段时遇到的困难。与该地区其他州和县一样,戴恩县的召回率在秋冬季急剧上升,我们的工具显示,在这些时期召回率超过70%。尽管由于FPs的原因,精度值较低,但与手动扫描自由文本字段或为单个报告构建定制的基于规则的关键字算法相比,在我们的摘要报告中检查FPs对数据团队来说可能仍然不那么繁重。更重要的决定因素是通过可接受的召回来减少可能错过的爆发的fn。在病例量低于数百例的几个月里,我们工具的准确性会下降,但我们预计在这些时期,该工具的使用率可能会降低,因为工作人员有更多时间通过现有的标准操作程序来识别和调查疫情。目前,该报告的一个版本已被纳入全州范围的报告系统,用于在威斯康星州的任何县进行beta测试和应用(gydF4y2Ba 图1gydF4y2Ba).首先,在华盛顿大学的hipaa安全计算环境中,通过ETL过程将来自WEDSS的数据输入NLP管道。结果被开发为平面文件输出,并在第二个ETL过程中返回到州卫生服务部卫生信息学办公室,进入全州报告系统,供县卫生部门的最终用户通过网络界面访问。我们的下一步是通过试点验证测试来检查我们的PHMDC卫生部门数据团队的接受度,并监测采用情况,类似于其他人所描述的[gydF4y2Ba 28gydF4y2Ba].我们已经将我们的管道整合到现有的全州报告系统中。gydF4y2Ba

虽然像谷歌这样的私营企业在地理测绘技术领域处于领先地位,但我们利用他们的定位软件来支持我们独特的位置测绘工具。我们首先从我们的WEDSS数据库中建立了我们自己的所有潜在企业名称和组织的内部数据库,以遵守许可协议。这允许我们执行API调用并识别任何匹配,而不存储谷歌的任何数据,也不违反任何使用该工具的许可协议。我们注意到一些NER地点是连锁餐馆和商店,因此使用无监督的方法来识别集群中的质心经度/纬度,使我们能够预测从NER工具中识别出的业务最有可能的位置。我们在这部分系统中的准确性和召回率得分很高,可能会减少工作人员识别准确地址所需的时间。接触追踪访谈表格是在威斯康辛州的县级收集的,并记录到中央WEDSS数据库中,因此我们预计我们的工具可能会在全州范围内扩展,以捕捉更多的农村地区或覆盖跨越多个县的通勤距离。gydF4y2Ba

限制gydF4y2Ba

在我们的工作中出现了一些限制。首先,我们运行NER工具作为一个“开箱即用”的解决方案,没有任何进一步的调优。用于微调BERT-base-NER模型的训练数据集来自特定的时间跨度,可能不能很好地推广到我们的领域。然而,由于时间和资源的限制,我们不能投资于构建内部注释的数据集以进行微调。我们期望模型的性能可以通过领域适应继续提高,但是我们选择使用当前通用的最先进的工具来开发我们的管道。其次,我们假设集群家庭地址质心周围的半径从我们的位置映射工具中捕获了所有相关的位置。这还不包括从州外或离家更远的地方旅行的人。我们尝试用半径为250公里的扩展映射算法来缓解这个问题。最后,我们的工具可以灵活地处理跨越不同时间间隔的联系访谈表单,但ETL数据从威斯康星州报告系统传输到PHMDC政策制定者的延迟阻碍了该工具的实时警报系统。我们目前的系统可以每24-48小时刷新一次,从病例报告表单输入WEDSS开始,这对于在高负载期间积压病例的数据分析师来说仍然很有用。 Our data use agreement prevented the real-time, on-site application of the pipeline by PHMDC staff, but this remains a future direction in data access and software development for our tool. Lastly, future work will incorporate results on the potentially new clusters to verify their relevance for investigation and confirm an outbreak. Prospective evaluation of the tool was not possible, given existing staff demands from the pandemic.

结论gydF4y2Ba

我们的自动化管道从全州数据库中获取数据,并可能在各个县部署,以协助威斯康星州的其他卫生部门在疫情爆发期间制定有针对性的政策。该工具是开源的,是一种可互操作的资源,也可以被邻国使用。此外,我们的管道也可以应用于其他需要分析自由文本数据的传染病和监测工作。gydF4y2Ba

缩写gydF4y2Ba APIgydF4y2Ba

应用程序接口gydF4y2Ba

伯特gydF4y2Ba

来自变压器的双向编码器表示gydF4y2Ba

疾病预防控制中心gydF4y2Ba

疾病控制和预防中心gydF4y2Ba

CoNLLgydF4y2Ba

计算自然语言学习会议gydF4y2Ba

国土安全部gydF4y2Ba

卫生服务部gydF4y2Ba

ETLgydF4y2Ba

提取、转换和加载gydF4y2Ba

尼珥gydF4y2Ba

命名实体识别gydF4y2Ba

NLPgydF4y2Ba

自然语言处理gydF4y2Ba

PHMDCgydF4y2Ba

麦迪逊戴恩县公共卫生部门gydF4y2Ba

FNgydF4y2Ba

假阴性gydF4y2Ba

《外交政策》gydF4y2Ba

假阳性gydF4y2Ba

TPgydF4y2Ba

真阳性gydF4y2Ba

威斯康辛大学gydF4y2Ba

威斯康星大学gydF4y2Ba

结合gydF4y2Ba

威斯康星州电子疾病监测系统gydF4y2Ba

我们要感谢威斯康辛大学(UW)和卫生服务部(DHS)的数据协调员,特别是威斯康辛大学社会科学计算合作社的Dan Bongert,以及威斯康辛州公共卫生部门卫生信息学办公室的Jesus S Bacos和Jerry O Lipsey。我们还要感谢美国家庭数据科学研究所促成了数据使用协议,以及华盛顿大学的社会科学计算合作组织托管了用于分析的数据。gydF4y2Ba

本出版物中报道的研究得到了美国国立卫生研究院国家药物滥用研究所的支持,奖项为R01-DA051464 (MA), R01-DA051464- s1 (MA), K23-AA024503 (MA), R01-LM010090 (DD), R01-LM012973 (DD), R01-GM123193 (MMC), R01-HL157262 (MMC)和R01-DK126933-A1 (MMC)。gydF4y2Ba

MMC拥有一项住院患者风险分层算法专利(ARCD P0535US.P2),并获得了EarlySense (Tel Aviv, Israel)的研究支持。其余作者没有利益冲突。gydF4y2Ba

COVID-19:威斯康星州病例。按确诊日期划分的COVID-19累计确诊病例gydF4y2Ba 2021-12-16gydF4y2Ba https://www.dhs.wisconsin.gov/covid-19/cases.htmgydF4y2Ba 卷曲gydF4y2Ba 钢筋混凝土gydF4y2Ba MegyerigydF4y2Ba 我gydF4y2Ba 林赛gydF4y2Ba TgydF4y2Ba 马赛gydF4y2Ba RgydF4y2Ba 巴特列gydF4y2Ba JgydF4y2Ba 金gydF4y2Ba 年代gydF4y2Ba 贝克gydF4y2Ba BgydF4y2Ba 哈里斯gydF4y2Ba RgydF4y2Ba 克拉克gydF4y2Ba RHgydF4y2Ba 自然语言处理和机器学习用于通过胸部CT成像检测呼吸道疾病和跟踪美国COVID-19大流行gydF4y2Ba 放射性心肺显像gydF4y2Ba 2021gydF4y2Ba 02gydF4y2Ba 01gydF4y2Ba 3.gydF4y2Ba 1gydF4y2Ba e200596gydF4y2Ba 10.1148 / ryct.2021200596gydF4y2Ba 33778666gydF4y2Ba PMC7977750gydF4y2Ba IzquierdogydF4y2Ba 莱托gydF4y2Ba AncocheagydF4y2Ba JgydF4y2Ba 萨瓦纳COVID-19研究小组gydF4y2Ba 索利亚诺gydF4y2Ba 简森-巴顿gydF4y2Ba COVID-19患者重症监护病房入院的临床特征和预后因素:使用机器学习和自然语言处理的回顾性研究gydF4y2Ba J医疗互联网服务gydF4y2Ba 2020gydF4y2Ba 10gydF4y2Ba 28gydF4y2Ba 22gydF4y2Ba 10gydF4y2Ba e21801gydF4y2Ba 10.2196/21801gydF4y2Ba 33090964gydF4y2Ba v22i10e21801gydF4y2Ba PMC7595750gydF4y2Ba 比gydF4y2Ba 年代gydF4y2Ba 舒克拉gydF4y2Ba PgydF4y2Ba 密特拉gydF4y2Ba 一个gydF4y2Ba PoongodigydF4y2Ba TRgydF4y2Ba 利用机器学习进行数据可视化以有效跟踪COVID-19大流行gydF4y2Ba 马赫学习电子健康系统gydF4y2Ba 2020gydF4y2Ba 417gydF4y2Ba 441gydF4y2Ba 10.1049 / pbhe029e_ch17gydF4y2Ba 刘易斯gydF4y2Ba PgydF4y2Ba 奥特gydF4y2Ba 米gydF4y2Ba 杜gydF4y2Ba 合资企业gydF4y2Ba StoyanovgydF4y2Ba VgydF4y2Ba 生物医学和临床任务的预训练语言模型:理解和扩展最先进的技术gydF4y2Ba Proc第三临床NLP讲习班gydF4y2Ba 2020gydF4y2Ba 146gydF4y2Ba 157gydF4y2Ba 10.18653 / v1/2020.clinicalnlp - 1.17gydF4y2Ba 李gydF4y2Ba FgydF4y2Ba 金gydF4y2Ba YgydF4y2Ba 刘gydF4y2Ba WgydF4y2Ba RawatgydF4y2Ba 个基点gydF4y2Ba 蔡gydF4y2Ba PgydF4y2Ba 余gydF4y2Ba HgydF4y2Ba 基于变压器的双向编码器表示(BERT)模型在大规模电子病历笔记中的微调:一项实证研究gydF4y2Ba JMIR Med InformgydF4y2Ba 2019gydF4y2Ba 09gydF4y2Ba 12gydF4y2Ba 7gydF4y2Ba 3.gydF4y2Ba e14830gydF4y2Ba 10.2196/14830gydF4y2Ba 31516126gydF4y2Ba v7i3e14830gydF4y2Ba PMC6746103gydF4y2Ba RasmygydF4y2Ba lgydF4y2Ba 香gydF4y2Ba YgydF4y2Ba 谢gydF4y2Ba ZgydF4y2Ba 道gydF4y2Ba CgydF4y2Ba 智gydF4y2Ba DgydF4y2Ba Med-BERT:用于疾病预测的大规模结构化电子健康记录的预训练上下文化嵌入gydF4y2Ba NPJ数字医院gydF4y2Ba 2021gydF4y2Ba 05gydF4y2Ba 20.gydF4y2Ba 4gydF4y2Ba 1gydF4y2Ba 86gydF4y2Ba 10.1038 / s41746 - 021 - 00455 - ygydF4y2Ba 34017034gydF4y2Ba 10.1038 / s41746 - 021 - 00455 - ygydF4y2Ba PMC8137882gydF4y2Ba 将军费罗兹gydF4y2Ba 一个gydF4y2Ba PerveengydF4y2Ba 年代gydF4y2Ba 阿夫塔gydF4y2Ba WgydF4y2Ba 移动健康应用在改善低收入和中等收入国家产前和产后护理中的作用:系统回顾gydF4y2Ba BMC运行状况服务决议gydF4y2Ba 2017gydF4y2Ba 11gydF4y2Ba 07gydF4y2Ba 17gydF4y2Ba 1gydF4y2Ba 704gydF4y2Ba 10.1186 / s12913 - 017 - 2664 - 7gydF4y2Ba 29115992gydF4y2Ba 10.1186 / s12913 - 017 - 2664 - 7gydF4y2Ba PMC5678803gydF4y2Ba 2019冠状病毒病(COVID-19): 2021病例定义gydF4y2Ba 2021-09-15gydF4y2Ba https://ndc.services.cdc.gov/case-definitions/coronavirus-disease-2019-2021/gydF4y2Ba COVID-19:疫情期间的调查管理gydF4y2Ba 2022-03-02gydF4y2Ba https://www.cdc.gov/coronavirus/2019-ncov/php/contact-tracing/contact-tracing-plan/outbreaks.htmlgydF4y2Ba 理解“集群”gydF4y2Ba 2021-09-09gydF4y2Ba https://publichealthmdc.com/blog/understanding-clustersgydF4y2Ba DevlingydF4y2Ba JgydF4y2Ba 常gydF4y2Ba 米gydF4y2Ba 李gydF4y2Ba KgydF4y2Ba ToutanovagydF4y2Ba KgydF4y2Ba BERT:深度双向转换器的预训练,用于语言理解gydF4y2Ba Proc NAACL-HLTgydF4y2Ba 2019gydF4y2Ba 4171gydF4y2Ba 4186gydF4y2Ba 10.48550 / arXiv.1810.04805gydF4y2Ba 唱gydF4y2Ba ETKgydF4y2Ba De MeuldergydF4y2Ba FgydF4y2Ba 介绍CoNLL-2003共享任务:独立于语言的命名实体识别gydF4y2Ba 2003gydF4y2Ba 第七届自然语言学习会议gydF4y2Ba 二三年五月三十一日gydF4y2Ba 埃德蒙顿,加拿大gydF4y2Ba 142gydF4y2Ba 147gydF4y2Ba 10.3115/1119176.1119195gydF4y2Ba SubasigydF4y2Ba 一个gydF4y2Ba 使用Python进行数据分析的实用机器学习gydF4y2Ba 2020gydF4y2Ba 华盛顿特区gydF4y2Ba 学术PresszgydF4y2Ba dslim / bert-base-NERgydF4y2Ba 2021-08-15gydF4y2Ba https://huggingface.co/dslim/bert-base-NER/tree/maingydF4y2Ba 狼gydF4y2Ba TgydF4y2Ba 首次亮相gydF4y2Ba lgydF4y2Ba 山gydF4y2Ba VgydF4y2Ba ChaumondgydF4y2Ba JgydF4y2Ba DelanguegydF4y2Ba CgydF4y2Ba 莫伊gydF4y2Ba 一个gydF4y2Ba CistacgydF4y2Ba PgydF4y2Ba RaultgydF4y2Ba RgydF4y2Ba LoufgydF4y2Ba RgydF4y2Ba FuntowiczgydF4y2Ba 米gydF4y2Ba 戴维森gydF4y2Ba JgydF4y2Ba 施莱弗gydF4y2Ba 年代gydF4y2Ba 冯滚筒gydF4y2Ba PgydF4y2Ba 妈gydF4y2Ba CgydF4y2Ba JernitegydF4y2Ba YgydF4y2Ba 并不gydF4y2Ba JgydF4y2Ba 徐gydF4y2Ba CgydF4y2Ba Le ScaogydF4y2Ba TgydF4y2Ba 贵港市gydF4y2Ba 年代gydF4y2Ba 德拉姆gydF4y2Ba 米gydF4y2Ba 左手gydF4y2Ba 问gydF4y2Ba 冲gydF4y2Ba 我gydF4y2Ba HuggingFace的变形金刚:最先进的自然语言处理gydF4y2Ba arXiv预印本gydF4y2Ba 2019gydF4y2Ba 1gydF4y2Ba 8gydF4y2Ba 10.48550 / arXiv.1910.03771gydF4y2Ba 美国人口调查局gydF4y2Ba OnTheMapgydF4y2Ba 2021-03-03gydF4y2Ba https://onthemap.ces.census.govgydF4y2Ba 威廉姆斯gydF4y2Ba EgydF4y2Ba 航空公式v1.47。大圆导航公式gydF4y2Ba 2021-06-14gydF4y2Ba https://www.edwilliams.org/avform147.htmgydF4y2Ba 沃克gydF4y2Ba NgydF4y2Ba 布莱斯gydF4y2Ba JgydF4y2Ba 黑色的gydF4y2Ba 再保险gydF4y2Ba 为政策制定解读卫生统计数据:头条背后的故事gydF4y2Ba 《柳叶刀》gydF4y2Ba 2007gydF4y2Ba 03gydF4y2Ba 369gydF4y2Ba 9565gydF4y2Ba 956gydF4y2Ba 963gydF4y2Ba 10.1016 / s0140 - 6736 (07) 60454 - 1gydF4y2Ba APOLLO(项目编号:10061)gydF4y2Ba 2022-03-02gydF4y2Ba https://git.doit.wisc.edu/smph-public/dom/uw-icu-data-science-lab-public/APOLLOgydF4y2Ba AspelundgydF4y2Ba GgydF4y2Ba 冰岛的COVID-19:人工智能在公共卫生中的作用越来越大gydF4y2Ba 艺术及外科gydF4y2Ba 2021gydF4y2Ba 1gydF4y2Ba 11gydF4y2Ba 17gydF4y2Ba 10.20517 / ais.2021.03gydF4y2Ba 拉扎。gydF4y2Ba KgydF4y2Ba 人工智能对抗COVID-19:当前研究的元分析gydF4y2Ba 研究大数据gydF4y2Ba 2020gydF4y2Ba 165gydF4y2Ba 176gydF4y2Ba 10.1007 / 978 - 3 - 030 - 55258 - 9 - _10gydF4y2Ba VenkataramangydF4y2Ba NgydF4y2Ba 胡桐gydF4y2Ba 公元前gydF4y2Ba SiaugydF4y2Ba CgydF4y2Ba 在COVID-19大流行期间,在一家急症医院创新使用卫生信息学来加强接触者追踪gydF4y2Ba 美国医学信息协会gydF4y2Ba 2020gydF4y2Ba 12gydF4y2Ba 09gydF4y2Ba 27gydF4y2Ba 12gydF4y2Ba 1964gydF4y2Ba 1967gydF4y2Ba 10.1093 /地点/ ocaa184gydF4y2Ba 32835358gydF4y2Ba 5896533gydF4y2Ba PMC7499570gydF4y2Ba 刘gydF4y2Ba YgydF4y2Ba WhitfieldgydF4y2Ba CgydF4y2Ba 张gydF4y2Ba TgydF4y2Ba 豪泽gydF4y2Ba 一个gydF4y2Ba 雷诺兹gydF4y2Ba TgydF4y2Ba 安瓦尔gydF4y2Ba 米gydF4y2Ba 利用自然语言处理和机器学习,通过社交媒体监测COVID-19大流行gydF4y2Ba 健康科学系统gydF4y2Ba 2021gydF4y2Ba 12gydF4y2Ba 25gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 25gydF4y2Ba 10.1007 / s13755 - 021 - 00158 - 4gydF4y2Ba 34188896gydF4y2Ba 158gydF4y2Ba PMC8226148gydF4y2Ba 麦基gydF4y2Ba TKgydF4y2Ba 李gydF4y2Ba JgydF4y2Ba PurushothamangydF4y2Ba VgydF4y2Ba NaligydF4y2Ba 米gydF4y2Ba 沙阿gydF4y2Ba NgydF4y2Ba BardiergydF4y2Ba CgydF4y2Ba 蔡gydF4y2Ba 米gydF4y2Ba 梁gydF4y2Ba BgydF4y2Ba 大数据、自然语言处理和深度学习用于检测和描述非法COVID-19产品销售:在Twitter和Instagram上进行信息监测研究gydF4y2Ba JMIR公共卫生监测gydF4y2Ba 2020gydF4y2Ba 08gydF4y2Ba 25gydF4y2Ba 6gydF4y2Ba 3.gydF4y2Ba e20794gydF4y2Ba 10.2196/20794gydF4y2Ba 32750006gydF4y2Ba v6i3e20794gydF4y2Ba PMC7451110gydF4y2Ba 克莱因gydF4y2Ba 阿兹gydF4y2Ba 玛吉医生gydF4y2Ba 一个gydF4y2Ba 奥康纳gydF4y2Ba KgydF4y2Ba 弗洛雷斯AmarogydF4y2Ba 霁gydF4y2Ba WeissenbachergydF4y2Ba DgydF4y2Ba 冈萨雷斯埃尔南德斯gydF4y2Ba GgydF4y2Ba 使用Twitter跟踪COVID-19:自然语言处理管道和探索性数据集gydF4y2Ba J医疗互联网服务gydF4y2Ba 2021gydF4y2Ba 01gydF4y2Ba 22gydF4y2Ba 23gydF4y2Ba 1gydF4y2Ba e25314gydF4y2Ba 10.2196/25314gydF4y2Ba 33449904gydF4y2Ba v23i1e25314gydF4y2Ba PMC7834613gydF4y2Ba 实施和使用数字工具加强传统接触者追踪指南:卫生部门COVID-19接触者追踪gydF4y2Ba 2021-11-18gydF4y2Ba https://www.cdc.gov/coronavirus/2019-ncov/downloads/php/guidelines-digital-tools-contact-tracing.pdfgydF4y2Ba GunasekerangydF4y2Ba DVgydF4y2Ba ThamgydF4y2Ba YgydF4y2Ba 停gydF4y2Ba DSWgydF4y2Ba 棕褐色gydF4y2Ba GSWgydF4y2Ba 黄gydF4y2Ba 泰gydF4y2Ba 2019冠状病毒病期间的数字卫生:实施眼科护理新模式的经验教训gydF4y2Ba 《柳叶刀》数字健康gydF4y2Ba 2021gydF4y2Ba 02gydF4y2Ba 3.gydF4y2Ba 2gydF4y2Ba e124gydF4y2Ba e134gydF4y2Ba 10.1016 / s2589 - 7500 (20) 30287 - 9gydF4y2Ba
Baidu
map