这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
在威斯康星州,COVID-19病例访谈表单包含自由文本字段,需要对这些字段进行挖掘,以确定潜在的疫情,以便制定有针对性的政策。我们开发了一种自动管道,将自由文本输入预训练的神经语言模型,以识别爆发疫情的企业和设施。gydF4y2Ba
我们的目标是检查针对现有疫情和潜在的新群集的自然语言处理管道的准确性和召回率。gydF4y2Ba
COVID-19病例的数据提取自2020年7月1日至2021年6月30日期间戴恩县的威斯康星州电子疾病监测系统(WEDSS)。案例访谈表单中的特征被输入到来自变形金刚的双向编码器表示(BERT)模型中,该模型针对命名实体识别(NER)进行了微调。我们还开发了一种新的位置映射工具,为相关NER提供地址。精度和召回率是根据人工验证的爆发和WEDSS中的有效地址进行测量的。gydF4y2Ba
共有46,798例COVID-19病例,共有4,183,273个BERT令牌和15,051个唯一令牌。NER工具的召回率和精密度分别为0.67 (95% CI 0.66-0.68)和0.55 (95% CI 0.54-0.57)。对于定位绘图工具,召回率和精密度分别为0.93 (95% CI 0.92-0.95)和0.93 (95% CI 0.92-0.95)。在每个月的间隔内,NER工具识别出的潜在集群比WEDSS验证的要多。gydF4y2Ba
我们开发了一种新的工具管道,用于识别具有相关地址的现有疫情和新集群。我们的管道从全州数据库中获取数据,并可能用于协助当地卫生部门进行有针对性的干预。gydF4y2Ba
截至2021年12月1日,威斯康星州确诊了884,701例SARS-CoV-2 (COVID-19)病例[gydF4y2Ba
命名实体识别(NER)是一种根据类对单词进行分类的NLP任务,例如,将一个标记识别为一个人、组织或位置。目前的系统利用了预先训练的神经语言模型的力量[gydF4y2Ba
我们的目标是开发一种NLP管道,使用预训练的NER神经语言模型,应用于威斯康星州电子疾病监测系统(WEDSS)记录的接触追踪访谈表单,以识别COVID-19大流行期间的潜在疫情。此外,我们试图设计一种新的位置映射工具,以从NER工具中识别给定命名实体的最可能地址。我们的研究目标是测量NLP管道中NER工具和位置映射工具的精度和召回率,以识别新的群集和现有爆发。我们的管道可以作为公共卫生信息学的基准,在COVID-19和其他大流行期间协助针对性政策的接触者追踪工作,并为州和地方卫生部门的工作人员提供大规模自动化。gydF4y2Ba
WEDSS是一个安全的基于网络的系统,旨在促进传染病的报告、调查和监测,其中包括自2020年1月以来的COVID-19数据。WEDSS涵盖了整个威斯康星州,但这项研究是与麦迪逊和戴恩县公共卫生部门(PHMDC)合作进行的,后者是威斯康星州人口第二大县。我们从WEDSS中提取结构化和非结构化字段用于分析,包括来自县级数据的文本字段,其中包含来自病例访谈表格的相关接触者追踪字段。病例访谈表包含以下部分:(1)症状;(2)实验室和临床资料;(三)医疗条件;(4) COVID-19风险,包括旅行风险;(5)居住和职业设置;(六)潜在的病源;(七)隔离检疫措施; (8) facility intervention; (9) contact-tracing details; and (10) investigation notes. The text fields included addresses for businesses, facilities, and schools where the exposed individual may have entered or worked. The investigation note field was the longest text field with a median token count of 127 (IQR 67-233) and frequently included dates and names of places visited by the individual during their exposure period. For the pipeline development, 26 structured and unstructured text fields from WEDSS data extracts were concatenated into 1 document as input into our language model. There was 1 document per case, and model runs were at the case level. Postprocessing of the named entities included the removal of frequently occurring named entities (ie, “Wisconsin,” “GMT”) identified from 12 months of posttesting case interview forms and removal of duplicate named entities.
确诊病例是按照检测日期筛选的SARS-CoV-2 RNA分子或聚合酶链反应(PCR)检测结果为阳性的个体。根据美国疾病控制及预防中心(CDC)的个案定义[gydF4y2Ba
“群集”或“爆发”没有标准定义(这两个术语是可以互换的),疾病预防控制中心指出,爆发的定义与当地情况有关[gydF4y2Ba
我们使用了预训练的来自变压器(BERT)基础模型的双向编码器表示[gydF4y2Ba
对WEDSS中的文本字段进行预处理,以删除没有意义的实体,例如联系人跟踪器的名称。命名实体的后处理包括删除频繁出现的术语(例如,“Wisconsin”,“GMT”),删除一个文档中重复的命名实体,删除模型偶尔标记的子词标记,以及删除不提供信息的模式。使用WordPiece标记器从每个文档构建最多512个标记的组,然后将它们输入模型。对于从提取的WEDSS数据中报告的具有相同命名实体的所有病例id,提供了平均预测概率作为将其识别为个人、组织、位置或其他类型的可能性的分数。gydF4y2Ba
通过模糊匹配确定了NER管道发现的与契约跟踪程序已经发现的爆发相关的实体。共享事件ID的NER工具中的已知爆发名称和实体也通过令牌排序比率进行匹配(要比较的每个字符串都按字母顺序进行标记和排序,然后相似性计算为相似性= [2 ×匹配字符数/字符总数]× 100)。令牌排序比为70或以上的实体和爆发被视为匹配。gydF4y2Ba
在开发NER管道期间,我们注意到许多命名实体包含在一个县内可能有多个位置的通用企业名称,例如“McDonald’s”或“Walmart”。因此,我们使用谷歌Places应用程序接口(API)在管道中开发了一个位置映射工具,以确定集群中靠近1个或多个case id的位置的可能匹配(gydF4y2Ba
NER工具和位置映射工具的过程图。ETL:提取、转换和加载;NER:命名实体识别。gydF4y2Ba
截至2021年10月戴恩县COVID-19集群的位置映射示例。灰点显示可能或已知群集/爆发的事件案例。白点表示该星团的计算质心点。黑点显示提交给谷歌Places API的经过模糊处理的质心纬度/经度点,由较大的灰色圆圈显示。API:应用程序接口。gydF4y2Ba
位置映射器为命名实体提供了最可能的地址。如果不能进行精确匹配,则使用模糊字符串匹配对前3个结果进行过滤。在任何一种情况下,都会提供每个企业地址匹配的预测概率,然后将这些结果合并到最终报告中,以提供与已命名实体关联的地址,用于联系人跟踪。在威斯康辛州、明尼苏达州、爱荷华州、密歇根州和伊利诺伊州,映射到城市名称的命名实体被过滤掉了,因为它们不够具体,无法确定精确的位置。gydF4y2Ba
为了遵守谷歌Places API服务条款,我们从WEDSS数据中所有与covid -19相关的表单的字段中提取了组织和地点名称,以创建命名实体的内部数据库,用于在NER工具和谷歌Places API结果之间进行映射。因此,没有缓存谷歌数据。搜索算法只使用谷歌Places API来搜索与我们的内部命名实体数据库相匹配的命名实体。中显示管道和报告系统的完整流程图gydF4y2Ba
流程图从WEDSS数据源开始,然后对威斯康星大学(UW)的内部健康保险可携带性和责任法案(HIPAA)安全计算环境进行提取、转换和加载(ETL)过程。案例报告访谈表单中的相关字段经过特征工程和WordPiece标记器,用于预训练的神经语言模型,以将命名实体分类为业务名称和设施。只有事件id为>2的集群中符合条件的命名实体才会被发送到位置映射工具。位置映射工具通过随机移动来识别集群的质心经度/纬度,以用于去识别目的。接下来,为转移的质心位置执行谷歌Places API,并针对来自NER工具的命名实体运行业务和设施名称的接近结果。如果在初始运行中没有返回地址,则处理扩展搜索半径。排名前三的结果显示在具有优先级分数的模糊匹配模式中,并共享在一份报告中,该报告被发送回威斯康星州卫生服务部(DHS)的基于web的报告系统。任何卫生部门的员工都可以通过基于网络的报告系统查看该报告。gydF4y2Ba
一些提交给位置映射工具的命名实体在30公里搜索半径之外,但它们可能仍然与识别新集群有关。对于搜索半径之外的已命名实体,我们开发了一种扩展搜索算法,覆盖更大的搜索半径,并定位企业或组织名称,这些名称将映射到最初30公里搜索半径内未找到的给定已命名实体。该算法创建并利用了一个互锁等边三角形网格。搜索网格首先从原始纬度/经度质心点向外延伸,然后围绕该质心点顺时针旋转,创建互锁三角形(gydF4y2Ba
扩展位置映射算法的框架。如果在初始搜索半径内没有找到指定的实体,则通过创建一系列互锁的等边三角形来创建从原始搜索向外扩展的额外搜索半径,其中三角形的每个顶点都是一个新的API起始搜索点。当找到至少1个匹配或达到最大距离时,扩展搜索将停止。API:应用程序接口。gydF4y2Ba
地球的曲率意味着这个网格不会沿着直线,所以我们使用haversine公式的实现来在网格中创建具有弯曲形状的多边形[gydF4y2Ba
2020年7月1日至2021年6月30日期间戴恩县所有确诊和可能的个人病例都作为回顾性验证数据集。根据已确认的爆发设施/企业名称或与WEDSS数据库中记录的病例相关联的有效企业地址对NER工具进行了评估。NER工具生成的命名实体在1周内符合集群的标准(命名实体的>2个实例),并且与WEDSS中确认的爆发相匹配,则标记为真阳性(TPs)。此外,在一周内具有>2个实例且在WEDSS中具有有效业务地址的命名实体也包含在TP组中,并表示新的集群。将已确认和未确认的病毒爆发(可能是新的群集)都包括到TP组的理由是,它们符合PHMDC对群集的定义,并且包含值得进行调查(未验证的病毒爆发)或避免重复调查(已验证的病毒爆发)的有效地址。在WEDSS中没有地址匹配的NER工具生成的命名实体被标记为误报(FPs)。假阴性(FNs)定义为WEDSS数据集中没有来自NER工具的相应命名实体的已确认疫情。评价指标报告为精密度= [TP/(TP + FP)]和召回率= [TP/(TP + FN)]。这些指标也分别被称为阳性预测值和敏感性。在为期12个月的研究期间,对NER工具进行了评估。 The precision and recall across the 12 months were reported to provide the largest sample size for reporting metrics. Monthly metrics were also reported to represent seasonal variation and various public health policies that affected case rates and prevalence, which would also affect precision [
对于位置映射算法,报告了一组单独的精度和召回措施。TPs被定义为WEDDS地址内部数据库中的业务地址,映射到NER工具生成的命名实体的谷歌Places API地址。FP是没有映射到WEDSS地址数据库的谷歌Places API地址。FN被定义为来自NER工具的命名实体,它映射到我们的内部业务名称数据库,但当可以找到合理的API结果时,却不返回谷歌Places API地址。由于成本和计算资源的限制,对位置映射算法的验证只进行了1个月(2020年10月)。对于NER和位置映射验证,精度和召回度量都是使用引导的95% ci生成的。gydF4y2Ba
该管道的目标是根据在WEDSS中收集的任何时间间隔的接触者跟踪表单生成摘要报告,并确定潜在的群集。示例报告显示在gydF4y2Ba
县卫生部门的接触者追踪者示例摘要报告gydF4y2Ba一个gydF4y2Ba.gydF4y2Ba
命名实体gydF4y2BabgydF4y2Ba | 类型gydF4y2Ba | 频率gydF4y2BacgydF4y2Ba | 预测gydF4y2Ba |
例idgydF4y2BaegydF4y2Ba | 爆发的实体gydF4y2BafgydF4y2Ba | 地址gydF4y2BaggydF4y2Ba | 预测gydF4y2Ba |
太阳大草原gydF4y2Ba | 的地方gydF4y2Ba | 12gydF4y2Ba | 0.67gydF4y2Ba | 12345年,12346年gydF4y2Ba | 太阳大草原gydF4y2Ba | - - - - - -gydF4y2Ba我gydF4y2Ba | 100.0gydF4y2Ba |
当地的零售商gydF4y2Ba | 组织gydF4y2Ba | 7gydF4y2Ba | 0.54gydF4y2Ba | 12347, 12349, 22221gydF4y2Ba | 零售商001gydF4y2Ba | 钥匙和东西,21科学博士,麦迪逊,威斯康星州gydF4y2Ba | 95.2gydF4y2Ba |
仓储式商店gydF4y2Ba | 组织gydF4y2Ba | 3.gydF4y2Ba | 0.45gydF4y2Ba | 13347, 18349, 22221gydF4y2Ba | Boxstore 08年gydF4y2Ba | 电路城,1561洛基路,维罗纳,WIgydF4y2Ba | 87.1gydF4y2Ba |
快餐的地方gydF4y2Ba | 组织gydF4y2Ba | 2gydF4y2Ba | 0.71gydF4y2Ba | 17247, 18149, 29121gydF4y2Ba | - - - - - -gydF4y2Ba | 汉堡时间:威斯康星州麦迪逊州街1234号gydF4y2Ba | 88.2gydF4y2Ba |
一个gydF4y2Ba该示例基于虚构的数据,由于隐私限制,并不是来自原始的威斯康星电子疾病监测系统(WEDDS)数据。gydF4y2Ba
bgydF4y2Ba命名实体:命名实体识别(NER)管道的结果。命名实体只有在具有与之关联的>2病例id时才符合集群爆发的条件。gydF4y2Ba
cgydF4y2Ba频率:报告期间可用病例id中唯一提到的NER。gydF4y2Ba
dgydF4y2Ba预测概率1:分类器对命名实体类型的平均预测概率。gydF4y2Ba
egydF4y2Ba案例id:联系人跟踪器用于查找的唯一案例id。gydF4y2Ba
fgydF4y2Ba爆发实体:已知爆发暴露。gydF4y2Ba
ggydF4y2Ba地址:使用来自谷歌的k-means聚类地址的经度/纬度匹配命名实体。gydF4y2Ba
hgydF4y2Ba预测概率2:位置映射工具预测的概率。gydF4y2Ba
我gydF4y2BaNER和位置映射工具没有结果。gydF4y2Ba
威斯康星大学的机构审查委员会批准了这项研究,威斯康星国土安全部和威斯康星大学之间建立了数据使用协议。没有华盛顿大学和国土安全部的明确许可,没有数据在批准的华盛顿大学研究环境及其批准的用户之外共享。该管道目前可在威斯康星州的公共卫生报告系统中使用,源代码是开源的,可供公众使用[gydF4y2Ba
在46,902例确诊和疑似病例中,只有1595例(3.40%)为疑似病例,其余为COVID-19确诊病例。在Dane县,非西班牙裔白人占确诊和疑似病例30,423例(64.87%),中位年龄为30岁(IQR 20-47);看到gydF4y2Ba
2020年7月1日至2021年6月30日威斯康星州戴恩县COVID-19病例和非病例的特征。gydF4y2Ba
个人特征gydF4y2Ba | 阴性病例(N=323,424例)gydF4y2Ba | 疑似/确诊病例(N=46,902)gydF4y2Ba | 总(N = 370326)gydF4y2Ba | |
年龄(年),中位数(IQR)gydF4y2Ba | 32 (20-51)gydF4y2Ba | 30日(20-47)gydF4y2Ba | 31日(20-51)gydF4y2Ba | |
|
||||
|
男性gydF4y2Ba | 152852 (47.26)gydF4y2Ba | 23506 (50.12)gydF4y2Ba | 176358 (47.62)gydF4y2Ba |
|
女gydF4y2Ba | 165482 (51.17)gydF4y2Ba | 23314 (49.71)gydF4y2Ba | 188796 (50.98)gydF4y2Ba |
|
未知的gydF4y2Ba | 5090 (1.57)gydF4y2Ba | 82 (0.17)gydF4y2Ba | 5172 (1.40)gydF4y2Ba |
|
||||
|
非西班牙裔白人gydF4y2Ba | 199629 (61.72)gydF4y2Ba | 30423 (64.87)gydF4y2Ba | 230052 (62.12)gydF4y2Ba |
|
非西班牙裔黑人gydF4y2Ba | 14302 (4.42)gydF4y2Ba | 3266 (6.96)gydF4y2Ba | 17568 (4.74)gydF4y2Ba |
|
拉美裔gydF4y2Ba | 23878 (7.38)gydF4y2Ba | 6662 (14.20)gydF4y2Ba | 30540 (8.25)gydF4y2Ba |
|
其他gydF4y2Ba | 85615 (26.47)gydF4y2Ba | 6551 (13.97)gydF4y2Ba | 92166 (24.89)gydF4y2Ba |
|
||||
|
没有记录gydF4y2Ba | 311809 (96.41)gydF4y2Ba | 37083 (79.06)gydF4y2Ba | 348892 (94.21)gydF4y2Ba |
|
Nonuniversity学生gydF4y2Ba | 3099 (0.96)gydF4y2Ba | 2391 (5.10)gydF4y2Ba | 5490 (1.48)gydF4y2Ba |
|
大学的学生gydF4y2Ba | 1161 (0.36)gydF4y2Ba | 903 (1.93)gydF4y2Ba | 2064 (0.56)gydF4y2Ba |
|
退休gydF4y2Ba | 573 (0.18)gydF4y2Ba | 468 (1.00)gydF4y2Ba | 1041 (0.28)gydF4y2Ba |
|
失业gydF4y2Ba | 502 (0.16)gydF4y2Ba | 429 (0.91)gydF4y2Ba | 931 (0.25)gydF4y2Ba |
|
其他gydF4y2Ba | 6280 (1.94)gydF4y2Ba | 5628 (12.00)gydF4y2Ba | 11908 (3.22)gydF4y2Ba |
|
||||
|
麦迪逊gydF4y2Ba | 159983 (49.47)gydF4y2Ba | 23949 (51.06)gydF4y2Ba | 183932 (49.67)gydF4y2Ba |
|
太阳大草原gydF4y2Ba | 22667 (7.01)gydF4y2Ba | 3722 (7.94)gydF4y2Ba | 26389 (7.13)gydF4y2Ba |
|
菲奇堡gydF4y2Ba | 16104 (4.98)gydF4y2Ba | 2983 (6.36)gydF4y2Ba | 19087 (5.15)gydF4y2Ba |
|
米德尔顿gydF4y2Ba | 15991 (4.94)gydF4y2Ba | 1838 (3.92)gydF4y2Ba | 17829 (4.81)gydF4y2Ba |
|
维罗纳gydF4y2Ba | 15224 (4.71)gydF4y2Ba | 1745 (3.72)gydF4y2Ba | 16969 (4.58)gydF4y2Ba |
|
其他gydF4y2Ba | 93455 (28.90)gydF4y2Ba | 12665 (27.00)gydF4y2Ba | 106120 (28.66)gydF4y2Ba |
一个gydF4y2Ba可能有多种反应。gydF4y2Ba
2020年1月1日至2021年10月31日,威斯康星州戴恩县COVID-19病例和非病例的时间变化趋势。数据从WEDSS中检索。类别折线图按天汇总,并在2020年1月至2021年10月的移动7天窗口中平均。美国疾病控制与预防中心于2020年3月11日宣布COVID - 19为全球大流行。麦迪逊和戴恩县公共卫生部的初步口罩规定(第1号命令)于2020年5月13日生效,并在2021年6月2日之前进行了更新和修改。命令2(蒙面紧急命令)于2021年8月19日生效。垂直虚线是卫生政策变化的界限。灰色阴影区域表示管道分析的验证期。疾病控制和预防中心;威斯康星电子疾病监测系统。gydF4y2Ba
验证数据集包括在联系访谈表单的自由文本字段中的4,183,273个总BERT令牌和15,051个唯一BERT令牌。最长的字段是“InvestigationNotes”,中位数token计数为126.5 (IQR 60.7 -232.5)。gydF4y2Ba
在12个月的验证中,召回率为0.67 (95% CI 0.66-0.68),精密度为0.55 (95% CI 0.54-0.57)。值得注意的是,随着COVID-19的激增和减弱,精确度和召回分数逐月变化。最好的表现是在病例量高的高峰月份。在2020年10月至2021年1月期间,病例量分别为3300至7100例,召回率分别为0.69至0.72例。然而,在病例较少的月份,如2021年5月至2021年6月(病例数在149至410之间),召回率分别降至0.33和0.29。为了精确起见,也观察到了类似的趋势,峰值为0.64,低谷为0.30 (gydF4y2Ba
在1个月的位置映射工具验证期内(2020年10月)gydF4y2Ba
NER的结果gydF4y2Ba一个gydF4y2Ba2020年7月1日至2021年6月30日期间,威斯康星州戴恩县的工具按月分类。gydF4y2Ba
月gydF4y2Ba | 情况下,NgydF4y2Ba | 确认爆发,n (%)gydF4y2Ba | 通过词法操作(APOLLO)自动公开爆发本地化识别的爆发总数,n (%)gydF4y2Ba | 精度(95%置信区间)gydF4y2Ba | 召回率(95%置信区间)gydF4y2Ba |
|
2020年7月gydF4y2Ba | 508gydF4y2Ba | 137 (27.0)gydF4y2Ba | 251 (49.4)gydF4y2Ba | 0.51 (0.40 - -0.62)gydF4y2Ba | 0.28 (0.23 - -0.34)gydF4y2Ba | 0.37gydF4y2Ba |
2020年8月gydF4y2Ba | 783gydF4y2Ba | 133 (17.0)gydF4y2Ba | 350 (44.7)gydF4y2Ba | 0.34 (0.25 - -0.44)gydF4y2Ba | 0.23 (0.17 - -0.29)gydF4y2Ba | 0.27gydF4y2Ba |
2020年9月gydF4y2Ba | 2693gydF4y2Ba | 256 (9.5)gydF4y2Ba | 889 (33.0)gydF4y2Ba | 0.51 (0.46 - -0.56)gydF4y2Ba | 0.56 (0.51 - -0.59)gydF4y2Ba | 0.53gydF4y2Ba |
2020年10月gydF4y2Ba | 4619gydF4y2Ba | 459 (9.9)gydF4y2Ba | 1267 (27.4)gydF4y2Ba | 0.64 (0.60 - -0.67)gydF4y2Ba | 0.69 (0.67 - -0.71)gydF4y2Ba | 0.66gydF4y2Ba |
2020年11月gydF4y2Ba | 7129gydF4y2Ba | 564 (7.9)gydF4y2Ba | 1906 (26.7)gydF4y2Ba | 0.62 (0.59 - -0.65)gydF4y2Ba | 0.70 (0.68 - -0.72)gydF4y2Ba | 0.66gydF4y2Ba |
2020年12月gydF4y2Ba | 3772gydF4y2Ba | 308 (8.2)gydF4y2Ba | 1078 (28.6)gydF4y2Ba | 0.58 (0.54 - -0.62)gydF4y2Ba | 0.70 (0.67 - -0.73)gydF4y2Ba | 0.64gydF4y2Ba |
2021年1月gydF4y2Ba | 3361gydF4y2Ba | 241 (7.2)gydF4y2Ba | 1062 (31.6)gydF4y2Ba | 0.53 (0.49 - -0.58)gydF4y2Ba | 0.72 (0.69 - -0.75)gydF4y2Ba | 0.61gydF4y2Ba |
2021年2月gydF4y2Ba | 2339gydF4y2Ba | 157 (6.7)gydF4y2Ba | 899 (38.4)gydF4y2Ba | 0.42 (0.36 - -0.47)gydF4y2Ba | 0.56 (0.51 - -0.61)gydF4y2Ba | 0.48gydF4y2Ba |
2021年3月gydF4y2Ba | 1513gydF4y2Ba | 134 (8.9)gydF4y2Ba | 647 (42.8)gydF4y2Ba | 0.37 (0.31 - -0.43)gydF4y2Ba | 0.52 (0.46 - -0.57)gydF4y2Ba | 0.43gydF4y2Ba |
2021年4月gydF4y2Ba | 1460gydF4y2Ba | 161 (11.0)gydF4y2Ba | 639 (43.8)gydF4y2Ba | 0.46 (0.39 - -0.53)gydF4y2Ba | 0.50 (0.45 - -0.55)gydF4y2Ba | 0.48gydF4y2Ba |
2021年5月gydF4y2Ba | 410gydF4y2Ba | 81 (19.8)gydF4y2Ba | 233 (56.8)gydF4y2Ba | 0.41 (0.28 - -0.52)gydF4y2Ba | 0.33 (0.23 - -0.4)gydF4y2Ba | 0.36gydF4y2Ba |
2021年6月gydF4y2Ba | 149gydF4y2Ba | 21日(14.1)gydF4y2Ba | 88 (59.1)gydF4y2Ba | 0.30 (0.12 - -0.52)gydF4y2Ba | 0.29 (0.11 - -0.44)gydF4y2Ba | 0.30gydF4y2Ba |
一个gydF4y2BaNER:命名实体识别。gydF4y2Ba
我们开发了一种新的工具管道,能够提取大量监测数据并总结报告,以突出现有和潜在的疫情及其相关地址。摘要报告以每周为间隔,以县为单位,以系统的方法确定威斯康星州任何地区的疫情。我们以麦迪逊和戴恩县为重点,展示了我们的管道的性能,并表明我们的管道在高病例量时期表现最佳,此时可能最需要使用自动化方法进行接触追踪工作。此外,我们的管道有潜力识别传统方法无法识别的新型群集爆发。最终,对于需要构建关键字和手动扫描自由文本报告以查找潜在爆发位置的数据团队来说,我们的工具可能会克服现有的限制。gydF4y2Ba
在COVID-19大流行期间,已经出现了利用人工智能方法的工具,用于公共卫生应用[gydF4y2Ba
这项工作的动机始于PHMDC的COVID-19数据团队联系华盛顿大学的数据科学团队,以帮助解决在联系访谈表单中挖掘许多自由文本字段时遇到的困难。与该地区其他州和县一样,戴恩县的召回率在秋冬季急剧上升,我们的工具显示,在这些时期召回率超过70%。尽管由于FPs的原因,精度值较低,但与手动扫描自由文本字段或为单个报告构建定制的基于规则的关键字算法相比,在我们的摘要报告中检查FPs对数据团队来说可能仍然不那么繁重。更重要的决定因素是通过可接受的召回来减少可能错过的爆发的fn。在病例量低于数百例的几个月里,我们工具的准确性会下降,但我们预计在这些时期,该工具的使用率可能会降低,因为工作人员有更多时间通过现有的标准操作程序来识别和调查疫情。目前,该报告的一个版本已被纳入全州范围的报告系统,用于在威斯康星州的任何县进行beta测试和应用(gydF4y2Ba
虽然像谷歌这样的私营企业在地理测绘技术领域处于领先地位,但我们利用他们的定位软件来支持我们独特的位置测绘工具。我们首先从我们的WEDSS数据库中建立了我们自己的所有潜在企业名称和组织的内部数据库,以遵守许可协议。这允许我们执行API调用并识别任何匹配,而不存储谷歌的任何数据,也不违反任何使用该工具的许可协议。我们注意到一些NER地点是连锁餐馆和商店,因此使用无监督的方法来识别集群中的质心经度/纬度,使我们能够预测从NER工具中识别出的业务最有可能的位置。我们在这部分系统中的准确性和召回率得分很高,可能会减少工作人员识别准确地址所需的时间。接触追踪访谈表格是在威斯康辛州的县级收集的,并记录到中央WEDSS数据库中,因此我们预计我们的工具可能会在全州范围内扩展,以捕捉更多的农村地区或覆盖跨越多个县的通勤距离。gydF4y2Ba
在我们的工作中出现了一些限制。首先,我们运行NER工具作为一个“开箱即用”的解决方案,没有任何进一步的调优。用于微调BERT-base-NER模型的训练数据集来自特定的时间跨度,可能不能很好地推广到我们的领域。然而,由于时间和资源的限制,我们不能投资于构建内部注释的数据集以进行微调。我们期望模型的性能可以通过领域适应继续提高,但是我们选择使用当前通用的最先进的工具来开发我们的管道。其次,我们假设集群家庭地址质心周围的半径从我们的位置映射工具中捕获了所有相关的位置。这还不包括从州外或离家更远的地方旅行的人。我们尝试用半径为250公里的扩展映射算法来缓解这个问题。最后,我们的工具可以灵活地处理跨越不同时间间隔的联系访谈表单,但ETL数据从威斯康星州报告系统传输到PHMDC政策制定者的延迟阻碍了该工具的实时警报系统。我们目前的系统可以每24-48小时刷新一次,从病例报告表单输入WEDSS开始,这对于在高负载期间积压病例的数据分析师来说仍然很有用。 Our data use agreement prevented the real-time, on-site application of the pipeline by PHMDC staff, but this remains a future direction in data access and software development for our tool. Lastly, future work will incorporate results on the potentially new clusters to verify their relevance for investigation and confirm an outbreak. Prospective evaluation of the tool was not possible, given existing staff demands from the pandemic.
我们的自动化管道从全州数据库中获取数据,并可能在各个县部署,以协助威斯康星州的其他卫生部门在疫情爆发期间制定有针对性的政策。该工具是开源的,是一种可互操作的资源,也可以被邻国使用。此外,我们的管道也可以应用于其他需要分析自由文本数据的传染病和监测工作。gydF4y2Ba
应用程序接口gydF4y2Ba
来自变压器的双向编码器表示gydF4y2Ba
疾病控制和预防中心gydF4y2Ba
计算自然语言学习会议gydF4y2Ba
卫生服务部gydF4y2Ba
提取、转换和加载gydF4y2Ba
命名实体识别gydF4y2Ba
自然语言处理gydF4y2Ba
麦迪逊戴恩县公共卫生部门gydF4y2Ba
假阴性gydF4y2Ba
假阳性gydF4y2Ba
真阳性gydF4y2Ba
威斯康星大学gydF4y2Ba
威斯康星州电子疾病监测系统gydF4y2Ba
我们要感谢威斯康辛大学(UW)和卫生服务部(DHS)的数据协调员,特别是威斯康辛大学社会科学计算合作社的Dan Bongert,以及威斯康辛州公共卫生部门卫生信息学办公室的Jesus S Bacos和Jerry O Lipsey。我们还要感谢美国家庭数据科学研究所促成了数据使用协议,以及华盛顿大学的社会科学计算合作组织托管了用于分析的数据。gydF4y2Ba
本出版物中报道的研究得到了美国国立卫生研究院国家药物滥用研究所的支持,奖项为R01-DA051464 (MA), R01-DA051464- s1 (MA), K23-AA024503 (MA), R01-LM010090 (DD), R01-LM012973 (DD), R01-GM123193 (MMC), R01-HL157262 (MMC)和R01-DK126933-A1 (MMC)。gydF4y2Ba
MMC拥有一项住院患者风险分层算法专利(ARCD P0535US.P2),并获得了EarlySense (Tel Aviv, Israel)的研究支持。其余作者没有利益冲突。gydF4y2Ba