JMIR预印本#38756:COVID-19错误信息检测:信息大流行的机器学习解决方案

当前预打印设置

(作者自选)

1.当手稿提交时，允许来自以下方面的同行评审:

(a)任何人(开放社区同行评审)
(b)编辑选定的审稿人(闭门同行评审)

2.当手稿提交时，将预印本PDF显示到:

(a)任何人，任何时间
(b)仅供登入用户使用
(c)任何人、任何时间(仅标题及摘要)
(d)没有人

3.当稿件被接受时，将接受的稿件PDF显示到:

(a)任何人，任何时间
(b)仅供登入用户使用
(c)任何人、任何时间(仅标题及摘要)

COVID-19错误信息检测:信息大流行的机器学习解决方案

Nikhil Leland Kolluri;
Dhiraj没吃

摘要

背景:

由于与covid -19相关的错误信息数量超过了事实核查员的能力，自动化和基于web的方法可以有效遏制在线错误信息。尽管初步快速干预取得了进展，但与covid -19有关的错误信息数量仍然巨大，继续压倒事实核查员。

摘要目的:

改进信息疫情应对的自动化和机器学习方法。

方法:

使用机器学习来评估仅使用与covid -19相关的事实核查数据、仅使用一般事实核查数据，还是同时使用两者来训练机器学习模型，是否会导致模型性能最高。经过事实核查，“虚假”内容与编程检索的“真实”内容相结合，创建了一个与covid -19相关的标记错误信息数据集，其中包含约7000个条目。2万张选票被众包给了这个数据集。

结果:

我们发现，尽管包含COVID-19错误信息数据保持或改善了模型性能，但测试中表现最好的模型使用了通用主题和COVID-19主题内容的组合。我们在COVID-19特定数据上训练的Bi-LSTM模型实现了93%的内部验证精度和75%的外部验证精度，证实了我们模型的实用性。我们研究的一个关键贡献是，我们能够建立一个联合模型，它的表现超过了人类对错误信息的投票。具体来说，当我们考虑机器学习模型与人类投票一致的输出时，我们的准确率达到了90%，优于单独的人类投票(准确率为73%)。

结论:

一般主题内容可在低数据情况下(例如，未来的大流行)补充有限的特定主题内容，以提高准确性。使用Bi-LSTM实现75%的外部验证准确性表明，在对COVID-19内容的准确性进行分类的艰巨任务中，机器学习可以产生比随机更好的结果。在由58.7%的数据集组成的“高置信度”分段上，90%的准确率(当结合机器学习和人类标签时)表明，即使是次优的机器学习标签也可以通过众包投票来增强，以提高仅高于人类水平的准确度。这些结果支持利用监督机器学习来阻止和打击未来与健康相关的虚假信息。

引用

请注明:

Kolluri NL, Murthy D

COVID-19错误信息检测:信息大流行的机器学习解决方案

2022; 2 (2): e38756

DOI:/ 38756

下载

请求排队。正在生成文件，请稍候。这可能需要一些时间。

卡塔尔世界杯8强波胆分析

JMIR预印本

接受/发表于:JMIR Infodemiology

提交日期:2022年4月14日

接受日期:2022年8月8日

COVID-19错误信息检测:信息大流行的机器学习解决方案

摘要

引用

版权