维护通知

由于必要的定期维护,JMIR出版物网站将不可用卡塔尔世界杯8强波胆分析2020年7月1日星期三美国东部时间晚上8点到10点.对于由此给您带来的不便,我们提前表示歉意。

谁会受到影响?

广告

接受/发表于:JMIR Infodemiology

提交日期:2022年4月14日
接受日期:2022年8月8日

这个预印本的最终、同行评议的出版版本可以在这里找到:

COVID-19错误信息检测:信息大流行的机器学习解决方案

Kolluri NL, Murthy D

COVID-19错误信息检测:信息大流行的机器学习解决方案

2022; 2 (2): e38756

DOI:/ 38756

警告:这是一篇作者提交的文章,未经同行评审或编辑。除非预印本显示为“已接受”,否则不应依赖预印本来指导临床实践或与健康相关的行为,也不应在新闻媒体上作为既定信息报道。

COVID-19错误信息检测:信息大流行的机器学习解决方案

  • Nikhil Leland Kolluri;
  • Dhiraj没吃

摘要

背景:

由于与covid -19相关的错误信息数量超过了事实核查员的能力,自动化和基于web的方法可以有效遏制在线错误信息。尽管初步快速干预取得了进展,但与covid -19有关的错误信息数量仍然巨大,继续压倒事实核查员。

摘要目的:

改进信息疫情应对的自动化和机器学习方法。

方法:

使用机器学习来评估仅使用与covid -19相关的事实核查数据、仅使用一般事实核查数据,还是同时使用两者来训练机器学习模型,是否会导致模型性能最高。经过事实核查,“虚假”内容与编程检索的“真实”内容相结合,创建了一个与covid -19相关的标记错误信息数据集,其中包含约7000个条目。2万张选票被众包给了这个数据集。

结果:

我们发现,尽管包含COVID-19错误信息数据保持或改善了模型性能,但测试中表现最好的模型使用了通用主题和COVID-19主题内容的组合。我们在COVID-19特定数据上训练的Bi-LSTM模型实现了93%的内部验证精度和75%的外部验证精度,证实了我们模型的实用性。我们研究的一个关键贡献是,我们能够建立一个联合模型,它的表现超过了人类对错误信息的投票。具体来说,当我们考虑机器学习模型与人类投票一致的输出时,我们的准确率达到了90%,优于单独的人类投票(准确率为73%)。

结论:

一般主题内容可在低数据情况下(例如,未来的大流行)补充有限的特定主题内容,以提高准确性。使用Bi-LSTM实现75%的外部验证准确性表明,在对COVID-19内容的准确性进行分类的艰巨任务中,机器学习可以产生比随机更好的结果。在由58.7%的数据集组成的“高置信度”分段上,90%的准确率(当结合机器学习和人类标签时)表明,即使是次优的机器学习标签也可以通过众包投票来增强,以提高仅高于人类水平的准确度。这些结果支持利用监督机器学习来阻止和打击未来与健康相关的虚假信息。


引用

请注明:

Kolluri NL, Murthy D

COVID-19错误信息检测:信息大流行的机器学习解决方案

2022; 2 (2): e38756

DOI:/ 38756

下载


请求排队。正在生成文件,请稍候。这可能需要一些时间。

©作者。版权所有。这是一份目前正在同行评审/社区评审(或接受/拒绝的手稿)的保密文件。作者已向JMIR出版物提供独家许可,在其网站卡塔尔世界杯8强波胆分析上发布此预印本,仅用于审查和打印前引用目的。虽然最终的同行评议论文可以在cc-by许可下发表,但在此阶段,作者和出版商明确禁止除评审目的外重新分发此论文草稿。

Baidu
map