JMIR信息流行病学- COVID-19错误信息检测:信息流行的机器学习解决方案

原始论文

¹德克萨斯大学奥斯汀分校电子与计算机工程系计算媒体实验室，美国德克萨斯州奥斯汀市

²英国爱丁堡大学科学与工程学院工程学院

^3.美国德克萨斯州奥斯汀市德克萨斯大学穆迪传播学院新闻与媒体学院计算媒体实验室

*这些作者贡献相同

通讯作者:

Dhiraj Murthy，文学士，理学硕士，哲学博士

计算媒体实验室

穆迪传播学院新闻与媒体学院

德克萨斯大学奥斯汀分校

300w迪恩基顿(A0900)

奥斯汀,得克萨斯州,78712年

美国

电话:1 512 471 5775

电子邮件:Dhiraj.Murthy@austin.utexas.edu

背景:与covid -19相关的错误信息的数量早已超过了事实核查员可用来有效减轻其不良影响的资源。自动化和基于网络的方法可以有效遏制网上的错误信息。基于机器学习的方法已经在文本分类任务中取得了稳健的性能，包括可能质量较低的新闻可信度评估。尽管初步、快速的干预措施取得了进展，但与covid -19相关的错误信息的严重性继续让事实核查员不知所措。因此，迫切需要改进信息疫情应对的自动化和机器学习方法。

摘要目的:本研究的目的是改进信息疫情应对的自动化和机器学习方法。

方法:我们评估了三种训练机器学习模型的策略，以确定模型的最高性能:(1)仅使用与COVID-19相关的事实核查数据，(2)仅使用一般事实核查数据，以及(3)将COVID-19和一般事实核查数据结合起来。我们从事实核查的“错误”内容结合编程检索的“真实”内容创建了两个与covid -19相关的错误信息数据集。第一组包含2020年7月至8月的约7000个条目，第二组包含2020年1月至2022年6月的约31000个条目。我们众包了31441张选票给第一个数据集。

结果:模型在第一个和第二个外部验证数据集上的准确率分别为96.55%和94.56%。我们性能最好的模型是使用covid -19特定的内容开发的。我们成功地开发了组合模型，其表现超过了人类对错误信息的投票。具体来说，当我们将模型预测与人类投票混合在一起时，我们在第一个外部验证数据集上获得的最高准确性是99.1%。当我们考虑机器学习模型与人类投票一致的输出时，我们在第一个验证数据集上实现了高达98.59%的准确性。它的准确率仅为73%，优于单独的人类投票。

结论:外部验证准确率为96.55%和94.56%，证明机器学习可以在对COVID-19内容准确性进行分类的困难任务中产生出色的结果。经过预先训练的语言模型在对特定主题数据集进行微调时表现最佳，而其他模型在对特定主题数据集和一般主题数据集的组合进行微调时获得了最佳精度。最重要的是，我们的研究发现，混合模型，训练/微调的一般主题内容与众包数据，提高了我们的模型的准确性高达99.7%。在专家标记数据稀缺的情况下，成功使用众包数据可以提高模型的准确性。在由机器学习和人类标签组成的“高置信度”分项上，98.59%的准确率表明，众包投票可以优化机器学习的标签，提高精度，超过仅人类的水平。这些结果支持使用监督机器学习来阻止和打击未来与健康相关的虚假信息。

JMIR Infodemiology 2022; 2 (2): e38756

doi: 10.2196/38756

关键字

新型冠状病毒肺炎；错误信息；机器学习；漏洞百出； infodemiology； infodemic管理；模型的性能；模型的准确性；内容分析

背景

在COVID-19大流行期间，低信息质量导致了个人的不良健康后果[1-3.］．在社交媒体上，有人声称危险的家庭疗法和公认的预防措施(如用漂白剂水漱口)[4］．低质量和有偏见的信息来源可能对一些人更有吸引力，因为它们很容易吸引注意力，并提供有明确证据的更简单的解决方案。由于他们有说服力，“简单”的信息[2，对一些人来说，这些来源可能显得更有说服力，因为它们证实了现有的偏见，或者更好地符合意识形态叙事。关于COVID-19的信息准确性对全世界个人的健康结果至关重要[5］．例如，在社交媒体空间中流传的口罩不能防止新冠病毒传播或戴口罩不健康的信息[6一直是美国病例增加的一个主要问题，在印度、巴西和土耳其也是如此。社交媒体是传播与covid -19相关的虚假信息和错误信息的一个主要渠道[7］．

要解决这种错误信息，仅靠人工干预是不够的。事实上，仅在2020年第一季度，对2019冠状病毒病相关内容的英语事实核查就跃升了900% [8］．尽管检查越来越多，但事实核查员的数量有限。此外，他们无法检查需要评估的大量内容[8］．因此，创建任何干预措施，以提供自动化解决方案，评估正在传播的与covid -19相关内容的可信度仍然至关重要。

在这项研究中，我们对covid -19相关数据集、一般数据集和组合数据集进行了重要的比较，用于准确性分类应用，并开发了一个成功的双向长短期记忆(Bi-LSTM)机器学习模型(分别实现了93%和75%的内部和外部验证精度)。当众包的人类标签与机器学习的输出一致时，准确率高达90%，超过了单独两种方法的准确率。我们的研究提供了关键的经验证据，证明少量的人类标记和机器学习可以有效地应对健康虚假信息。

错误信息和虚假信息

虚假信息定义为"不正确或误导的信息" [9］．例如，当一个家庭成员提供政治或健康方面的错误信息时，他们可能并没有误导你的意图，因为他们相信他们分享的信息实际上是真实的。尽管错误信息本质上不是故意的，但它也可能造成真正的伤害，正如将COVID-19错误信息归因于死亡[10］．虚假信息是指故意和偷偷地散布虚假信息，以掩盖事实真相[11］．虽然这两个词都指不正确或不准确的信息，但只有disinformation是故意不正确的。虚假信息运动的一个著名例子是2016年俄罗斯对希拉里·克林顿(Hillary Clinton)竞选团队的黑客攻击，以及在Facebook、Twitter、YouTube和Instagram上散布具有政治破坏性的宣传。12］．俄罗斯的社交媒体虚假信息运动被发现可能影响了2016年的美国大选[13］．

2019冠状病毒病与社交媒体

早期与covid -19相关的研究对于记录关键词、正在出现的主题以及时间模式至关重要[14-16］．一些工作特别强调了谣言的实例[17]、针对亚裔的种族主义，以及公布的数据集[18］．其他研究记录了与covid -19相关的错误信息和虚假信息[8，19］．这项研究发现，错误信息被广泛传播，其中包括楝树叶子可以治疗冠状病毒[20.]，某些民族和种族群体有免疫力(尤其是肤色较深的人)，气候较温暖国家的人不会受到影响，而且这种疾病的危害并不比普通流感大[21］．

其他一些研究使用机器学习方法，试图对网上流传的错误信息和虚假信息进行分类。22-24］．通过训练带有标签的错误信息和错误信息数据集的机器学习分类器，这些方法能够达到按F1分数衡量的16.7%到96%的准确性。早期的工作主要集中在部署快速结果，而不是优化分类器，以获得针对covid -19特定的错误信息和虚假信息的最佳准确性。假设在更广泛的范围内，错误信息检测方法将与COVID-19期间传播的错误信息有合理的相似性。随着研究的出现，很明显，需要针对covid -19的特定数据集和平台。

与covid -19相关的错误信息数据集、机器学习和自动检测

由于大量与covid -19相关的信息在公共领域传播，自动机器学习识别和分类仍然是大规模检测有害内容的关键方法。六种具有集成学习的机器学习算法被用于研究与covid -19相关的推特数据[25］．几种机器学习方法和自然语言处理(NLP)的组合被用于开发大规模的错误信息检测。例如，用于COVID-19新闻可信度检查的存储库ReCOVery评估了各种机器学习方法[26］．阻碍机器学习方法的一个关键问题仍然是缺乏大规模、经过验证和标记的错误信息数据集[27］．这种缺乏的一个原因是健壮的标记数据集需要具有特定领域知识的人的参与。此外，错误信息是一种变化迅速的多样化动态现象[28］．此外，仍然缺乏可伸缩的自动化解决方案，以合并来自多个平台的内容。尽管全球研究表明，错误信息非常普遍(对低收入国家的影响格外严重)[29]，目前可用的数据集可能不够大，无法伸缩[30.］．

为了帮助弥补这一差距，FakeCovid是一个包含5182篇经过事实核查的新闻文章的数据库，使用105个国家的40种语言，并使用机器学习对数据进行分类[31］．COVIDLIES是另一个数据库，包含6761条专家注释的与covid -19相关的推文[22］．有效的NLP方法还通过研究用户评论，用于通过YouTube视频检测COVID-19错误信息[23］．已收集和分类了超过1亿条推特信息，以建立“信息流行风险指数”，以估计不同地区和国家的错误信息暴露程度[2］．发布了与COVID-19错误信息相关的手动标记数据集[32］．还开发了包含非英语内容的covid -19特定数据集，包括阿拉伯语[33)、葡萄牙(34),意大利(35),中国(36，以及多种印度语言[37］．还开发了机器学习方法，以补充与COVID-19相关的手动标记数据集[35］．

文本分类的机器学习方法

NLP在文本分类中的应用包括新闻分类、情感分析、情感检测和作者归属[38，39］．在文本分类任务中，大多数经典的机器学习模型从文档中提取特征(如单词袋)，然后将它们提供给分类器进行预测[38］．注意，以下是先前的作品[40，我们用“经典”这个词来描述传统的有监督和无监督机器学习方法。

经典的机器学习模型有一些局限性，包括在提取手工特征的过程中繁琐的特征工程，以及在设计特征时由于对领域知识的高度依赖，它们很难推广到新任务中[38］．深度学习模型利用嵌入模型将文本映射到维度较低的特征向量，从而限制了对手工制作特征的依赖(这通常需要领域知识)[38］．艾尔摩(41]，一个2017年开发的具有9300万个参数的3层Bi-LSTM模型，取得了比之前最流行的word2vec模型更好的性能[42，43]由谷歌在2013年开发。2018年，OpenAI开发了生成式预训练变压器(GPT) [42]，谷歌从变压器开发双向编码器表示(BERT) [43]，这启发了基于变压器的几种不同的大型预训练语言模型(plm)的创建[38］．例如，广义自回归预训练方法XLNet允许双向上下文的学习，其自回归公式克服了BERT的一些局限性[44］．此外，Facebook开发了RoBERTa [45]，它是在比BERT更大的数据集上训练的。基于变压器的大型模型，包括BERT、RoBERTa和XLNet，在许多NLP任务中取得了很高的成功[43-45］．

客观的

这项研究的目的是通过自动化、机器学习和可扩展的方法来改善在线错误信息的影响。我们的研究试图回答以下三个核心研究问题(RQs):

RQ1:当信息增长超过事实核查员的能力时，利用自动化和可扩展策略(如机器学习、信息检索和众包)的方法是否有助于打击错误信息?

RQ2:只针对与covid -19相关的错误信息数据训练机器学习模型，还是只针对一般错误信息数据训练机器学习模型，还是同时针对一般错误信息数据训练机器学习模型，结果是在与covid -19相关的数据上表现最好?

RQ3:将众包标签与机器学习模型输出相结合是否比单独的两种方法都提高了准确性?

Machine-Learned分类

我们首先使用CoAID数据集开发了一个分类器[46];具体来说，使用了CoAID数据集的05-01-2020和07-01-2020文件夹。由于被认为是准确的(“真实”)新闻多于被认为是不准确的(“虚假”)新闻，我们将所有不准确的新闻纳入其中，但将真实新闻的数量限制为与虚假新闻的数量相等，以获得平衡的数据集。对于Bi-LSTM模型，我们将输入数据分为训练集(75%)和测试集(25%)。熊猫(47和scikit-learn [48]被用于我们的分类器开发和实现。

我们评估了不同的体系结构、退出、激活函数、优化器、正则化器和批处理大小。我们最终选择了嵌入层、Bi-LSTM层、Dropout层(速率为0.7)和密度层(一维输出，sigmoid激活函数)。我们使用了一个Adam优化器，学习速率为0.0001，二元交叉熵损失，批大小为1。Bi-LSTM模型有一个内核正则化器l₁而且l₂分别为1e-5和1e-4的正则化因子。此外，我们还使用了一些最先进的文本分类模型，包括诸如BERT、RoBERTa和XLNet的plm。我们选择了RoBERTa，因为它是一种优化的BERT方法，以及XLNet，因为它是一种自回归的类似BERT的模型。我们使用了四个变压器:BERT-base [43], XLNet [44]，以及在roberta基础上微调的两个模型[45，49，50的7个数据集上的特定分类任务表1HuggingFace Trainer中的默认训练参数[51］．此外，我们训练了一个卷积神经网络(CNN)模型用于文本分类[52]，因为该方法已广泛应用于文本分类[38］．

我们的模型的所有源代码文件都作为开源文件公开提供[53］．

表1。数据集来源和规格。

数据集	源	时间范围	尺寸(文章数量)				类型
			可信的新闻	真实的新闻	总计
CoAID^一个	微博	2020年5月1日结束	572	1324	1896	COVID-19-specific
模糊神经网络^b	PolitiFact	N/A^c	472	797	1270	一般新闻
模糊神经网络	八卦警察	N/A	16818年	5335	22153年	一般新闻
验证数据集1^d	Poynter.org(可信的新闻);华盛顿邮报、美联社、Politico(真实新闻)	2020年7月20日至8月8日	3874	3177	7051	COVID-19-specific
验证数据集2^d	Poynter.org(可信的新闻);BBC、AXIOS、CBS新闻、《环球邮报》(真实新闻)	2020年1月20日至2022年6月15日	14398年	16232年	30630年	COVID-19-specific

^一个只使用了CoAID数据集的05-01-2020文件夹。

^b模糊神经网络:FakeNewsNet。

^cN / A:不适用。

^d通过查询词“COVID-19”进行搜索。

数据评估

为了开发我们的外部验证数据集，我们使用了Poynter [54该网站有数千个带有“虚假”标签的与covid -19相关的内容。对于“真实的”新闻，我们从发布文件的媒体来源的可信度中继承了文章的准确性，采用了类似于ReCOVery [26]和CoAID [46与covid -19相关的数据集。我们创建了两个具有不同“真实”新闻源的外部验证数据集，以测试模型的泛化能力。第一个外部验证数据集由来自Poynter的约4000条假新闻内容和来自几个新闻媒体的约3000条真新闻内容组成，我们认为这些新闻媒体通过继承消息源可信度而可靠。我们使用了NewsAPI的应用程序编程接口[55]检索以下新闻机构的内容:路透社、BBC、《华尔街日报》、《华盛顿邮报》、美联社和Politico。我们搜索了2020年7月20日至2020年8月8日期间的文章，查询词为“COVID-19”。通过这些参数，我们查询了3000多篇新闻文章，并存储了它们的标签、标题、来源、描述、url和发布日期。第二个外部验证数据集包括从Poynter上从2020年3月20日至2022年2月23日期间刮取的约1.4万篇不可信新闻，以及从BBC、AXIOS、CBS新闻和《环球邮报》上刮取的约1.6万篇真实新闻，查询词为“COVID-19”，时间跨度为2020年1月20日至2022年6月15日。总的来说，在删除不适用Poynter标签的元素后，第一个数据集在2020年7月20日至2020年8月8日的时间范围内有7051个带有标签的covid -19相关内容，第二个数据集在2020年1月20日至2022年6月15日的时间范围内有30630个covid -19相关内容。

我们开发了一些方法，以评估只对与COVID-19相关的错误信息数据、只对一般错误信息数据或两者都进行训练的机器学习模型，是否会在新的、未见的COVID-19数据集上获得最高性能。在评估一般数据集时，假新闻网(FNN) [56，57]提供了符合我们需要的数据格式，并且有足够的容量来满足我们的培训规模。对于COVID-19相关数据，我们发现CoAID(一个COVID-19卫生保健错误信息数据集)包含1896篇新闻文章、183,564个相关用户参与、516个关于COVID-19的社交平台帖子和基本真相标签[46]，使我们在初步试验中获得了较高的内部验证精度。为了在两个数据集之间尽可能保持一致，我们从使用默认机器学习模型实现的数据集上执行的标准基准测试实践中汲取经验。我们在7种不同的数据源组合上进行训练，以模拟现实世界中的不同情况:(1)仅使用CoAID，用于模拟有足够主题特定数据时的情况;(2)部分(仅使用CoAID数据集的05-01-2020文件夹)CoAID和FNN;(3)部分CoAID和PolitiFact;(4)部分CoAID和来自FNN的gossip - pcop内容，用于模拟主题特定数据数量有限的情况;(5)模糊神经网络;(6)政治真相;以及(7)GossipCop，用于模拟没有特定主题数据可用时的情况。对于三个经典模型(支持向量机[SVM]、逻辑回归[LR]和Bernoulli naïve Bayes [BNB])和六个深度学习模型(Bi-LSTM、基于bert的模型、两个基于roberda的模型[45，49，50], XLNet [44]和Text-CNN [52])，我们计算了内部验证和上述两个外部验证数据集的精度、召回率和f1得分。这些被作为两个标签的加权平均值，四舍五入到最近的百分之一，如详细多媒体附录1-3.，并在我们的数据储存库中以CSV文件的形式提供[53］．

道德的考虑

德克萨斯大学奥斯汀分校机构审查委员会(IRB)于2021年4月20日批准了这项人体受试者研究(STUDY00000962)。获得所有研究参与者的知情同意。

众包分类

我们从众包平台多产招募了注释者，对我们创建的数据集中的新闻内容进行投票。在多产上，我们将研究分布设置为“标准样本”，这就向整个参与者池启动了研究[58］．根据IRB的协议，我们只对美国居民进行投票。我们建立了大约10轮的多产任务，每个参与者每小时支付大约8美元，结果从756名投票者中获得了31441张选票。

在完成众包投票后，我们手动和使用Python脚本处理数据，以提高可用性。我们删除了相同标签的重复投票(两次“真实”投票)和来自多产id的投票，我们无法在多产向我们报告的id集合中找到这些投票。经过处理的数据集有超过6800条内容，其中“真”或“假”标签至少有3票。我们从Poynter和可靠的新闻来源中获取最初的基本真相标签，并将它们映射为0或1。“真”被编码为1，“假”被编码为0。此外，“正确”标签被编码为1(2个标签)，所有其他标签被转换为0(690个标签)。将标签映射到0或1允许我们为数据集收集特定的指标。中提供了一些来自众包数据集的例子表2(也看到多媒体附录1)．0.0或1.0的选民软标签表明投票结果是一致的(即，所有的选票都支持相同的标签)，而0.4-0.6的选民软标签范围意味着(近)一半的选民有不同的意见。

我们还计算了一致决定的百分比，我们将其定义为由众包投票决定的标签与基本真相标签相同的概率。同意决策的百分比(人类选民准确度)为~0.73，或73%。我们还计算了注释者之间的协议，以确定选民之间的协议。由于每个新闻内容的投票者数量不同(从3到7)，Cohen和Fleiss κ统计量不适合我们的数据集。因此，我们计算了用户之间的一致性百分比，以确定我们数据的评级者之间的可靠性(68.5%)。由于百分比一致不考虑机会一致，我们计算了Krippendorffα(0.428)。当比例高于75%时，则视为可接受[59),α在0.667≤时是否可接受α≤0.823，在不可接受α< 0.667“(60，在众包数据中，所有选民的一致性很低。最终，在识别与covid -19相关的不可信内容时，众包选民的准确性很低(约73%)，他们之间的分歧很大。考虑到这个数据集没有被用作基本事实，而是用来评估来自非专家的标记数据是否可以提高模型性能，对于我们的用例来说，低一致性不是一个问题。此外，这种低一致性表明，非专业人士对错误信息的反应不同，而不是一致。

鉴于这种高度的可变性，我们接下来评估了我们的众包数据是否真的可以改善机器学习模型的预测。考虑到这一点，我们提出并回答了以下问题:(1)哪种模型最能预测众包标签?(2)与众包标签混合后，模型性能是否能得到提高?(3)与众包标签混合在一起，哪种模式表现最好?(4)如果我们只取数据集中机器学习模型和人类投票具有一致标签的子集，是否会提高预测性能?如果有，哪个模型的性能最高?

表2。来自众包数据集的例子。

新闻标题		地面实况	选民软标签^一个	选民的标签	选票	结果
整合人类选票
	COVID-19大流行阻碍了德国移民融合的努力——路透社	1	1．0	1	3.	被人类正确分类
	图为因新冠肺炎死亡的土耳其医生在慕尼黑与子女的最后一次见面	0	1．0	1	4	是不是人类
	3M请来了另一家游说公司	1	1．0	1	5	被人类正确分类
	视频显示，意大利政府/布里斯班警方使用僵尸机器人/无人机追捕他们的公民，并让他们呆在家里	0	0．0	0	4	被人类正确分类
	英国疫苗在首次人体研究中引发免疫反应	1	0．0	0	3.	是不是人类
	这段视频显示的是武汉一名女子在喝蝙蝠汤	0	0．0	0	5	被人类正确分类
不和谐的人的选票
	西班牙一家医院的急诊科关闭了	0	0．5	1	6	是不是人类
	爱丁堡大部分苏格兰酒店工作都在审查中	1	0．5	1	4	被人类正确分类
	英格兰vs爱尔兰:队长约恩·摩根在ODI系列中享受“新旅程”	1	0.6	1	5	被人类正确分类
	德国的恐慌场景，人们冲进一家超市	0	0.4	0	5	被人类正确分类

^一个选民软标签按真实标签数/总票数计算。

Machine-Learned分类

RQ1询问自动化系统是否可以帮助抗击与covid -19相关的错误信息。我们发现机器学习比随机学习更能预测准确性。我们开发了一个基于CoAID数据集训练的Bi-LSTM模型。具体来说，我们使用了来自CoAID的1257个条目进行训练，并在来自CoAID的419个条目上测试了我们的模型。我们在这两个标签上获得了0.93的加权平均f1得分(具有相同的精确度、召回率和准确性)。使用相同的模型，在我们的数据集上的外部验证结果是f1得分0.75，具有相同的精度、召回率和准确性。此外，我们对BERT-base、RoBERTa-fake-news、Fake-News-BERT-Detect、XLNet进行了微调，并在7个数据集组合上训练Text-CNN，并在两个外部验证数据集上进行了测试。结果显示在多媒体附录1-2．在第一个来自BERT-base、RoBERTa-fake-news、Fake-News-BERT-Detect、XLNet和训练后的Text-CNN的外部验证数据集上，我们分别实现了高达91%、93%、97%、94%和87%的准确性。在来自相同模型的第二个外部数据集上，准确率达到了93%、84%、93%、91%和85%。根据这些结果，RQ1可以得到肯定的回答。

数据评估

RQ2的问题是，只对与covid -19相关的错误信息数据进行训练，还是只对一般错误信息数据进行训练，或者同时对两者进行训练，机器学习模型在与covid -19相关的数据上的表现是最好的。我们发现，机器学习模型受益于与covid -19相关的数据。具体来说，在对7个不同的数据集进行训练之后多媒体附录1-3.)， RQ2可以回答如下:对于经典模型，特定主题数据与一般主题数据相结合的性能最好;然而，经过预先训练的模型从纯特定于主题的数据中获益最多。在本研究中，我们调查了三种情景的有效性:(1)针对covid -19相关错误信息的培训，(2)针对非covid -19相关错误信息的培训，以及(3)针对covid -19相关错误信息和非covid -19相关错误信息的培训。我们的结果表明，纳入与covid -19相关的错误信息(在我们的例子中是CoAID数据)有助于或至少维持了模型性能。

经典的分类模型包括LR, SVM, BNB，隐马尔可夫模型和随机森林[39］．在我们的实验中，使用的经典模型包括LR, SVM和BNB。所有三个经典模型显示在多媒体附录3在CoAID和PolitiFact的组合训练下获得了最佳的准确性，而对于深度学习预先训练的模型(已经“研究”了英语语言的行为)，只有在CoAID上进行微调时才能获得最佳的模型性能(见多媒体附录1-3.)．在缺乏额外与covid -19相关的错误信息内容的情况下，我们的研究结果表明，在使用经典模型时，将先前的错误信息数据集与特定于covid -19的错误信息数据集结合起来可能有助于检测新的与covid -19相关的错误信息。然而，使用plm(如BERT)，它通常在语言任务中比经典模型有更好的性能，对特定于主题的数据集进行微调往往会得到更好的结果。通过结合covid -19相关(即CoAID)和广泛的、多主题的错误信息数据集(即FNN、GossipCop和PolitiFact)，我们评估了我们的机器学习模型的性能。将来自不同来源的标记数据集与各种机器学习模型相结合，是我们的研究在生成可扩展和可泛化框架方面的新贡献。详细的多媒体附录1-3.，我们发现仅使用八卦警察数据集的模型的准确性非常低。我们获得的最低BNB准确性(0.37)也用于八卦cop，这表明标记数据集在错误信息检测的有效性中发挥了重要作用。由于八卦警察被认为是一个可靠的名人新闻来源，八卦警察的标签数据集具有针对性，其本身对新冠肺炎错误信息的检测价值有限。相反，结合CoAID和GossipCop作为输入数据来训练我们的模型，显著提高了BNB模型的准确性(0.64)(多媒体附录3)．当我们仅使用CoAID数据集(多媒体附录1)．有了这些发现，RQ2可以得到肯定的回答。

众包分类

RQ3的问题是，将众包标签与机器学习模型的输出相结合是否会比单独的两种方法提高准确性。我们发现，将人类投票与机器学习的输出相结合，可以创建更高的性能模型。具体来说，深度学习模型能够以高达70%的准确率预测人类投票。结合人类投票和机器学习输出，我们创建了一个准确率为99.1%的模型。当只考虑模型和人类投票一致的子集时，我们获得了高达98.59%的准确性。

我们首先评估了我们的模型在多大程度上可以预测我们的众包价值或我们从多产标签生成的标签(见多媒体附录4-9)．标签为0表示大多数选民投了错误的票，而标签为1表示超过或等于一半的选民投了正确的票。使用在7个数据集组合上训练的模型，并对7051张选票的数据集进行测试，成功预测了来自多产的众包值，精确度高达0.70多媒体附件7)．所有的值都四舍五入到最接近的百分之一。

其次，我们将来自模型的软预测(即概率)和来自不同比例的众包数据的软投票(将每个预测的概率与硬投票的概率相结合，选择获得最多选票的预测)结果混合在一起，以评估混合后可实现的最大改进和最高准确性。软投票结果的计算方法是将标签1(可信)的投票数除以总投票数。结果显示在表3(混合模型预测)由以下公式计算:

A×(来自模型的软预测)+(1-a)×(来自众包数据的软投票结果)

表3说明模型在混合后具有更高的平均准确性，我们在第一个外部验证数据集上获得的最高准确性为99.1%(当将10%的用户投票结果与90%的机器学习模型预测混合时)。因此，我们发现用一般新闻训练的模型得到了改进。在与用户投票结果混合后，这些模型获得了更高的准确性(高达99.7%)。这比人类投票的准确率提高了73%。所示表3，当a=0.9时，在GossipCop上训练的Text-CNN与crowdsource数据融合后，性能可以从42.6%提高到99.1%。

第三，正如前面机器学习分类部分所讨论的，机器学习模型的准确率在41%到98%之间，而人类投票的准确率约为73%。在7051条内容中，39.24%-69.58%(表现最好的模型)在人类投票和机器学习模型中都显示出一致。因此，我们能够减少2766到4906个内容的集合。对于每一个内容，我们把它的标签分配给机器学习模型和人类投票都赞同的值。使用这种方法，我们的最佳准确率为98.59%多媒体附件10)，它来自对CoAID数据集进行微调的Fake-News-BERT-Detect模型。相比之下，人类投票的准确率为73%，整个验证数据集的准确率为96.55%。在之前对特定于covid -19的数据集(即CoAID)进行微调时，所有模型都取得了最佳性能。

在一般主题数据集上训练/微调的模型的性能可以通过众包数据(例如在流行病等低数据情况下)得到改善。具体来说，基础模型在整个验证数据集上实现了71.01%的准确性。例如，对于子集，我们最多获得89.96%的准确性(通过在PolitiFact上微调的bert基础)。此外，在综合主题和特定covid -19数据集上训练的模型也通过这种方法得到了改进。具体来说，整个数据集的准确率高达89.93%多媒体附录1)的改善率高达96.26%(针对子集)。实际上，这两种可信度测试都可以应用于一段内容，并获得“真”或“假”的标签，准确率高达98.59%。因此，将人类投票与机器学习输出相结合的模型优于单独使用人类投票的模型。我们对RQ3的回应是，将众包标签与模型预测混合，并将数据集减少为“高置信度”数据子集，从而提高模型性能。

表3。混合模型的准确性分析，评估第一个外部验证数据集。

度规			一个= 0.9		一个= 0.7		一个= 0.5		一个= 0.3		一个= 0.1
	平均改善	0.069		0.082		0.084		0.063		0.029
最大的改善
	最大的改善	0.565		0.562		0.463		0.385		0.415
	模型名称	cnn训练的是八卦警察		cnn训练的是八卦警察		cnn训练的是八卦警察		cnn训练的是八卦警察		假新闻伯特检测在八卦警察上做了微调
	模型精度(混合前)	0.426		0.426		0.426		0.426		0.302
	模型精度(混合后)	0.991		0.981		0.889		0.804		0.717
最佳的性能
	模型名称	文本cnn训练CoAID		文本cnn训练CoAID		文本cnn训练CoAID和PolitiFact		cnn训练的是八卦警察		cnn接受了PolitiFact的培训
	模型精度(混合前)	0.874		0.874		0.798		0.426		0.499
	模型精度(混合后)	0.991		0.984		0.891		0.804		0.728

主要结果

我们的结果表明，RQ1(询问自动化系统和可伸缩策略是否有助于对抗错误信息)可以得到肯定的回答。我们训练的模型显示，在我们的第一个外部验证数据集(2020年7月20日至2020年8月8日的约7000个帖子和真实新闻)上的准确率为98%，在我们的第二个验证数据集(2020年1月20日至2022年6月15日的约15000个帖子和真实新闻)上的准确率为93%。事实核查员的标签可能是耗时、劳动密集型和昂贵的，而机器学习模型可以在训练后随意和大规模使用。这些结果支持了我们的发现，在人类事实核查员负担过重、无法跟上日益增长的在线错误信息数量的现实下，机器学习显著改善了事实核查。

关于RQ2(询问哪种类型的数据集对机器学习最有帮助)，我们发现针对流行病特定内容的培训/微调往往会导致更高的准确性。具体来说，我们表现最好的模型只对COVID-19主题内容进行了微调。我们评估了三个经典模型和五个在七个不同数据集上训练的深度学习模型，包括一个特定主题的数据集(仅CoAID)，三个一般主题的数据集(FNN、GossipCop和PolitiFact)，以及三个特定主题和一般主题数据集的组合(CoAID和FNN、GossipCop和CoAID、PolitiFact和CoAID)。经典模型在使用一般主题和特定covid -19数据的组合(CoAID和PolitiFact的组合)进行训练时获得了最佳的准确性，而深度学习plm(如BERT)已经使用英语文本进行了训练，因此可以被视为“研究了”英语语言的行为，在使用特定covid -19数据集(即CoAID)进行调整时获得了最佳的模型性能。

关于RQ3，它询问将众包标签与模型结合是否可以提高模型性能，我们发现将众包标签与模型预测结合可以提高模型性能。混合模型(众包投票和机器学习模型的混合)能够达到99.1%的准确率。鉴于众包投票的准确率为73%，而我们的机器学习模型的最高准确率为96.55%，因此我们的结果表明，众包可以与机器学习结合使用来提高准确性。此外，针对一般新闻训练的模型在与用户投票结果混合后可以得到改进，以获得更高的准确性。具体来说，我们发现混合后的改善高达57.1%表3)．也就是说，只有在考虑子集的情况下，在一般主题数据集上训练/微调的模型的性能才能得到提高。由于众包和机器学习都不需要专家事实核查人员花时间，这两者都是大规模解决COVID-19和其他与健康相关的错误信息的可行选择。

未来的工作

未来的工作可以进一步优化我们的机器学习模型，扩展和开发我们的标记数据集。此外，我们希望我们的研究结果能鼓励其他人开发针对covid -19的虚假信息和虚假信息数据集。随着covid -19相关标签数据数量的增加，应进一步评估与covid -19相关标签数据和一般错误信息数据的组合，并由其他人对其进行基准测试，以提高机器学习模型的准确性。因此，在未来的工作中，我们的研究结果将受益于使用与covid -19相关的和广泛的多主题内容的数据集进行复制。由于我们只对第一个外部验证数据集(持续一个月)进行了众包投票，未来的工作可以对第二个验证数据集进行众包投票结果，以加强我们结论的有效性。此外，众包数据集的规模相对较小(31441条内容，每条平均4.46票)，可以随着更多选票的积累而加强，增加我们结果的泛化能力。因此，未来的工作将受益于将我们的框架扩展到更大的众包数据集。由于收集众包数据可能是耗时的，使用机器学习模型生成伪人类投票可能是加强众包数据集的另一种方法。在为一个小的新闻数据集收集众包数据后，在该数据集上训练的伪人类投票模型可以用于预测一个更大的数据集上的人类标签。这种方法对于没有标签的新闻数据集尤其有用，我们可以在没有事实标签的情况下模拟人类投票。

未来的工作还可以衡量使用机器学习模型而不是专家事实核查员是否有足够的优势(考虑到前者的方法允许更便宜和更快的大规模数据标记)。机器学习模型和专业事实核查员的结合也有可能带来更好的结果。例如，事实核查员可以使用模型来标记新闻，以加快他们的工作，事实核查员的结果可以用来改进模型。利用该方法可以建立人在环模型。一个实时的新闻浏览器，将新闻与事实核查员的结果或模型预测(如果没有事实核查员的话)一起显示，可以帮助评估可信度，即使存在比专家手动检查的错误信息更多的情况。最后，未来的工作可以进一步检查众包输出和covid -19相关数据的基本真相标签之间的关系，这是我们在本研究中最少调查的一条调查线。具体来说，未来的工作可以通过探索众包和事实标签最可能不一致的场景，来检验人类何时更容易做出错误判断。研究可以探索不同问题领域的众包数据，通过使用人类投票和事实标签之间的分歧等指标，来确定干预措施应该最关注的问题领域的错误信息。

限制

我们工作的一个局限性是，我们的研究没有严格测试所有FNN和CoAID模型组合上可能的模型优化上限。另一个微小的限制是，在评估我们的模型时，我们将Poynter数据集中的所有标签(除了两个“正确”的标签)都分配为“假”，即使一小部分标签可以被解释为真(<0.5%的标签，如“一半真”和“大部分真”)。由于每个项目的投票数量和标记数据集的时间跨度，众包数据集的质量可能受到限制。最后，由于时间和资金的限制，我们只能对第一个外部验证数据集进行众包投票。

结论

人工事实核查无法应对目前存在的大量与covid -19相关的错误信息[8］．为了帮助解决与covid -19相关的错误信息的扩散，我们开发了一种自动化、机器学习和可扩展的方法。由于我们评估的性能最好的模型只针对covid -19特定的内容进行了微调，特定于主题的数据集比一般主题数据集或两者的结合更有帮助。第一和第二外部验证数据集的准确率分别为96.55%和94.6%，这表明，在确定与covid -19相关内容的准确性这一困难任务中，使用机器学习可以获得比随机结果好得多的结果。我们的研究还发现，在只考虑人类投票和模型输出都同意的内容的减少集的情况下，模型达到了99.1%的准确性。对一般主题内容进行训练/微调的模型在与人类投票结合后可改进到可接受的水平，并可用于在低数据情况下(如流行病)补充有限数量的特定主题内容，以提高准确性。

我们的研究结果还表明，机器学习模型可以添加外行、众包选民的标签，以提高准确性，而无需专家事实核查人员的额外输入。将人类投票与模型预测结果混合，准确率可达99.1%(将10%的人类投票标签与90%的模型标签相结合)。我们以开源形式发布了主题相关数据集，包括7000个基本事实和众包标签、机器学习模型和代码，以促进其他人开发自动化、可扩展的2019冠状病毒病信息大流行解决方案。

COVID-19信息疫情应对工作需要承认，错误信息可能是无定形和高度分散的。本研究开发的机器学习和自动化方法依赖于文本特征，这使得它们非常强大，因为它们可以被扩展(如研究人员或技术公司)，以研究存在在线错误信息的各种平台和环境(如新闻和社交媒体)。自动化和机器学习提供了用精确度的小幅下降换取可伸缩性的能力，当错误信息增长超过事实核查能力时，这是一个重要的考虑因素，正如COVID-19大流行期间的情况一样。

致谢

作者希望感谢Kami Vinton的深刻意见和建议，以及她协助校对手稿。这项工作得到了Good Systems的支持，这是德克萨斯大学奥斯汀分校的一个研究大挑战项目，也是德克萨斯大学奥斯汀分校的本科生研究奖学金项目。

作者的贡献

NK和DM共同构建了这项研究，撰写了第一版手稿，并合作获得了众包资金。DM为该项目的深度学习方面获得了进一步的资助。NK编写了第一版手稿的所有代码，为第一版手稿进行了实验，收集了众包数据，并为多媒体附录4和部分多媒体附件5．YL撰写了大量的改稿内容，在改稿过程中进行了实验，提供了第二个验证数据集，进行了深度学习模型的实验，并为其他表格提供了数据。所有作者都合作修改了修订稿。NK和YL对研究的贡献相同，应该被视为共同第一作者。

的利益冲突

没有宣布。

‎

多媒体附录1

对第一个外部验证数据集的性能进行建模。

DOCX文件，15 KB

‎

多媒体附录2

在第二个外部验证数据集上建模性能。

DOCX文件，15 KB

‎

多媒体附录3

使用经典模型的基准测试结果。

DOCX文件，20 KB

‎

多媒体附录4

双向长短期记忆(Bi-LSTM)模型在CoAID上训练并在众包标签上测试的结果。

DOCX文件，14kb

‎

多媒体附件5

基于bert的众包标签测试结果。

DOCX文件，14kb

‎

多媒体附件6

RoBERTa-Fake-News的测试结果来自众包标签。

DOCX文件，14kb

‎

多媒体附件7

假新闻-伯特-检测在众包标签上的测试结果。

DOCX文件，14kb

‎

多媒体附录8

XLNet在众包标签上测试的结果。

DOCX文件，14kb

‎

多媒体附件9

文本cnn在众包标签上的测试结果。

DOCX文件，14kb

‎

多媒体附件10

当人类和机器学习的投票一致时，在简化的内容集上建模表现。

DOCX文件，17 KB

沈杰，李勇，安浩。基于link2vector的网络搜索结果假新闻检测模型。专家系统应用2021年12月;184:115491。［CrossRef］
Gallotti R, Valle F, Castaldo N, saco P, De Domenico M.评估应对COVID-19流行时“信息流行病”的风险。Nat Hum Behav 2020 Dec;4(12):1285-1293。［CrossRef] [Medline］
Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL，等。2019冠状病毒病社交媒体信息大流行。Sci Rep 2020 10月06日;10(1):16598。［CrossRef] [Medline］
Litman L, Rosen Z, Rosenzweig C, Weinberger-Litman SL, Moss AJ, Robinson J.人们真的喝漂白剂来预防COVID-19吗?一个有问题的受访者的故事和一个测量调查数据中的罕见事件的指南。MedRxiv。预印本于2021年1月2日出版。URL:https://www.medrxiv.org/content/10.1101/2020.12.11.20246694v3[2022-08-12]访问
世卫组织管理COVID-19信息大流行的特设技术协商:行动呼吁，2020年4月7日至8日。世界卫生组织，《信息共享机构知识库》，2020年。URL:https://apps.who.int/iris/handle/10665/334287[2020-12-03]访问
Khazan O.一个关于口罩的奇怪说法是如何流传了几个月的。《大西洋月刊》，2020年10月09日。URL:https://www.theatlantic.com/politics/archive/2020/10/can-masks-make-you-sicker/616641/[2022-04-11]访问
Bridgman A, Merkley E, Loewen P, Owen T, Ruths D, Teichmann L，等。COVID-19误解的原因和后果:理解新闻和社交媒体的作用。HKS Misinfo Review 2020年6月18日;19:1-18 [免费的全文] [CrossRef］
西蒙F，霍华德PN，尼尔森RK。COVID-19错误信息的类型、来源和主张。2020年4月7日。URL:https://reutersinstitute.politics.ox.ac.uk/types-sources-and-claims-covid-19-misinformation[2022-08-12]访问
错误信息。韦氏字典。URL:https://www.merriam-webster.com/dictionary/misinformation[2022-07-05]访问
科尔曼。由于Covid-19错误信息，“数百人死亡”。英国广播公司。2020年8月12日。URL:https://www.bbc.co.uk/news/world-53755067[2022-07-17]访问
造谣。韦氏字典。URL:https://www.merriam-webster.com/dictionary/disinformation[2022-07-05]访问
英国称俄罗斯喷子工厂在社交媒体上传播虚假信息。路透。URL:https://www.reuters.com/world/europe/britain-says-russian-troll-factory-is-spreading-disinformation-social-media-2022-04-30/[2022-07-17]访问
Jamieson KH。网络战争:俄罗斯黑客和喷子如何帮助选举了一位总统:我们不知道、不能知道和确实知道什么。英国牛津:牛津大学出版社;2020.
Banda JM, Tekumalla R，王刚，余杰，刘涛，丁勇，等。用于开放科学研究的大规模COVID-19推特聊天数据集——一个国际合作项目。流行病学2021年8月05日;2(3):315-324。［CrossRef］
Chen E, Lerman K, Ferrara E.跟踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒Twitter数据集。2020年JMIR公共卫生监测5月29日;6(2):e19273 [免费的全文] [CrossRef] [Medline］
高Z, Yada S, Wakamiya S. NAIST COVID:多语言COVID-19推特和微博数据集。出来了。预印本于2020年4月17日出版。URL:https://arxiv.org/abs/2004.08145[2022-08-12]访问
Haouari F, Hasanain M, Suwaileh R. arcov19 -谣言:用于错误信息检测的阿拉伯COVID-19推特数据集。出来了。预印本于2021年3月13日出版。URL:https://arxiv.org/abs/2010.08768[2022-08-12]访问
He B, Ziems C, Soni S, Ramakrishan N, Yang D, Kumar S种族主义是一种病毒:2019冠状病毒病危机期间社交媒体上的反亚裔仇恨和反言论。出来了。预印本于2021年11月10日出版。URL:https://arxiv.org/abs/2005.12423?context=cs.CL[2022-08-12]访问
Kouzy R, Abi Jaoude J, Kraitem A, El Alam MB, Karam B, Adib E，等。冠状病毒传播:量化推特上COVID-19错误信息的流行。Cureus 2020 3月13日;12(3):e7255 [免费的全文] [CrossRef] [Medline］
错误:楝树叶子可以治愈新型冠状病毒并缓解其症状的说法在Facebook的多个帖子上被分享了数千次。波因特，2020年3月22日。URL:https://tinyurl.com/yc22cz8z[2022-07-17]访问
Singh L, Bansal S, Bode L, Budak C, Chi G, Kawintiranon K，等。一起来看看推特上的新冠病毒信息和错误信息分享。出来了。预印本于2020年3月31日出版。URL:https://arxiv.org/abs/2003.13907[2022-08-12]访问
侯赛因·T, Logan RI, Ugarte A. COVIDLies:检测社交媒体上的COVID-19错误信息。出席2020年EMNLP第一次COVID-19 NLP讲习班(第二部分);2020年11月20日;虚拟的。［CrossRef］
Serrano JCM, Papakyriakopoulos O, Hegelich S.基于nlp的特征提取用于检测YouTube上的COVID-19错误信息视频。出席:2020年ACL第1届COVID-19 NLP研讨会;2020年7月;虚拟的。
Dharawat A, Lourentzou I, Morales A, Zai CX。喝漂白剂还是做什么?Covid-HeRA:在存在COVID19错误信息的情况下进行风险知情卫生决策的数据集。出来了。预印本于2020年10月17日出版。URL:https://arxiv.org/abs/2010.08743[2022-08-12]访问
Al-Rakhami MS, Al-Amri AM。谎言杀人，事实拯救:检测推特上的COVID-19错误信息。IEEE Access 2020;8:155961-155970 [免费的全文] [CrossRef] [Medline］
周曦，Mulay A, ferara E, Zafarani R.恢复:新冠肺炎新闻可信度研究的多模态库。出来了。预印本于2020年6月9日出版。URL:https://arxiv.org/abs/2006.05557[2022-08-12]访问
华杰，邵伟，冠状病毒(COVID-19)“信息流行病”和数据视角下的新问题:以中国为例。2020年3月30日;17(7):2309 [免费的全文] [CrossRef] [Medline］
张X, Ghorbani AA。网络假新闻概述:描述、检测和讨论。Inf Process Manag 2020年3月57(2):102025。［CrossRef］
Cha M, Cha C, Singh K, Lima G, Ahn Y, Kulshrestha J，等。35个国家关于COVID-19大流行的错误信息流行率和事实核查:观察性信息流行病学研究JMIR Hum Factors 2021 2月13日;8(1):e23279 [免费的全文] [CrossRef] [Medline］
大数据和质量数据在假新闻和错误信息检测中的应用。2019年1月6日(1)。［CrossRef］
Shahi GK, Nandini D. FakeCovid—COVID-19多语言跨域事实核查新闻数据集。出来了。预印本于2020年6月19日出版。URL:https://arxiv.org/abs/2006.11343[2022-08-12]访问
Patwa P, Sharma S, Pykl S, Guptha V, Kumari G, Akhtar M，等。抗击信息大流行:COVID-19假新闻数据集。在:Chakraborty T, Shu K, Bernard HR, Liu H, Akhtar MS，编辑。在紧急情况下打击使用地区语言的网上敌对帖子。2021年的约束。计算机与信息科学通信，第1402卷。可汗:施普林格;2021.
Addawood A.冠状病毒:公共阿拉伯语推特数据集。OpenReview。2020年8月12日。URL:https://openreview.net/forum?id=ZxjFAfD0pSy[2022-08-12]访问
甜瓜，菲盖雷多，中锋。第一个公开数据集来自巴西推特和葡萄牙语的COVID-19新闻。数据概要2020;32:106179。［CrossRef］
Rovetta A, Bhagavathula AS。意大利与covid -19相关的网络搜索行为和信息流行病学态度:信息流行病学研究。2020年JMIR公共卫生监测5月05日;6(2):e19374 [免费的全文] [CrossRef] [Medline］
杨超，周旭，Zafarani R. CHECKED:中国新冠肺炎假新闻数据集。Soc Netw Anal Min 2021;11(1):58 [免费的全文] [CrossRef] [Medline］
Kar D, Bhardwaj M, Samanta S, Azad AP，请不要谣言!一种多指标语言的新冠假推文检测方法。出来了。预印本于2020年10月14日出版。URL:https://arxiv.org/abs/2010.06906[2022-08-12]访问
Minaee S, Kalchbrenner N, Cambria E, Nikzad N, Chenaghlu M，高杰。基于深度学习的文本分类。ACM计算Surv 2022年4月30日;54(3):1-40。［CrossRef］
使用变压器的Alam T, Khan A, Alam F. Bangla文本分类。出来了。预印本于2020年11月9日出版。URL:https://arxiv.org/abs/2011.04446[2022-08-12]访问
Biamonte J, Wittek P, Pancotti N, rebeentrost P, Wiebe N, Lloyd S.量子机器学习。Nature 2017 september 13;549(7671):195-202。［CrossRef] [Medline］
peter ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K，等。深度上下文化的单词表示。出来了。预印本发布于2018年2月15日。URL:https://arxiv.org/abs/1802.05365[2022-08-12]访问
拉福德A, Narasimhan K, Salimans T, Sutskever I.生成式预训练提高语言理解能力。Amazon简单存储系统(S3)。2018.URL:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf[2022-08-12]访问
张文明，李凯，张文华，张文华。BERT:深度双向转换语言理解的预训练。出来了。预印本于2018年10月11日出版。URL:https://arxiv.org/abs/1810.04805[2022-08-12]访问
杨铮，戴铮，杨勇，Carbonell J, Salakhutdinov R, Le QV。语言理解的广义自回归预训练。2019年发表于:第33届神经信息处理系统会议(NeurIPS 2019);2019年12月8 - 14;温哥华BC。
刘勇，Ott M, Goyal N，杜杰，Joshi M，陈东，等。罗伯塔:一种稳健优化的伯特预训练方法。出来了。预印本于2019年7月26日出版。URL:https://arxiv.org/abs/1907.11692[2022-08-12]访问
崔琳，李d。CoAID: COVID-19医疗保健错误信息数据集。出来了。预印本于2020年5月22日出版。URL:https://arxiv.org/abs/2006.00885[2022-08-12]访问
熊猫开发组。2020年12月7日。URL:https://zenodo.org/record/4309786#.YvfOIC9E3mp[2022-08-12]访问
Abraham A, Pedregosa F, Eickenberg M, Gervais P, Mueller A, Kossaifi J，等。使用scikit-learn进行神经成像的机器学习。前面Neuroinform 2014; 14。［CrossRef] [Medline］
刘j . Transformer-fake-news-detection。GitHub。2022.URL:https://github.com/Jiayif/Transformer-Fake-News-Detection[2022-08-12]访问
Tatti问。roberta-fake-news。拥抱的脸。2021。URL:https://huggingface.co/ghanashyamvtatti/roberta-fake-news[2022-08-12]访问
Thomas W, Lysandre D, Victor S, Julien C, Clement D, Anthony M等。2020年自然语言处理经验方法会议:系统演示;2020年10月;网上。［CrossRef］
龚敏，寿磊，林伟，桑铮，颜琪，杨铮，等。NeuronBlocks:构建你的NLP DNN模型就像玩乐高。出来了。预印本发布于2019年4月21日。URL:https://arxiv.org/abs/1904.09535[2022-08-12]访问
COVID-19错误信息检测:信息大流行的机器学习解决方案。GitHub。URL:https://github.com/yunongLiu1/COVID-19-Misinformation-Detection--Machine-Learned-Solutions-to-the-Infodemic[2022-08-13]访问
波因特》2020。URL:https://www.poynter.org/[2022-04-11]访问
消息的API。URL:https://newsapi.org/[2020-12-06]访问
舒凯，maudeswaran D，王松，李东，刘浩。基于新闻内容、社会背景和时空信息的社交媒体假新闻研究。大数据2020;8(3):171 - 188。［CrossRef］
舒凯，Sliva A，王姝，唐杰，刘浩。基于数据挖掘视角的社交媒体假新闻检测。出来了。预印本于2017年8月7日出版。URL:https://arxiv.org/abs/1708.01967[2022-08-12]访问
建立一个多产的研究。多产的。URL:https://researcher-help.prolific.co/hc/en-gb/articles/4407449546002-Audience[2022-07-17]访问
评级机构间可靠度IRR:定义，计算。如何统计数据。URL:https://www.statisticshowto.com/inter-rater-reliability/[2022-07-17]访问
Shabankhani B, Charati JY, Shabankhani K, Cherati SK.使用Krippendorff的alpha对评级机构之间名义数据的一致性调查。Arch Pharma practical 2020;10(S1):160-164。

‎

伯特:来自变压器的双向编码器表示

Bi-LSTM:双向长、短期记忆

BNB:伯努利朴素贝叶斯

有线电视新闻网:卷积神经网络

模糊神经网络:FakeNewsNet

GPT:生成Pre-trained变压器

IRB:机构审查委员会

LR:逻辑回归

NLP:自然语言处理

PLM:pretrained语言模型

中移动:研究问题

支持向量机:支持向量机

W·艾哈迈德编辑;提交14.04.22;J Banda同行评议，N Döring;对作者08.06.22的评论;修订版收到20.07.22;接受08.08.22;发表25.08.22

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是必须正确引用在JMIR信息流行病学上首次发表的原始作品。必须包括完整的书目信息，https://infodemiology.www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

COVID-19错误信息检测:信息大流行的机器学习解决方案

COVID-19错误信息检测:信息大流行的机器学习解决方案

原始论文

通讯作者:

摘要

关键字

简介

背景

错误信息和虚假信息

2019冠状病毒病与社交媒体

与covid -19相关的错误信息数据集、机器学习和自动检测

文本分类的机器学习方法

客观的

方法

Machine-Learned分类

数据评估

道德的考虑

众包分类

结果

Machine-Learned分类

数据评估

众包分类

讨论

主要结果

未来的工作

限制

结论

致谢

作者的贡献

的利益冲突

参考文献

缩写