JMIR信息流行病学- COVID-19错误信息检测:信息流行的机器学习解决方案

原始论文

¹美国德州大学奥斯汀分校电子与计算机工程系计算媒体实验室

²爱丁堡大学科学与工程学院工程学院，英国爱丁堡

^3.德克萨斯大学奥斯汀分校穆迪传播学院新闻与媒体学院计算媒体实验室，美国德克萨斯州奥斯汀

*这些作者贡献相同

通讯作者:

Dhiraj Murthy，文学士，理学硕士，哲学博士

计算媒体实验室

穆迪传媒学院新闻与媒体学院

德克萨斯大学奥斯汀分校

迪恩·基顿(A0900)

奥斯汀，德克萨斯州，78712

美国

电话:1 512 471 5775

电子邮件:Dhiraj.Murthy@austin.utexas.edu

背景:与covid -19相关的错误信息的数量长期超过了事实核查员有效减轻其不良影响的可用资源。自动化和基于网络的方法可以有效地遏制网上的错误信息。基于机器学习的方法在文本分类任务上取得了稳健的表现，包括潜在的低质量新闻可信度评估。尽管初步快速干预取得了进展，但与covid -19相关的错误信息的严重性继续压倒事实核查员。因此，迫切需要改进信息大流行应对的自动化和机器学习方法。

摘要目的:这项研究的目的是改进信息大流行应对的自动化和机器学习方法。

方法:我们评估了三种训练机器学习模型以确定最高模型性能的策略:(1)仅使用与COVID-19相关的事实核查数据，(2)仅使用一般事实核查数据，以及(3)将COVID-19和一般事实核查数据结合起来。我们从事实核查的“虚假”内容和通过编程检索的“真实”内容结合起来，创建了两个与covid -19相关的虚假信息数据集。第一组包含2020年7月至8月的约7000个条目，第二组包含2020年1月至2022年6月的约3.1万个条目。我们众包了31441票给第一个数据集。

结果:模型在第一和第二外部验证数据集上的准确率分别为96.55%和94.56%。我们使用covid -19特定内容开发了性能最佳的模型。我们成功地开发了组合模型，其表现超过了人类对错误信息的投票。具体来说，当我们将模型预测与人类投票混合时，我们在第一个外部验证数据集上获得的最高准确性为99.1%。当我们考虑机器学习模型与人类投票一致的输出时，我们在第一个验证数据集上实现了高达98.59%的准确性。这种方法的准确率仅为73%，超过了人类投票。

结论:96.55%和94.56%的外部验证准确性证明，机器学习可以在对COVID-19内容的准确性进行分类的艰巨任务中产生优异的结果。预训练语言模型在特定主题的数据集上进行微调时表现最佳，而其他模型在特定主题和一般主题数据集的组合上进行微调时达到最佳准确性。至关重要的是，我们的研究发现，混合模型在众包数据的一般主题内容上进行了训练/微调，将我们模型的准确性提高了99.7%。在专家标记的数据稀缺的情况下，成功使用众包数据可以提高模型的准确性。在由机器学习和人类标签组成的“高可信度”分段上，98.59%的准确率表明，众包投票可以优化机器学习标签，将准确度提高到只有人类才能达到的水平。这些结果支持利用监督机器学习来阻止和打击未来与健康相关的虚假信息。

中国生物医学工程学报(英文版)

doi: 10.2196/38756

关键字

新型冠状病毒肺炎；错误信息；机器学习；漏洞百出； infodemiology； infodemic管理；模型的性能；模型的准确性；内容分析

背景

在COVID-19大流行期间，低信息质量导致了个人的不良健康结果[1-3.］．社交媒体上出现了危险的家庭补救措施和预防措施(例如，用加入漂白剂的水漱口)[4］．低质量和有偏见的信息来源可能对一些人更有吸引力，因为它们很容易吸引注意力，并提供有明确证据的更简单的解决方案。由于他们有说服力，“简单”的信息[2，这些来源对一些人来说似乎更有说服力，因为它们证实了现有的偏见，或者更好地符合意识形态叙述。COVID-19相关信息的真实性对世界各地个人的健康状况至关重要[5］．例如，在社交媒体空间中流传的口罩不能预防COVID-19传播或戴口罩不健康的信息[6已经成为美国病例增加的一个主要问题，而且在印度、巴西和土耳其也是如此。社交媒体是传播与covid -19有关的虚假信息和错误信息的一个关键渠道[7］．

要解决这种错误信息，仅靠人工干预是不够的。事实上，仅在2020年第一季度，对covid -19相关内容的英语事实核查就增长了900% [8］．尽管检查越来越多，但事实核查员的数量有限。此外，他们无法检查需要评估的大量内容[8］．因此，创建任何干预措施，以提供自动化解决方案，以评估正在传播的covid -19相关内容的可信度，仍然至关重要。

在这项研究中，我们重点比较了用于准确性分类应用的covid -19相关数据集、一般数据集和组合数据集，并开发了一个成功的双向长短期记忆(Bi-LSTM)机器学习模型(内部和外部验证精度分别达到93%和75%)。当众包的人类标签与机器学习的输出一致时，90%的准确性超过了单独的任何一种方法。我们的研究提供了关键的经验证据，证明少量的人类标签和机器学习可以有效地应对健康虚假信息。

错误信息和虚假信息

Misinformation的定义是“不正确或误导的信息”[9］．例如，当一个家庭成员提供有关政治或健康的错误信息时，他们可能并没有故意误导你，因为他们相信他们分享的信息实际上是真实的。尽管虚假信息本身并不是故意的，但它也可能造成真正的伤害，正如COVID-19虚假信息被归咎于死亡事件[10］．Disinformation指故意和秘密传播虚假信息，以掩盖真相[11］．虽然这两个词都指不正确或不准确的信息，但只有disinformation是故意不正确的。虚假信息运动的一个著名例子是2016年俄罗斯对希拉里·克林顿竞选团队的黑客攻击，并在脸书、推特、YouTube和Instagram上传播具有政治破坏性的宣传。12］．俄罗斯社交媒体上的虚假信息运动被发现可能影响了2016年美国大选。13］．

COVID-19与社交媒体

早期与covid -19相关的研究对于记录关键词、正在出现的主题以及时间模式至关重要[14-16］．一些研究特别强调了谣言的实例[17]、针对亚裔个人的种族主义，并公布数据集[18］．其他研究记录了与covid -19相关的错误信息和虚假信息[8，19］．这项工作发现，错误信息被广泛传播，其中包括印楝叶可以治愈冠状病毒[20.]，某些民族和种族的人是免疫的(特别是如果他们有深色的皮肤)，在温暖的国家的人不会受到影响，这种疾病并不比普通的流感更有害[21］．

其他研究使用机器学习方法试图对网上传播的错误信息和虚假信息进行分类[22-24］．通过在标记错误信息和虚假信息数据集上训练机器学习的分类器，这些方法能够实现从16.7%到96%的准确度(按F1分数衡量)。早期的工作主要集中在部署快速结果，而不是优化分类器，以最佳准确地识别covid -19特有的错误信息和虚假信息。假设在更广泛的范围内，错误信息检测方法与COVID-19期间传播的错误信息有合理的相似性。随着研究的出现，很明显需要针对covid -19的数据集和平台。

与covid -19相关的错误信息数据集、机器学习和自动检测

由于大量与covid -19相关的信息在公共领域传播，自动机器学习识别和分类仍然是大规模检测有害内容的关键方法。六种具有集成学习的机器学习算法被用于研究与covid -19相关的推特数据[25］．几种机器学习方法和自然语言处理(NLP)的组合正被用于开发大规模的错误信息检测。例如，用于COVID-19新闻可信度检查的存储库ReCOVery评估了各种机器学习方法[26］．阻碍机器学习方法的一个关键问题仍然是缺乏大型、经过验证和标记的错误信息数据集[27］．这种缺乏的一个原因是，健壮的标记数据集需要具有特定领域知识的人的参与。此外，错误信息是一种变化迅速的多样化动态现象[28］．此外，仍然缺乏可伸缩的自动化解决方案，以合并来自多个平台的内容。尽管全球研究表明，错误信息非常普遍(这对低收入国家的影响尤为严重)[29]，目前可用的数据集可能不够大，无法进行扩展[30.］．

为了帮助解决这一差距，FakeCovid是一个包含5182篇经过事实核查的新闻文章的数据库，使用来自105个国家的40种语言，并使用机器学习对数据进行分类[31］．COVIDLIES是另一个数据库，包含6761条专家注释的与covid -19相关的推文[22］．通过研究用户评论，有效的NLP方法也被用于通过YouTube视频检测COVID-19错误信息[23］．已经收集并分类了超过1亿条推特信息，以建立“信息泛滥风险指数”，以估计不同地区和国家的错误信息暴露程度[2］．发布了一个与COVID-19错误信息相关的手动标记数据集[32］．还开发了针对covid -19的非英语内容数据集，包括阿拉伯语[33]，葡萄牙语[34]，意大利语[35]，中文[36]，以及多种印度语言[37］．还开发了机器学习方法，以补充与COVID-19相关的手动标记数据集[35］．

文本分类的机器学习方法

用于文本分类的NLP应用包括新闻分类、情绪分析、情绪检测和作者归属[38，39］．文本分类任务中的大多数经典机器学习模型从文档中提取特征(例如，单词袋)，然后将它们提供给分类器以进行预测[38］．请注意，在之前的工作之后[40，我们用“经典”这个词来描述传统的有监督和无监督机器学习方法。

经典的机器学习模型有一些局限性，包括在提取手工制作的特征的过程中繁琐的特征工程，以及在设计特征时由于它们对领域知识的强烈依赖，难以推广到新的任务[38］．深度学习模型利用嵌入模型将文本映射到具有较低维度的特征向量，从而限制了依赖手工制作特征的需求(这通常需要领域知识)[38］．艾尔摩(41]， 2017年开发的具有9300万个参数的3层Bi-LSTM模型，其性能优于此前最流行的word2vec模型[42，43]是谷歌在2013年开发的。2018年，OpenAI开发了生成式预训练变压器(GPT) [42]，谷歌开发了“变压器的双向编码器表示”(BERT) [43]，这启发了基于变压器的几种不同的大型预训练语言模型(PLMs)的创建[38］．例如，广义自回归预训练方法XLNet允许双向上下文的学习，其自回归公式克服了BERT的一些局限性[44］．此外，Facebook开发了RoBERTa [45]，它在比BERT更大的数据集上进行训练。基于变压器的大型模型，包括BERT、RoBERTa和XLNet，在许多NLP任务中取得了很高的成功[43-45］．

客观的

这项研究的目的是通过自动化、机器学习和可扩展的方法来改善在线错误信息的影响。我们的研究试图回答以下三个核心研究问题(RQs):

RQ1:当信息增长超过事实核查员的能力时，利用自动化和可扩展策略(如机器学习、信息检索和众包)的方法是否有助于打击虚假信息?

RQ2:只在covid -19相关的错误信息数据上训练机器学习模型，只在一般错误信息数据上训练机器学习模型，还是两者都训练机器学习模型，在covid -19相关数据上的性能最高?

RQ3:将众包标签与机器学习模型输出相结合，是否可以单独提高准确性?

Machine-Learned分类

我们首先使用CoAID数据集开发了一个分类器[46];具体使用CoAID数据集的05-01-2020和07-01-2020文件夹。由于被认为准确(“真实”)的新闻比被认为不准确(“虚假”)的新闻多，我们包括了所有不准确的新闻，但将真实新闻的数量限制为与虚假新闻的数量相等，以获得平衡的数据集。对于Bi-LSTM模型，我们将输入数据分为训练集(75%)和测试集(25%)。熊猫(47]和scikit-learn [48在分类器的开发和实现中使用。

我们评估了不同的架构、退出、激活函数、优化器、正则化器和批处理大小。我们最终选择了嵌入层、Bi-LSTM层、Dropout层(速率为0.7)和密层(具有1维输出和sigmoid激活函数)。我们使用Adam优化器，其学习率为0.0001，二进制交叉熵损失，批处理大小为1。Bi-LSTM模型有一个内核正则化器l₁而且l₂分别为1e-5和1e-4的正则化因子。此外，我们还使用了一些最先进的文本分类模型，包括BERT、RoBERTa和XLNet等PLMs。我们选择RoBERTa，因为它是一种优化的BERT方法，选择XLNet，因为它是一种自回归BERT类模型。我们使用了四个变压器:BERT-base [43]， XLNet [44]，以及两个在roberta基础上微调的模型[45，49，50中描述的7个数据集上的特定分类任务表1在HuggingFace Trainer中使用默认训练参数51］．此外，我们训练了一个卷积神经网络(CNN)模型用于文本分类[52]，因为该方法已广泛应用于文本分类[38］．

我们模型的所有源代码文件都是公开的开源[53］．

表1。数据集来源和规格。

数据集	源	时间范围	尺寸(文章数量)				类型
			可信的新闻	真实的新闻	总计
CoAID^一个	微博	2020年5月1日结束	572	1324	1896	COVID-19-specific
模糊神经网络^b	PolitiFact	N/A^c	472	797	1270	一般新闻
模糊神经网络	八卦警察	N/A	16818年	5335	22153年	一般新闻
验证数据集1^d	Poynter.org(不可信的新闻);华盛顿邮报，美联社，Politico(真实新闻)	2020年7月20日至8月8日	3874	3177	7051	COVID-19-specific
验证数据集2^d	Poynter.org(不可信的新闻);BBC, AXIOS, CBS新闻，环球邮报(真实新闻)	2020年1月20日至2022年6月15日	14398年	16232年	30630年	COVID-19-specific

^一个仅使用CoAID数据集中的05-01-2020文件夹。

^b模糊神经网络:FakeNewsNet。

^cN/A:不适用。

^d用" COVID-19 "这个查询词搜出来的

数据评估

为了开发我们的外部验证数据集，我们使用了Poynter [54，该网站有数千个与covid -19相关的内容，并贴上了“虚假”标签。对于“真实”新闻，我们从发布文件的媒体来源的可信度中继承了文章的准确性，采用了与ReCOVery类似的方法[26]和CoAID [46与covid -19相关的数据集。我们使用不同的“真实”新闻源创建了两个外部验证数据集，以测试模型的泛化能力。第一个外部验证数据集包括从Poynter收集的约4000条假新闻内容和从几个新闻媒体收集的约3000条真实新闻内容，我们认为这些内容通过继承来源可信度而可靠。我们使用NewsAPI的应用程序编程接口[55]检索以下新闻媒体的内容:路透社、英国广播公司、华尔街日报、华盛顿邮报、美联社和Politico。我们搜索了从2020年7月20日到2020年8月8日的文章，查询词为“COVID-19”。通过这些参数，我们查询了3000多篇新闻文章，并存储了它们的标签、标题、来源、描述、url和发布日期。第二个外部验证数据集包括从2020年3月20日至2022年2月23日期间从Poynter收集的约14,000条不可信新闻，以及从2020年1月20日至2022年6月15日期间从BBC、AXIOS、CBS新闻和《环球邮报》收集的约16,000条带有“COVID-19”查询项的真实新闻。总的来说，在去除由于不适用Poynter标签而导致的元素后，第一个数据集在2020年7月20日至2020年8月8日期间有7051条标记的covid -19相关内容，第二个数据集在2020年1月20日至2022年6月15日期间有30630条标记的covid -19相关内容。

我们开发了一些方法来评估只在与COVID-19相关的错误信息数据上训练机器学习模型、只在一般错误信息数据上训练机器学习模型，还是在两者上训练机器学习模型，是否会在新的、未见过的COVID-19数据集上获得最高的性能。在评估一般数据集时，FNN (fennewsnet) [56，57]提供了符合我们需求的数据格式，并且有足够的容量来满足我们的培训规模。对于与COVID-19相关的数据，我们发现CoAID是一个COVID-19医疗保健错误信息数据集，包含1896篇新闻文章，183,564个相关用户参与，516个关于COVID-19的社交平台帖子，以及ground truth标签[46]，使我们在初步试验中获得了较高的内部验证准确性。为了在两个数据集之间尽可能保持一致，我们从使用默认机器学习模型实现的数据集上执行的标准基准测试实践中提取。我们使用7种不同的数据源组合进行训练，以模拟现实世界中的不同情况:(1)仅使用CoAID，用于在有足够的特定主题数据时模拟情况;(2)部分CoAID和FNN(仅使用CoAID数据集的05-01-2020文件夹);(3)部分CoAID和PolitiFact;(4)部分来自FNN的CoAID和GossipCop内容，用于模拟特定主题数据数量有限的情况;(5)模糊神经网络;(6)政治真相;以及(7)GossipCop，用于模拟没有特定主题数据可用的情况。对于三个经典模型(支持向量机[SVM]，逻辑回归[LR]，伯努利naïve贝叶斯[BNB])和六个深度学习模型(Bi-LSTM, BERT-based模型，两个RoBERTa-based模型[45，49，50]， XLNet [44]，及Text-CNN [52])，我们计算了上述内部验证数据集和两个外部验证数据集的精密度、召回率和f1得分。这是两个标签的加权平均值，四舍五入到最接近的百分之一，详见多媒体附件1-3.，并以CSV文件的形式存放在我们的数据储存库[53］．

道德的考虑

德克萨斯大学奥斯汀分校机构审查委员会(IRB)于2021年4月20日批准了这项人体受试者研究(STUDY00000962)。获得所有研究参与者的知情同意。

众包分类

我们从众包平台高产(多产)招募了注释员，对我们创建的数据集中的新闻内容进行投票。在高产上，我们将研究分布设置为“标准样本”，从而将研究启动到整个参与者池[58］．根据IRB的规定，我们只对美国居民进行投票。我们建立了大约10轮高产任务，每个参与者每小时的报酬约为8美元，结果从756名选民中获得了31441票。

在完成众包投票后，我们手动处理数据，并使用Python脚本进行可用性处理。我们删除了相同标签的重复投票(两张“真实”投票)，以及在高产id报告给我们的id集中找不到的高产id的投票。处理后的数据集有超过6800条内容，“真”或“假”标签至少有3票。我们从Poynter和可信的新闻来源获取最初的事实标签，并将它们映射为0或1。“真”被编码为1，“假”被编码为0。此外，“正确”标签被编码为1(2个标签)，所有其他标签被转换为0(690个标签)。将我们的标签映射到0或1允许我们为数据集收集某些指标。中提供了来自众包数据集的一些示例表2(也看到多媒体附件1)．选民软标签为0.0或1.0表明投票结果是一致的(即，所有选票都投给了同一标签)，而选民软标签范围为0.4-0.6意味着(近)一半的选民有不同的意见。

我们还计算了同意决定的百分比，我们将其定义为众包投票决定的标签与真实标签相同的概率。同意决策的百分比(人类选民准确率)为~0.73，即73%。我们还计算了注释者之间的协议，以确定选民之间的协议。由于每条新闻内容的投票人数不同(从3到7)，Cohen和Fleiss κ统计不适合我们的数据集。因此，我们计算了用户之间的一致性百分比，以确定我们数据的评级者之间的可靠性(68.5%)。由于百分比一致不考虑机会一致，我们计算了Krippendorffα(0.428)。当百分之七十五以上时，协议被认为是可接受的[59),α在0.667≤α≤0.823，在α< 0.667“(60，在众包数据中，所有选民的一致性很低。最终，众包选民在识别与covid -19相关的不可信内容时准确率很低(约73%)，而且他们之间存在很大的分歧。考虑到这个数据集没有被用作基本事实，而是用于评估来自非专家的标记数据是否可以改善模型性能，低一致性对于我们的用例来说不是一个问题。此外，这种低一致性表明，非专业人士对错误信息的反应不同，而不是一致。

鉴于这种高度的可变性，我们接下来评估了我们的众包数据是否真的可以改善机器学习模型的预测。考虑到这一点，我们提出并回答了以下问题:(1)哪种模型最能预测众包标签?(2)与众包标签混合后，模型性能是否会提高?(3)哪种模式与众包标签混合使用效果最好?(4)如果我们只取机器学习模型和人类投票标签一致的数据集子集，预测性能是否会提高?如果是，哪种模型性能最高?

表2。来自众包数据集的例子。

新闻标题		地面实况	选民软标签^一个	选民的标签	选票	结果
和谐的人类投票
	路透社报道，新冠肺炎疫情阻碍德国推动移民融合	1	1．0	1	3.	被人类正确分类
	图为因新冠肺炎去世的土耳其医生在慕尼黑与孩子的最后一次见面	0	1．0	1	4	被人类错误分类
	3M请来了另一家游说公司	1	1．0	1	5	被人类正确分类
	视频显示，意大利政府/布里斯班警方使用僵尸机器人/无人机追捕他们的公民，并让他们呆在家里	0	0．0	0	4	被人类正确分类
	英国疫苗首次在人体研究中激发免疫反应	1	0．0	0	3.	被人类错误分类
	这段视频显示武汉一名女子正在喝蝙蝠汤	0	0．0	0	5	被人类正确分类
不一致的人类投票
	西班牙一家医院的急诊科关闭了	0	0．5	1	6	人为错误分类
	爱丁堡的大多数加里多尼亚酒店工作正在审查中	1	0．5	1	4	被人类正确分类
	英格兰vs爱尔兰:Eoin Morgan队长在ODI系列中享受“新旅程”	1	0.6	1	5	被人类正确分类
	德国的恐慌景象，人们冲进超市	0	0.4	0	5	被人类正确分类

^一个选民软标签数由真标签数/总票数计算。

Machine-Learned分类

RQ1询问自动化系统是否可以帮助打击与covid -19相关的错误信息。我们发现机器学习比随机预测准确率更好。我们开发了一个基于CoAID数据集训练的Bi-LSTM模型。具体来说，我们使用了来自CoAID的1257个条目进行训练，并在来自CoAID的419个条目上测试了我们的模型。我们在两个标签上的加权平均f1得分为0.93(精密度、召回率和准确性相同)。使用相同的模型，外部验证结果在我们的数据集上的f1得分为0.75，具有相同的精密度、召回率和准确性。此外，我们对BERT-base、RoBERTa-fake-news、Fake-News-BERT-Detect、XLNet进行了微调，并在7个数据集组合上训练了Text-CNN，并在两个外部验证数据集上进行了测试。结果显示在多媒体附件1-2．我们在BERT-base、RoBERTa-fake-news、Fake-News-BERT-Detect、XLNet和训练好的Text-CNN的第一个外部验证数据集上分别实现了高达91%、93%、97%、94%和87%的准确性。在同一模型的第二个外部数据集上，准确率高达93%、84%、93%、91%和85%。鉴于这些结果，RQ1可以得到肯定的回答。

数据评估

RQ2询问，仅在与covid -19相关的错误信息数据、仅在一般错误信息数据上训练机器学习模型，还是在两者上训练机器学习模型，在与covid -19相关的数据上的性能最高。我们发现，机器学习模型受益于covid -19相关数据。具体来说，在7个不同的数据集(见多媒体附件1-3.)， RQ2可以回答为:对于经典模型，特定主题数据和一般主题数据的组合性能最好;然而，预训练的模型从纯主题特定的数据中受益最大。在这项研究中，我们调查了三种场景的有效性:(1)关于covid -19相关错误信息的培训，(2)关于非covid -19相关错误信息的培训，以及(3)关于covid -19相关错误信息和非covid -19相关错误信息的培训。我们的结果表明，包括与covid -19相关的错误信息(在我们的案例中是CoAID数据)有助于或至少维持了模型的性能。

经典分类模型包括LR、SVM、BNB、隐马尔可夫模型和随机森林[39］．在我们的实验中，经典模型包括LR, SVM和BNB。所示的三个经典模型多媒体在CoAID和PolitiFact组合训练时，获得了最佳的准确性，而对于已经“研究”了英语语言行为的深度学习预训练模型，仅在CoAID上进行微调时获得了最佳的模型性能(参见多媒体附件1-3.)．在我们缺乏额外的与covid -19相关的错误信息内容的情况下，我们的研究结果表明，在使用经典模型时，将先前的错误信息数据集与特定于covid -19的错误信息数据集结合起来，可能有助于检测新的与covid -19相关的错误信息。然而，使用PLMs(例如BERT)在语言任务上通常比经典模型有更好的性能，对特定主题的数据集进行微调往往会给出更好的结果。通过结合与covid -19相关的(即CoAID)和广泛的、多主题的错误信息数据集(即FNN、GossipCop和PolitiFact)，我们评估了机器学习模型的性能。将来自不同来源的标记数据集与各种机器学习模型相结合，是我们研究的一个新贡献，它可以产生一个可扩展和可推广的框架。详情见多媒体附件1-3.，我们发现只使用八卦警察数据集的模型的准确性非常低。我们获得的最低的BNB准确度(0.37)也来自于GossipCop，这表明标记数据集在错误信息检测的有效性中发挥了重要作用。由于八卦警察被认为是一个可靠的名人新闻来源，八卦警察的标签数据集是特定的，本身对COVID-19错误信息检测的价值有限。相反，结合CoAID和GossipCop作为输入数据来训练我们的模型，显著提高了BNB模型的精度(0.64)(多媒体)．当我们仅使用CoAID数据集对Fake-News-BERT-Detect进行微调时(多媒体附件1)．有了这些发现，RQ2可以得到肯定的回答。

众包分类

RQ3询问将众包标签与机器学习模型输出相结合是否比单独的两种方法都提高了准确性。我们发现，将人类投票与机器学习输出相结合，可以让我们创建更高的性能模型。具体来说，深度学习模型能够以高达70%的准确率预测人类投票。将人类投票与机器学习输出相结合，使我们能够创建一个准确率为99.1%的模型。当只考虑模型和人类投票一致的子集时，我们的准确率高达98.59%。

我们首先评估了我们的模型如何预测我们的众包价值或我们从多产标签中生成的标签(见多媒体附件4-9)．标记为0表示大多数选民投了假票，而标记为1表示有超过或等于一半的选民投了真票。使用在7个数据集组合上训练的模型，并在7051个投票的数据集上进行测试，成功预测多产的众包值的精度高达0.70(参见多媒体)．所有的值都四舍五入到最接近的百分之一。

其次，我们将来自模型的软预测(即概率)和来自众包数据的软投票(结合每个预测的概率，与硬投票相比，选择获得最多选票的预测)结果以不同比例混合，以评估混合后可以实现的最大改进和最高准确性。软投票结果的计算方法是将标签1(可信)的票数除以总票数。结果显示在表3(混合模型的预测)按以下公式计算:

A×(来自模型的软预测)+(1-a)×(来自众包数据的软投票结果)

表3说明了混合后模型的平均准确度更高，我们在第一个外部验证数据集上达到的最高准确度为99.1%(当将10%的用户投票结果与90%的机器学习模型预测混合时)。因此，我们发现用一般新闻训练的模型得到了改善。在与用户投票结果混合后，这些模型获得了更高的准确性(高达99.7%)。这比人类投票的准确率提高了73%。如表3，当a=0.9时，与众包数据混合后，在GossipCop上训练的Text-CNN的性能可以从42.6%提高到99.1%。

第三，正如上面机器学习分类部分所讨论的，机器学习模型的准确率在41%到98%之间，而人类投票的准确率约为73%。在7051条内容中，39.24%-69.58%(表现最好的模型)在人类投票和机器学习模型中都表现出一致。因此，我们能够将内容从2766个减少到4906个。对于每一段内容，我们将其标签分配给机器学习模型和人类投票都同意的值。使用这种方法，我们的最佳准确率为98.59%(见多媒体附录10)，该模型来自对CoAID数据集进行微调的Fake-News-BERT-Detect模型。相比之下，人类投票的准确率为73%，整个验证数据集的准确率为96.55%。当先前在covid -19特定数据集(即CoAID)上对模型进行微调时，所有模型都实现了最佳性能。

在一般主题数据集上训练/微调的模型的性能可以通过众包数据(例如，在大流行病等低数据情况下)得到改善。具体而言，基本模型在整个验证数据集上实现了71.01%的精度。例如，对于子集，我们最多实现了89.96%的准确性(通过对PolitiFact进行微调的BERT-base)。此外，在通用主题和covid -19特定数据集上训练的模型也通过这种方法得到了改进。具体来说，整个数据集的准确率高达89.93%(见多媒体附件1)提高到96.26%(对于子集)。实际上，这两种可信度测试都可以应用于一段内容，并获得“正确”或“错误”的标签，准确率高达98.59%。因此，将人类投票与机器学习的输出相结合，表现优于仅使用人类投票的模型。我们对RQ3的回应是，将众包标签与模型预测混合，并将数据集减少到“高置信度”数据子集，从而提高了模型性能。

表3。混合模型的准确性分析，在第一个外部验证数据集上进行评估。

度规			一个= 0.9		一个= 0.7		一个= 0.5		一个= 0.3		一个= 0.1
	平均改善	0.069		0.082		0.084		0.063		0.029
最大的改善
	最大的改善	0.565		0.562		0.463		0.385		0.415
	模型名称	cnn训练八卦警察		cnn训练八卦警察		cnn训练八卦警察		cnn训练八卦警察		假新闻-伯特-侦测在八卦警察上进行了微调
	模型精度(混合前)	0.426		0.426		0.426		0.426		0.302
	模型精度(混合后)	0.991		0.981		0.889		0.804		0.717
最佳的性能
	模型名称	cnn训练CoAID		cnn训练CoAID		cnn接受过CoAID和PolitiFact的培训		cnn训练八卦警察		cnn接受过PolitiFact培训
	模型精度(混合前)	0.874		0.874		0.798		0.426		0.499
	模型精度(混合后)	0.991		0.984		0.891		0.804		0.728

主要结果

我们的结果表明，RQ1(询问自动化系统和可扩展策略是否有助于打击错误信息)可以得到肯定的回答。我们训练的模型在我们的第一个外部验证数据集(2020年7月20日至2020年8月8日的约7000个帖子和真实新闻)上的准确率为98%，在我们的第二个验证数据集(2020年1月20日至2022年6月15日的约15,000个帖子和真实新闻)上的准确率为93%。由事实核查员进行标记可能耗时、费力且昂贵，而机器学习模型一旦训练好就可以随意和大规模地使用。这些结果支持了我们的发现:考虑到人类事实核查员负担过重，无法跟上日益增长的在线错误信息数量，机器学习显著改善了事实核查。

关于RQ2(询问哪种数据集对机器学习最有帮助)，我们发现针对大流行特定内容的训练/微调往往会导致更高的准确性。具体来说，我们表现最好的模型仅针对COVID-19主题内容进行了微调。我们评估了三个经典模型和五个在七个不同数据集上训练的深度学习模型，包括一个特定主题的数据集(仅CoAID)，三个一般主题的数据集(FNN，八卦cop和PolitiFact)，以及特定主题和一般主题数据集的三种组合(CoAID和FNN，八卦cop和CoAID, PolitiFact和CoAID)。经典模型在一般主题和特定于covid -19的数据组合(CoAID和PolitiFact的组合)上训练时获得了最佳的准确性，而深度学习PLMs(例如BERT)已经在英语文本上训练过，因此可以被认为已经“研究”了英语语言的行为，在对特定于covid -19的数据集(即CoAID)进行微调时获得了最佳的模型性能。

关于RQ3，询问将众包标签与模型结合是否可以提高模型性能，我们发现将众包标签与模型预测结合可以提高模型性能。混合模型(众包投票与机器学习模型混合)能够达到99.1%的准确率。鉴于众包投票的准确率为73%，而我们的机器学习模型的最高准确率为96.55%，因此我们的结果表明，众包可以与机器学习结合使用来提高准确率。此外，经过一般新闻训练的模型在与用户投票结果混合后可以得到改进，以达到更高的准确性。具体来说，我们发现混合后的改善高达57.1%(参见表3)．也就是说，只有在考虑子集时，在通用主题数据集上训练/微调的模型的性能才能得到提高。众包和机器学习都不需要专家进行事实核查，这两者都是大规模解决COVID-19和其他与健康有关的错误信息的可行选择。

未来的工作

未来的工作可以进一步优化我们的机器学习模型，扩展和开发我们的标记数据集。此外，我们希望我们的发现能鼓励其他人开发针对covid -19的虚假信息和虚假信息数据集。随着与covid -19相关的标记数据数量的增加，应进一步评估与covid -19相关的标记数据和一般错误信息数据的组合，并由其他人对其进行基准测试，以提高机器学习模型的准确性。因此，我们的结果将受益于未来工作中使用与covid -19相关和广泛、多主题内容的数据集进行的复制。由于我们只对第一个外部验证数据集(跨度一个月)进行众包投票，未来的工作可以对第二个验证数据集进行众包投票结果，以加强我们结论的有效性。此外，众包数据集的规模相对较小(31441条内容，平均每条4.46票)，可以随着票数的积累而加强，增加我们结果的泛化性。因此，未来的工作将受益于将我们的框架扩展到更大的众包数据集。由于收集众包数据可能很耗时，使用机器学习模型来生成伪人类投票可能是加强众包数据集的另一种方法。在为一个小型新闻数据集收集众包数据后，在该数据集上训练的伪人类投票模型可以用于预测更大数据集上的人类标签。这种方法对于没有标签的新闻数据集特别有用，我们可以在没有真实标签的情况下模拟人类投票。

未来的工作还可以衡量使用机器学习模型而不是专家事实核查员是否有足够的优势(考虑到前一种方法允许更便宜和更快的大规模数据标注)。机器学习模型和专业事实核查员的结合也有可能带来更好的结果。例如，事实核查人员可以使用模型标记新闻以加快工作速度，事实核查人员的结果可以用于改进模型。该方法可用于人在回路模型的开发。实时新闻浏览器将新闻与事实核查员的结果或模型预测(如果没有事实核查员可用)一起显示，可以帮助评估可信度，即使错误信息比专家手动检查的要多。最后，未来的工作可以进一步研究众包输出与covid -19相关数据的真实标签之间的关系，这是我们在本研究中进行的最低限度调查。具体来说，未来的工作可以通过探索众包标签和地面真相标签最有可能不一致的场景，来检查人类什么时候更有可能做出错误判断。研究可以探索不同问题领域的众包数据，以确定干预措施最应该关注的问题领域中的错误信息，使用诸如人类投票和实际真相标签之间的分歧等指标。

限制

我们工作的一个局限性是，我们的研究没有严格测试FNN和CoAID模型的所有组合上可能的模型优化上限。另一个较小的限制是，在评估我们的模型时，我们将Poynter数据集中的所有标签都赋值为“假”(除了两个“正确”标签)，即使一小部分标签可以被解释为真(<0.5%的标签如“半真”和“大部分真”)。由于每个项目的投票数量和标记数据集的时间跨度，众包数据集的质量可能受到限制。最后，由于时间和资金限制，我们只能对第一个外部验证数据集进行众包投票。

结论

人工事实核查无法应对目前存在的大量与covid -19有关的错误信息[8］．为了帮助解决与covid -19相关的错误信息的扩散，我们开发了一种自动化、机器学习和可扩展的方法。由于我们评估的表现最佳的模型仅针对特定于covid -19的内容进行了微调，因此特定于主题的数据集比一般主题的数据集或两者的组合更有帮助。第一和第二个外部验证数据集的96.55%和94.6%的准确性分别表明，在确定covid -19相关内容的准确性这一艰巨任务中，机器学习可用于获得明显优于随机结果的结果。我们的研究还发现，在只考虑人类投票和模型输出都同意的内容的减少集的情况下，模型的准确率高达99.1%。在与人类投票相结合后，对一般主题内容进行训练/微调的模型可以改进到可接受的水平，并可用于在低数据情况下(如大流行)补充有限的特定主题内容，以提高准确性。

我们的研究结果还表明，机器学习模型可以通过外行、众包选民的标签来增强，以提高准确性，而无需专家事实核查员的额外输入。将人类投票与模型预测结果混合，准确率高达99.1%(通过将10%的人类投票标签与90%的模型标签相结合)。我们以开源形式发布了7000个与主题相关的数据集，包括事实真相和众包标签、机器学习模型和代码，以促进其他人开发自动化、可扩展的COVID-19信息大流行解决方案。

COVID-19信息疫情应对需要承认，错误信息可能是无定形的和高度分散的。本研究中开发的机器学习和自动化方法依赖于文本特征，使其强大，因为它们可以被扩展(例如，由研究人员或技术公司)，以研究存在在线错误信息的各种平台和环境(例如，新闻和社交媒体)。自动化和机器学习能够以准确性的小幅下降换取可扩展性，这是一个重要的考虑因素，因为在COVID-19大流行期间，错误信息的增长超过了事实核查能力。

致谢

作者希望感谢Kami Vinton的深刻评论和建议，以及她对手稿校对的帮助。这项工作得到了Good Systems的支持，这是德克萨斯大学奥斯汀分校的一项研究大挑战，以及德克萨斯大学奥斯汀分校的本科生研究奖学金。

作者的贡献

NK和DM共同设计了这项研究，撰写了第一版手稿，并合作获得了众包资金。DM为该项目的深度学习方面获得了进一步的资金支持。NK编写了第一版手稿的所有代码，为第一版手稿进行了实验，收集了众包数据，并为多媒体附件4还有一部分多媒体．YL撰写了手稿修改的大量章节，在修改过程中进行了实验，提供了第二个验证数据集，进行了深度学习模型的实验，并为其他表格提供了数据。所有作者都合作完成了修改后的手稿。NK和YL对该研究的贡献相同，应被视为共同第一作者。

利益冲突

没有宣布。

‎

多媒体附件1

在第一个外部验证数据集上建模性能。

DOCX文件，15 KB

‎

多媒体附件2

在第二个外部验证数据集上建立性能模型。

DOCX文件，15 KB

‎

多媒体

使用经典模型对结果进行基准测试。

DOCX文件，20kb

‎

多媒体附件4

双向长短期记忆(Bi-LSTM)模型在CoAID上训练并在众包标签上测试的结果。

DOCX文件，14kb

‎

多媒体

BERT-base对众包标签的测试结果。

DOCX文件，14kb

‎

多媒体附件6

RoBERTa-Fake-News在众包标签上的测试结果。

DOCX文件，14kb

‎

多媒体

在众包标签上测试假新闻伯特检测的结果。

DOCX文件，14kb

‎

多媒体附件8

XLNet在众包标签上的测试结果。

DOCX文件，14kb

‎

多媒体

Text-CNN在众包标签上的测试结果。

DOCX文件，14kb

‎

多媒体附录10

当人类和机器学习投票一致时，在简化的内容集上建模表现。

DOCX文件，17kb

沈杰，李勇，安华。基于link2vece的网络搜索结果假新闻检测模型。专家系统应用2021年12月;184:115491。［CrossRef］
Gallotti R, Valle F, Castaldo N, Sacco P, De Domenico M.评估应对COVID-19流行病的“信息传染病”风险。Nat Hum Behav 2020 12月4日(12):1285-1293。［CrossRef] [Medline］
Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL，等。COVID-19社交媒体信息大流行。科学通报2020年10月06日;10(1):16598。［CrossRef] [Medline］
利特曼L，罗森Z，罗森茨威格C，温伯格-利特曼SL，莫斯AJ，罗宾逊J.人们真的喝漂白剂来预防COVID-19吗?一个有问题的受访者的故事和测量调查数据中罕见事件的指南。MedRxiv。预印本于2021年1月2日出版。URL:https://www.medrxiv.org/content/10.1101/2020.12.11.20246694v3[2022-08-12]访问
世卫组织管理COVID-19信息大流行的特设技术磋商:行动呼吁，2020年4月7日至8日。世界卫生组织，信息共享机构资源库，2020年。URL:https://apps.who.int/iris/handle/10665/334287[2020-12-03]访问
卡赞O.一个关于面具的奇怪说法流传了好几个月。《大西洋月刊》2020年10月9日。URL:https://www.theatlantic.com/politics/archive/2020/10/can-masks-make-you-sicker/616641/[2022-04-11]访问
李志刚，李志刚，李志刚，等。COVID-19误解的原因和后果:理解新闻和社交媒体的作用。HKS Misinfo Review 2020年6月18日19:1-18 [免费全文] [CrossRef］
Simon F, Howard PN, Nielsen RK。COVID-19错误信息的类型、来源和声称。路透社研究所，2020年4月07日。URL:https://reutersinstitute.politics.ox.ac.uk/types-sources-and-claims-covid-19-misinformation[2022-08-12]访问
错误信息。韦氏字典。URL:https://www.merriam-webster.com/dictionary/misinformation[2022-07-05]访问
科尔曼。由于Covid-19的错误信息，“数百人死亡”。英国广播公司。2020年8月12日。URL:https://www.bbc.co.uk/news/world-53755067[2022-07-17]访问
造谣。韦氏字典。URL:https://www.merriam-webster.com/dictionary/disinformation[2022-07-05]访问
麦克莱伦·K，克里·F.英国表示，俄罗斯喷子工厂正在社交媒体上传播虚假信息。路透。URL:https://www.reuters.com/world/europe/britain-says-russian-troll-factory-is-spreading-disinformation-social-media-2022-04-30/[2022-07-17]访问
Jamieson KH。网络战争:俄罗斯黑客和喷子如何帮助选举总统:我们不知道、不能知道和知道的事情。英国牛津:牛津大学出版社;2020.
Banda JM, Tekumalla R，王刚，于军，刘涛，丁勇，等。用于开放科学研究的大规模COVID-19推特聊天数据集，这是一项国际合作。中国流行病学杂志2021 Aug 05;2(3):315-324。［CrossRef］
Chen E, Lerman K, Ferrara E.跟踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [免费全文] [CrossRef] [Medline］
Gao Z, Yada S, Wakamiya S. NAIST COVID:多语言COVID-19推特和微博数据集。出来了。预印本已于2020年4月17日发布。URL:https://arxiv.org/abs/2004.08145[2022-08-12]访问
Haouari F, Hasanain M, Suwaileh R. arcov19 -谣言:用于错误信息检测的阿拉伯COVID-19推特数据集。出来了。预印本于2021年3月13日发布。URL:https://arxiv.org/abs/2010.08768[2022-08-12]访问
He B, Ziems C, Soni S, Ramakrishan N, Yang D, Kumar S.种族主义是一种病毒:COVID-19危机期间社交媒体上的反亚洲仇恨和反言论。出来了。预印本于2021年11月10日发布。URL:https://arxiv.org/abs/2005.12423?context=cs.CL[2022-08-12]访问
郭志刚，张志刚，张志刚，张志刚，等。冠状病毒病毒式传播:量化推特上COVID-19错误信息的流行。治愈2020年3月13日;12(3):e7255 [免费全文] [CrossRef] [Medline］
错误:印度楝树叶子可以治愈新型冠状病毒并缓解其症状的说法在Facebook上的多个帖子中被分享了数千次。波因特，2020年3月22日。URL:https://tinyurl.com/yc22cz8z[2022-07-17]访问
张志刚，张志刚，张志刚，张志刚，等。让我们先来看看推特上的COVID-19信息和错误信息分享。出来了。预印本已于2020年3月31日发布。URL:https://arxiv.org/abs/2003.13907[2022-08-12]访问
Hossain T, Logan RI, Ugarte A. COVIDLies:检测社交媒体上的COVID-19错误信息。出席会议:2020年EMNLP第一次COVID-19国家语言处理研讨会(第二部分);2020年11月20日;虚拟的。［CrossRef］
Serrano JCM, Papakyriakopoulos O, Hegelich S.基于nlp的特征提取用于检测YouTube上的COVID-19错误信息视频。发表于:ACL 2020第一次2019冠状病毒病NLP研讨会;2020年7月;虚拟的。
达拉瓦特A，洛伦佐I，莫拉莱斯A，载CX。喝漂白剂还是做什么?Covid-HeRA:在存在covid - 19错误信息的情况下进行风险知情卫生决策的数据集。出来了。预印本已于2020年10月17日发布。URL:https://arxiv.org/abs/2010.08743[2022-08-12]访问
Al-Rakhami MS, Al-Amri AM。谎言致命，事实拯救:在推特上发现COVID-19错误信息。IEEE Access 2020;8:155961-155970 [免费全文] [CrossRef] [Medline］
周x, Mulay A, Ferrara E, Zafarani R.恢复:COVID-19新闻可信度研究的多模式资源库。出来了。预印本已于2020年6月9日发布。URL:https://arxiv.org/abs/2006.05557[2022-08-12]访问
华杰，邵睿。新型冠状病毒(COVID-19)数据视角下的“信息大流行”和新兴问题:以中国为例。国际环境与公共卫生2020年3月30日;17(7):2309 [免费全文] [CrossRef] [Medline］
张X, Ghorbani AA。网络假新闻概述:定性、检测和讨论。Inf Process Manag 2020年3月57日(2):102025。［CrossRef］
查敏，查C，辛格K, G利玛，杨安，库尔什雷斯塔J，等。35个国家COVID-19大流行的错误信息流行率和事实核查:观察性信息流行病学研究JMIR嗡嗡声因子2021 Feb 13;8(1):e23279 [免费全文] [CrossRef] [Medline］
Asr FT, Taboada M.大数据和高质量数据用于假新闻和错误信息检测。大数据与社会2019年1月6日(1)［CrossRef］
Shahi GK, Nandini D. FakeCovid—COVID-19的多语言跨域事实核查新闻数据集。出来了。预印本已于2020年6月19日发布。URL:https://arxiv.org/abs/2006.11343[2022-08-12]访问
Patwa P, Sharma S, Pykl S, Guptha V, Kumari G, Akhtar M，等。抗击信息疫情:COVID-19假新闻数据集。见:Chakraborty T, Shu K, Bernard HR, Liu H, Akhtar MS，编辑。在紧急情况下，用地区语言打击网上敌对帖子。2021年的约束。计算机与信息科学通讯，第1402卷。可汗:施普林格;2021.
Addawood A.冠状病毒:公共阿拉伯语推特数据集。OpenReview。2020年8月12日。URL:https://openreview.net/forum?id=ZxjFAfD0pSy[2022-08-12]访问
甜瓜T，菲格雷多CMS。巴西推特和葡萄牙语COVID-19新闻的首个公开数据集。数据概要2020;32:106179。［CrossRef］
罗维塔A，巴伽瓦修拉A。意大利与covid -19相关的网络搜索行为和信息流行态度:信息流行病学研究。JMIR公共卫生监测2020年5月05日;6(2):e19374 [免费全文] [CrossRef] [Medline］
Yang C, Zhou X, Zafarani R.已检查:中国COVID-19假新闻数据集。Soc Netw Anal Min 2021;11(1):58 [免费全文] [CrossRef] [Medline］
Kar D, Bhardwaj M, Samanta S, Azad AP.请不要谣言!新型冠状病毒假推文的多指标语言检测方法。出来了。预印本已于2020年10月14日发布。URL:https://arxiv.org/abs/2010.06906[2022-08-12]访问
Minaee S, Kalchbrenner N, Cambria E, Nikzad N, Chenaghlu M，高杰。基于深度学习的文本分类。ACM计算调查2022年4月30日;54(3):1-40。［CrossRef］
Alam T, Khan A, Alam F.孟加拉语文本分类使用变压器。出来了。预印本已于2020年11月9日发布。URL:https://arxiv.org/abs/2011.04446[2022-08-12]访问
Biamonte J, Wittek P, Pancotti N, Rebentrost P, Wiebe N, Lloyd S.量子机器学习。自然杂志2017年9月13日;549(7671):195-202。［CrossRef] [Medline］
Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K，等。深度语境化的单词表示。出来了。预印本已于2018年2月15日发布。URL:https://arxiv.org/abs/1802.05365[2022-08-12]访问
李文杰，王晓明，王晓明。生成预训练对语言理解能力的影响。Amazon Simple Storage System (S3)。2018.URL:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf[2022-08-12]访问
戴夫林，张伟，李K, Toutanova K. BERT:基于深度双向转换器的语言理解预训练。出来了。预印本已于2018年10月11日发布。URL:https://arxiv.org/abs/1810.04805[2022-08-12]访问
杨震，戴震，杨勇，Carbonell J, Salakhutdinov R, Le QV。XLNet:语言理解的广义自回归预训练。2019发表于:第33届神经信息处理系统会议(NeurIPS 2019);2019年12月8日至14日;温哥华BC。
刘勇，Ott M, Goyal N，杜杰，Joshi M，陈东，等。一种鲁棒优化的bert预训练方法。出来了。预印本已于2019年7月26日发布。URL:https://arxiv.org/abs/1907.11692[2022-08-12]访问
Cui L, Lee D. CoAID: COVID-19医疗错误信息数据库。出来了。预印本已于2020年5月22日发布。URL:https://arxiv.org/abs/2006.00885[2022-08-12]访问
熊猫开发团队。泽诺多，2020年12月7日。URL:https://zenodo.org/record/4309786#.YvfOIC9E3mp[2022-08-12]访问
孙文杰，孙文杰，李文杰，等。使用scikit-learn进行神经成像的机器学习。Front Neuroinform 2014;8:14。［CrossRef] [Medline］
变压器假新闻检测。GitHub。2022.URL:https://github.com/Jiayif/Transformer-Fake-News-Detection[2022-08-12]访问
Tatti问。roberta-fake-news。《拥抱脸》，2021年。URL:https://huggingface.co/ghanashyamvtatti/roberta-fake-news[2022-08-12]访问
Thomas W, Lysandre D, Victor S, Julien C, Clement D, Anthony M，等。变形金刚:最先进的自然语言处理。2020年发表于:2020年自然语言处理经验方法会议:系统演示;2020年10月;网上。［CrossRef］
龚敏，寿林，林伟，桑忠，闫青，杨忠，等。NeuronBlocks:像玩乐高一样构建你的NLP DNN模型。出来了。预印本已于2019年4月21日发布。URL:https://arxiv.org/abs/1904.09535[2022-08-12]访问
COVID-19错误信息检测:信息大流行的机器学习解决方案。GitHub。URL:https://github.com/yunongLiu1/COVID-19-Misinformation-Detection--Machine-Learned-Solutions-to-the-Infodemic[2022-08-13]访问
波因特》2020。URL:https://www.poynter.org/[2022-04-11]访问
消息的API。URL:https://newsapi.org/[2020-12-06]访问
舒克，Mahudeswaran D，王山，李丹，刘华。基于新闻内容、社会语境和时空信息的假新闻研究。大数据2020;8(3):171-188。［CrossRef］
舒K, Sliva A，王山，唐杰，刘慧。基于数据挖掘的社交媒体假新闻检测。出来了。预印本于2017年8月7日发布。URL:https://arxiv.org/abs/1708.01967[2022-08-12]访问
建立一个多产的研究。多产的。URL:https://researcher-help.prolific.co/hc/en-gb/articles/4407449546002-Audience[2022-07-17]访问
评级者间信度IRR:定义、计算。统计如何。URL:https://www.statisticshowto.com/inter-rater-reliability/[2022-07-17]访问
Shabankhani B, Charati JY, Shabankhani K, Cherati SK.使用Krippendorff的alpha对名义数据的评级者之间的协议进行调查。Arch Pharma practice 2020;10(S1):160-164。

‎

伯特:来自变压器的双向编码器表示

Bi-LSTM:双向长短期记忆

BNB:伯努利naïve贝叶斯

有线电视新闻网:卷积神经网络

模糊神经网络:FakeNewsNet

GPT:生成式预训练变压器

IRB:机构检讨委员会

LR:逻辑回归

NLP:自然语言处理

PLM:预训练语言模型

中移动:研究问题

支持向量机:支持向量机

W·艾哈迈德编辑;提交14.04.22;J Banda同行评审，N Döring;对作者08.06.22的评论;订正版本收到20.07.22;接受08.08.22;发表25.08.22

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息，https://infodemiology.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

COVID-19错误信息检测:信息大流行的机器学习解决方案

COVID-19错误信息检测:信息大流行的机器学习解决方案

原始论文

通讯作者:

摘要

关键字

简介

背景

错误信息和虚假信息

COVID-19与社交媒体

与covid -19相关的错误信息数据集、机器学习和自动检测

文本分类的机器学习方法

客观的

方法

Machine-Learned分类

数据评估

道德的考虑

众包分类

结果

Machine-Learned分类

数据评估

众包分类

讨论

主要结果

未来的工作

限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写