原始论文gydF4y2Ba
摘要gydF4y2Ba
背景:gydF4y2Ba在2019冠状病毒病大流行期间,我们每天都会接触到大量信息。世界卫生组织将这种“信息大流行”定义为在大流行期间大规模传播误导性或虚假信息。信息大流行期间错误信息的传播最终导致对公共卫生秩序的误解或对公共政策的直接反对。尽管已经采取了一些措施来打击虚假信息的传播,但目前的人工事实核查方法还不足以打击这种信息泛滥。gydF4y2Ba
摘要目的:gydF4y2Ba我们建议使用自然语言处理(NLP)和机器学习(ML)技术来构建一个可用于识别在线不可靠新闻文章的模型。gydF4y2Ba
方法:gydF4y2Ba首先,我们对ReCOVery数据集进行预处理,获得2020年1月至5月2029篇带有COVID-19关键词的英文新闻,并将其标记为可靠或不可靠。进行了数据探索,以确定可靠文章和不可靠文章之间的主要差异。我们建立了一个集成深度学习模型,使用正文文本以及特征,如情感、移情派生的词汇类别和可读性,对可靠性进行分类。gydF4y2Ba
结果:gydF4y2Ba我们发现,可靠的新闻文章具有较高的中性情绪比例,而不可靠的文章具有较高的负面情绪比例。此外,我们的分析表明,可靠的文章比不可靠的文章更容易阅读,除了有不同的词汇类别和关键字。我们对新模型进行了评估,以实现以下性能指标:0.906的曲线下面积(AUC), 0.835的特异性和0.945的敏感性。这些值高于原始恢复模型的基准性能。gydF4y2Ba
结论:gydF4y2Ba本文确定了可靠和不可靠新闻文章之间的新区别;此外,该模型还使用了最先进的深度学习技术进行训练。我们的目标是能够利用我们的发现来帮助研究人员和公众观众在日常生活中更容易地识别虚假信息和不可靠的媒体。gydF4y2Ba
doi: 10.2196/38839gydF4y2Ba
关键字gydF4y2Ba
简介gydF4y2Ba
COVID-19大流行的爆发给世界带来了更多的战斗。在“信息大流行”期间,世界面临着大量虚假信息,“信息大流行”的定义是在大流行期间传播大量包括误导性或虚假信息在内的信息[gydF4y2Ba
,gydF4y2Ba ].由于隔离和越来越多的限制,信息通过社交媒体和新闻来源被贩运给公众;因此,虚假信息以更大的规模和更快的速度传播。尽管有公共卫生指南,但网上仍然存在大量虚假和误导性信息,约占主要社交媒体网站(如Twitter)文章的20% [gydF4y2Ba ].虽然分享虚假信息的比例低于循证指南,但虚假信息的传播速度更快,因为它包含了煽动性的信息[gydF4y2Ba ,gydF4y2Ba ].此外,资讯疫症管理是维持公众对科学指导信任的重要方面[gydF4y2Ba ].因此,我们需要构建遏制网络虚假信息传播的方法,并识别虚假新闻的潜在来源。gydF4y2Ba网上大量的虚假新闻可能是虚假信息,内容往往缺乏可靠性和可信度。gydF4y2Ba
-gydF4y2Ba ].Disinformation的定义是故意传播虚假信息,misinformation的定义是疏忽分享虚假信息[gydF4y2Ba ].下面,我们将不区分虚假信息和错误信息,我们将把它们合称为虚假信息。虚假新闻可分为6类:宣传、广告、操纵、讽刺、戏仿和捏造[gydF4y2Ba ].虽然新闻机构和社交媒体公司已经实施了标记和删除虚假新闻的措施,但人工检测虚假新闻的速度还不足以与它在社交媒体上的快速传播相竞争[gydF4y2Ba ,gydF4y2Ba ].大约62%的美国成年人从社交媒体网站获取新闻;因此,更快的事实核查对于确保减少虚假信息的传播至关重要。gydF4y2Ba ].因此,虚假新闻的传播导致了公众的混乱,这可能与反病毒和疫苗的言论有关[gydF4y2Ba ].目前,在线检测虚假新闻的最常见方法之一是通过人工策划的事实核查网站(如Snopes)标记虚假信息。gydF4y2Ba ].尽管这种方法可能是准确的,但由于COVID-19大流行期间产生了大量虚假新闻,因此效率很低[gydF4y2Ba ].因此,需要对新闻稿件进行可靠性自动检测。gydF4y2Ba目前,利用机器学习(ML)在社交媒体上进行虚假新闻检测已经得到了广泛的研究。新闻页面的各种文本特征被用来预测文章的可靠性。利用多特征来预测虚假信息的存在是当前虚假信息检测研究的共同主题。使用多个特性可以提高ML模型的性能。例如,Reis等[gydF4y2Ba
]使用文本特征(如语义和词汇特征)和新闻来源特征(如新闻组织的可信度)作为ML模型的输入。使用传统的分类器,如随机森林和极端梯度增强(XGBoost),其性能分别为0.85和0.86的曲线下面积(AUC) [gydF4y2Ba ].Elhadad等[gydF4y2Ba ]除了特征工程外,还使用了投票集成方法来进行情感和词性标记。Singhania等[gydF4y2Ba 他使用来自单词、句子和新闻文章标题级别的输入创建了一个3级HAN模型。类似的研究提出了其他词汇特征,如n-grams,术语频率逆文档频率(TF-IDF)和概率上下文无关语法(PCFG)也被用作使用深度学习进行错误信息预测的特征[gydF4y2Ba ].因此,特性工程提供了更高的性能指标以及更好的可解释性。这些特征使模型能够专注于重要的元素,从而实现可靠性预测,特别是在新闻文章中,尽管样本之间存在很高的异质性和噪声。为了建立在其他虚假信息研究发现的基础上,以及确定有助于虚假信息检测的重要新因素,我们使用ReCOVery数据集创建了一个最终的集成模型[gydF4y2Ba ].gydF4y2Ba采用集成方法进一步提高新闻文章中的错误信息检测性能。集成模型的使用可以通过提高对模型未经过训练的数据的泛化能力来提高模型性能[gydF4y2Ba
].库马尔等[gydF4y2Ba ]在使用集成模型后表现出了性能的提高,其中使用集成深度学习模型与卷积神经网络(CNN)和双向长短期记忆(BiLSTM)能够获得比单独使用CNN或长短期记忆(LSTM)模型更高的性能,其性能精度分别为88.78%,而CNN和LSTM分别为73.29%和80.62%。由于新闻文章的大小,选择了一个双向门控循环单元(BiGRU)作为集成中的第一个模型[gydF4y2Ba ].该模型是一种循环神经网络(RNN),可以很好地处理顺序文本数据。BiGRU解决了消失梯度问题,模型在长新闻文章上进行训练,并“忘记”文章开头的信息。这个模型由许多神经元或细胞组成,每个神经元或细胞都有一个更新门来控制每个单词添加什么新信息,还有一个重置门来控制保留多少旧信息。BiGRU的双向特性允许它从文章的开头和结尾处理每个示例。与其他最先进的自然语言处理(NLP)模型(如LSTM)相比,门控循环单元(GRU)具有更低的参数,使其更快地训练和使用[gydF4y2Ba ,gydF4y2Ba ].一个更快的模式很重要,因为每天都有大量的新闻文章发布;因此,虚假信息检测模型需要既准确又快速,以跟上新文章的数量。XGBoost是集成模型中包含的另一个模型。XGboost的一个优势是它从表格数据中学习的出色能力[gydF4y2Ba ,gydF4y2Ba ].作为一种梯度增强树模型,它比神经网络更快,并且在特征提取后的第一个模型的低维输出上工作得更好。此外,XGBoost已被证明优于表格数据的深度学习模型,因为超参数搜索更短[gydF4y2Ba ].此外,XGBoost在集成模型中与深度学习模型相结合的结果比具有多个深度学习模型或经典ML模型的集成模型的结果更好[gydF4y2Ba ].gydF4y2Ba本研究旨在通过集成深度学习模型,利用恢复数据集对新闻文章的可靠性进行分类,为多方面的虚假信息问题提供一种潜在的解决方案。我们假设新闻文章中的情感、可读性、词汇类别和其他文本特征可以共同作为提高新闻可靠性分类的输入。我们还探讨了可靠信息和不可靠信息在情感或语气上的差异,可以用来对文本的可靠性进行分类。我们的研究结果可能会促进新闻可靠性分类,并帮助研究人员和公众在日常生活中识别不可靠的新闻文章。gydF4y2Ba
方法gydF4y2Ba
工作流gydF4y2Ba
首先,使用ReCOVery数据集完成数据预处理,其中包括删除停止词、链接和通用资源定位器(url)以及重复的文章(gydF4y2Ba
).缩写和数字到单词的转换也在预处理步骤中完成。在对数据进行预处理之后,我们执行了特征工程来创建可读性和情感评分,并从文本中提取词汇类别(gydF4y2Ba ).预处理数据被分成训练集、验证集和测试集。在训练集和验证集上进行单词标记化和嵌入。标记化和嵌入完成后,在验证集上训练和评估9个不同的ML模型,以确定表现最佳的模型。我们将朴素贝叶斯(NB)、k -最近邻(KNNs)和逻辑回归(LR)称为传统的ML模型,因为它们不是深度学习模型。性能最好的模型是包含双向GRU和XGBoost集成“新模型”的集成模型,如中蓝色突出显示的那样gydF4y2Ba .gydF4y2Ba数据描述gydF4y2Ba
ReCOVery数据集是我们连接到Twitter帖子的新闻文章的主要数据来源[gydF4y2Ba
].它关注来自广泛新闻来源的新闻文章的可靠性,包含来自不同国家的约2000家不同新闻媒体的2029篇与COVID-19新闻有关的文章(过滤时间为2020年1月至5月)[gydF4y2Ba ].根据NewsGuard的评分,每篇文章都被标记为0(不可靠)或1(可靠)[gydF4y2Ba ].NewsGuard评分由记者开发,用于标记在线文章的可靠性。NewGuard采用0-100分的评分标准,对新闻实践可信、透明的文章进行评分。得分在60分以上的在线文章被标记为“绿色”可靠来源,得分低于60分的在线文章被标记为“红色”不可靠来源。gydF4y2Ba ,gydF4y2Ba ].除了NewsGuard评分,ReCOVery还使用了Media Bias/Fact Check,根据文章的主观性来检查新闻来源的正确性,并根据事实报道将文章从“非常高”到“非常低”进行排名[gydF4y2Ba ,gydF4y2Ba ].可靠的文章在NewsGuard的评分高于90分,在媒体偏见/事实检查中评分为“非常高”或“高”。不可靠的文章在NewsGuard的评分低于30分,在媒体偏见/事实检查中,事实评级为“混合”、“低”或“非常低”[gydF4y2Ba ].ReCOVery数据集结合了NewsGuard和媒体偏见/事实检查得分,创建了最终的新闻文章可靠性得分。gydF4y2Ba预处理gydF4y2Ba
在数据分析之前,文章文本和推文数据经过多个预处理步骤。预处理的目的是清理数据,使深度学习模型能够更有效地检测数据中的模式。预处理文章文本的步骤包括删除重复的文章或推文;常见的停顿词,如“the”和“a”;以及所有链接和非英语字符。除将首字母缩略词转换为全称外,还完成了该条文本的词元化。gydF4y2Ba
预处理是使用Python库进行的,例如Pandas和Natural Language Toolkit [gydF4y2Ba
,gydF4y2Ba ].模型训练使用可靠文章1346篇,不可靠文章648篇。此外,有34篇文章因字数不足100字而被删除,这限制了信度分析的有效性。预处理后,从新闻文章中提取文本特征、可读性和情感等特征进行分析,并将其作为深度学习模型的输入。gydF4y2Ba情绪分析gydF4y2Ba
对可靠文章和不可靠文章的正文进行情感分析。这是通过价感字典和情感推理器(VADER)和TextBlob实现的,这是用于确定主要情感、极性和主观性的开源工具[gydF4y2Ba
,gydF4y2Ba ].分析依赖于词典分析,将每篇文章的文本特征映射到情感、极性和强度方面的不同分数。在情感方面,文章在0到1之间有一个连续的分数,包括两个端点,1表示文章包含指定的情感作为主要情感。例如,如果一篇文章的积极情绪为1,这意味着这篇文章包含了最高可能的积极情绪。VADER和TextBlob被导入到Python中,并应用于数据集中的文章正文。通过VADER和TextBlob中的库函数确定积极、消极和中性情绪的文章的总比例。gydF4y2Ba文本分析gydF4y2Ba
预处理后,对文章正文进行分析。确定了可靠文章和不可靠文章中最常见的单词。它们以频率柱状图显示,以说明不可靠和可靠产品之间的主要区别(gydF4y2Ba
而且gydF4y2Ba 分别)。深度学习模型中包含的另一个功能是报纸文章的文本长度和可读性。文章的长度是用文章句子的字符长度和文章的整体长度来评估的。可读性的评估使用了来自by - readable -metrics库的6种不同的可读性指标:Flesch-Kincaid等级水平、Gunning fog指数、Coleman-Liau指数、Dale-Chall指数、自动可读性指数(ARI)和Linsear Write指数[gydF4y2Ba ].上述可读性指标是根据句子长度和单词长度来确定理解书面文件所需的等级[gydF4y2Ba ].gydF4y2BaFlesch-Kincaid阅读难度指数是根据Flesch-Kincaid阅读难度指数修改的,该指数比较了每句话的单词比例和每个单词的音节比例[gydF4y2Ba
].该量表的值线性地表明了文本的估计美国等级水平。例如,10-12分表示目标读者处于高中水平,而高于12分则是研究生水平的文章[gydF4y2Ba ].类似地,Coleman-Liau指数和ARI都评估字符和词频,以接近美国阅读文本所需的年级水平[gydF4y2Ba ].Gunning fog指数用于评估文本中难词的出现频率,在0到20之间呈线性变化:16-20分为研究生水平。gydF4y2Ba ].类似地,Dale-Chall指数评估了难词的出现频率,但进行了缩放,因此9-10分代表大学研究生水平的文本。gydF4y2Ba ,gydF4y2Ba -gydF4y2Ba ].最后,Linsear Write指数用于评估技术文本的可读性,其得分代表理解文本所需的正规美国教育年限,与之前的指数类似[gydF4y2Ba ].gydF4y2Ba主题分析使用Empath,一种基于神经网络的词典[gydF4y2Ba
].神使能够确定某句话是否具有政治、宗教、满足等词汇类别,以及大约200种以上的类别。gydF4y2Ba ].通过使用Empath处理文本,我们导出了194个词汇类别,这些类别被用作附加特征,在最终的深度学习模型中与之前的文本、情感和可读性特征相连接。从Empath提取的词汇类别增加了深度学习模型为每篇文章训练的信息量,并允许更好的可解释性,因为主题频率的差异也可以评估。对于每个词汇类别,导出了可靠和不可靠文章的平均计数,以及gydF4y2BatgydF4y2Ba测试和gydF4y2BaPgydF4y2Ba值(gydF4y2Ba ).gydF4y2Ba词汇范畴gydF4y2Ba | tgydF4y2Ba(gydF4y2BadfgydF4y2Ba)gydF4y2Ba | PgydF4y2Ba价值gydF4y2Ba | 可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba |
魔法gydF4y2Ba | -7.91 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.19 (0.60)gydF4y2Ba | 0.51 (1.22)gydF4y2Ba |
权力gydF4y2Ba | -7.16 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.28 (2.20)gydF4y2Ba | 2.16 (3.24)gydF4y2Ba |
业务gydF4y2Ba | 7.15 (1992)gydF4y2Ba | <措施gydF4y2Ba | 8.58 (10.54)gydF4y2Ba | 5.31 (7.10)gydF4y2Ba |
工作gydF4y2Ba | 6.89 (1992)gydF4y2Ba | <措施gydF4y2Ba | 5.78 (8.82)gydF4y2Ba | 3.28 (3.89)gydF4y2Ba |
满足gydF4y2Ba | 6.18 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.70 (1.61)gydF4y2Ba | 0.29 (0.72)gydF4y2Ba |
办公室gydF4y2Ba | 6.14 (1992)gydF4y2Ba | <措施gydF4y2Ba | 3.02 (4.37)gydF4y2Ba | 1.88 (2.60)gydF4y2Ba |
争端gydF4y2Ba | -6.11 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.58 (2.48)gydF4y2Ba | 2.35 (2.94)gydF4y2Ba |
早....gydF4y2Ba | 5.87 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.06 (1.87)gydF4y2Ba | 0.59 (1.11)gydF4y2Ba |
传说gydF4y2Ba | -5.85 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.34 (0.92)gydF4y2Ba | 0.64 (1.31)gydF4y2Ba |
蓝领工作gydF4y2Ba | 5.83 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.62 (1.75)gydF4y2Ba | 0.21 (0.68)gydF4y2Ba |
标记gydF4y2Ba
由于ML模型只接受数值输入,因此文本数据必须被标记化。这个过程涉及到一个单词索引字典,其中数据集中的每个单词都被转换为一个数值或索引,该数值或索引对应于字典中的单词。例如,像“冠状病毒”这样的单词可以作为值1234呈现给ML模型。由于每个唯一的单词创建一个唯一的索引号,数据集中的“词汇量”或唯一单词的总数可能是一个问题,特别是在数据集很大的情况下,因为在数据集中出现一到两次的单词通常对模型的有效性没有贡献。我们将训练数据中38663个独特单词的词汇量限制在20000个(51.73%)。这排除了在数据集中只使用过一次的单词,因为这些单词对模型没有用处——齐夫定律重申,词汇量越大,回报越小,因为我们经常使用的词汇量只占总词汇量的一小部分[gydF4y2Ba
,gydF4y2Ba ].此外,对于一个以英语为母语的人的平均词汇量,有各种各样的估计,其中20,000左右是词汇量的合理估计。gydF4y2Ba ,gydF4y2Ba ].文章也进行了0填充,大小为3500字,这是最长的文章大小,以保证模型输入的一致性。gydF4y2Ba字嵌入gydF4y2Ba
在标记化之后,使用单词嵌入(一种无监督ML)对数据进行处理。单词嵌入将单个单词的数据点放置到高维的嵌入空间中。在这个嵌入空间中,每个单词都表示为一个向量,其中彼此相似的单词位于靠近的位置。因此,词嵌入允许相似词之间的隐藏关系被量化,用于ML分析。虽然可以在我们的数据集上训练并拟合一个新的单词嵌入层,但存在更有效使用的预训练单词嵌入模型。对于文章文本数据,我们利用了单词表示的全局向量(GloVE),这是一种常用的单词嵌入模型,在数十万个维基百科文章上进行了训练,这些文章的嵌入空间为100维[gydF4y2Ba
].gydF4y2Ba机器学习分类gydF4y2Ba
数据被随机分为深度学习的训练、测试和验证子集。这些子集的比例分别为8:1:1。1994年的文章中,1595篇(79.99%)属于训练子集,199篇(9.98%)属于验证子集,200篇(10.03%)属于测试子集。使用训练数据和验证数据构建模型,对可靠文章和不可靠文章进行分类,而测试数据用于评估模型的性能。对数据进行拆分,然后进行模型训练和评价,重复10次,使每篇文章都能被纳入训练集。在每一次折叠训练中获得的性能指标之间取平均值。我们评估了多个ML模型在数据集(NB, KNNs, LR, LSTM, GRU, BiLSTM, BiGRU和CNN)上的性能,以确定可靠性检测的最佳模型。这些设置或超参数是通过实验或使用Gridsearch进行优化的,Gridsearch为前面提到的每个ML模型测试超参数的所有组合。gydF4y2Ba
最后,我们开发了一个集成模型,使用经过轻度训练的BiGRU生成初始可靠性预测,然后将其与文本特征、可读性、情感和移情分类词汇类别相结合。然后,这被用于训练XGBoost模型,并进行10次交叉验证。gydF4y2Ba
本文使用了几个依赖于混淆矩阵结果的评估指标。这些指标来自模型的正确预测,如真阳性(TP)和真阴性(TN),以及不正确的预测,如假阳性(FP)和假阴性(FN)。准确性是正确预测的总比例,但当存在类别不平衡时,这个评估指标就不那么有效了。敏感性是指正确预测不可靠文章的比例,特异性是指正确预测可靠文章的比例。AUC评分显示了模型在不同TP和FP速率下的性能[gydF4y2Ba
].gydF4y2Ba灵敏度(召回率)= TP/(TP + FN)gydF4y2Ba
特异性= TN/(TN + FP)gydF4y2Ba
精度= (TP + TN)/(TP + TN + FP + FN)gydF4y2Ba
道德的考虑gydF4y2Ba
本文中使用的数据不需要伦理批准,因为它们是通过开放访问恢复数据集GitHub访问的,引用Zhou等人[gydF4y2Ba
].gydF4y2Ba结果gydF4y2Ba
数据探索gydF4y2Ba
执行数据探索,并将可读性、情感和词汇类别等特征与完整的新闻文章文本数据相结合,以训练集成模型。利用1346篇可靠文章和648篇不可靠文章创建了一种使用BiGRU和XGBoost的集成方法。gydF4y2Ba
在数据挖掘过程中,我们发现不可靠文章的平均字长和句子长度比可靠文章的平均文本长度要长(gydF4y2Ba
).Flesch-Kincaid等级水平、Dale-Chall指数、ARI、Coleman-Liau指数、Gunning fog指数和Linsear Write指数表明,可靠的文章比不可靠的文章更容易阅读(gydF4y2Ba ).从194个共情词类的平均频次来看,110个(56.7%)在可靠文章和不可靠文章之间存在显著差异(gydF4y2Ba ).不可靠和可靠文章中出现频率最高的单词也被可视化(gydF4y2Ba 而且gydF4y2Ba 分别)。不可靠的文章有较高的负面情绪比率,而可靠的文章有较高的中性情绪比率(gydF4y2Ba ).确定了各种训练过的ML模型以及新的集成模型的性能指标(gydF4y2Ba ).gydF4y2Ba指标gydF4y2Ba | 可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba | tgydF4y2Ba(gydF4y2BadfgydF4y2Ba)gydF4y2Ba | PgydF4y2Ba价值gydF4y2Ba |
平均字长(字符)gydF4y2Ba | 6.14 (0.27)gydF4y2Ba | 6.32 (1.66)gydF4y2Ba | -3.93 (1992)gydF4y2Ba | <措施gydF4y2Ba |
平均句子长度(单词)gydF4y2Ba | 23.67 (5.17)gydF4y2Ba | 26.38 (7.06)gydF4y2Ba | -9.70 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Flesch-Kincaid等级gydF4y2Ba | 12.68 (2.63)gydF4y2Ba | 14.39 (3.37)gydF4y2Ba | -12.38 (1992)gydF4y2Ba | <措施gydF4y2Ba |
喷雾指数gydF4y2Ba | 14.87 (2.72)gydF4y2Ba | 16.42 (3.33)gydF4y2Ba | -11.00 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Coleman-Liau指数gydF4y2Ba | 10.85 (1.87)gydF4y2Ba | 11.82 (2.46)gydF4y2Ba | -9.72 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Dale-Chall指数gydF4y2Ba | 10.21 (0.96)gydF4y2Ba | 10.70 (1.02)gydF4y2Ba | -10.53 (1992)gydF4y2Ba | <措施gydF4y2Ba |
阿里gydF4y2Ba | 13.41 (3.30)gydF4y2Ba | 15.43 (4.47)gydF4y2Ba | -11.41 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Linsear写索引gydF4y2Ba | 16.42 (4.02)gydF4y2Ba | 18.73 (5.31)gydF4y2Ba | -10.80 (1992)gydF4y2Ba | <措施gydF4y2Ba |
一个gydF4y2Ba自动可读性索引。gydF4y2Ba
情绪gydF4y2Ba | 可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba | tgydF4y2Ba(gydF4y2BadfgydF4y2Ba)gydF4y2Ba | PgydF4y2Ba价值gydF4y2Ba |
负gydF4y2Ba | 0.066 (0.042)gydF4y2Ba | 0.076 (0.039)gydF4y2Ba | -5.46 (1992)gydF4y2Ba | <措施gydF4y2Ba |
中性gydF4y2Ba | 0.850 (0.054)gydF4y2Ba | 0.840 (0.050)gydF4y2Ba | 4.37 (1992)gydF4y2Ba | <措施gydF4y2Ba |
积极的gydF4y2Ba | 0.084 (0.035)gydF4y2Ba | 0.085 (0.035)gydF4y2Ba | -0.095 (1992)gydF4y2Ba | .92gydF4y2Ba |
文本分析gydF4y2Ba
在剔除停顿词后,研究了可靠文章和不可靠文章中出现频率最高的单词。不可靠和可靠文章的最高词频以频率柱状图(gydF4y2Ba
而且gydF4y2Ba ).可靠新闻和不可靠新闻的常用词汇是“冠状病毒”、“病毒”、“大流行”等与covid -19相关的关键词。这些差异与政治含义有关,比如“特朗普”和“政府”。此外,Empath词汇工具应用于文本以产生词汇类别。每个词汇类别的平均计数被确定为可靠和不可靠的文本。然后比较平均值的差异gydF4y2BatgydF4y2Ba测试。在可靠文本和不可靠文本之间,共有194个词汇类别在频率上存在显著差异(gydF4y2Ba 而且gydF4y2Ba ).在gydF4y2Ba ,我们列出了排名前10的词汇类别gydF4y2BaPgydF4y2Ba价值。类别包括“魔法”、“权力”、“商业”、“工作”、“满足感”、“办公室”、“纠纷”、“早晨”、“传奇”和“蓝领工作”。在“商业”、“工作”、“满足感”、“办公室”、“早晨”和“蓝领工作”这几个词汇类别中,可靠文章的平均得分高于不可靠文章。在“魔法”、“权力”、“传说”和“争议”这几个词汇类别中,可靠文章的平均数量低于不可靠文章。在文本特征方面,可靠新闻文章与不可靠新闻文章的平均句子长度存在显著差异,可靠新闻文章的句子较短,为23.67 (SD 5.17)个/句,而不可靠新闻文章的句子较短,为26.38 (SD 7.06)个/句(gydF4y2Ba ).此外,可靠文章和不可靠文章的平均字长分别为6.14 (SD 0.27)和6.32 (SD 1.66)。除了文本长度,我们还分析了可靠文章和不可靠文章在可读性上的差异。使用的可读性指标有Flesch-Kincaid等级、Dale-Chall指数、ARI、Coleman-Liau指数、Gunning fog指数和Linsear Write指数。如gydF4y2Ba ,不可靠文章的可读性较差,6个可读性指标均显示不可靠文章的可读性较差。由于这些文本特征对于区分可靠和不可靠的新闻文章非常重要,因此它们被输入到我们最终的深度学习模型中。gydF4y2Ba情绪分析gydF4y2Ba
使用VADER,文章中的句子被分为积极的、中性的和消极的情绪。情绪评分范围从0到1,1表示强烈表达感兴趣的情绪。对于可靠的文章,消极、中立和积极情绪得分的平均值分别为0.066 (SD 0.042)、0.850 (SD 0.054)和0.084 (SD 0.035) (gydF4y2Ba
).对于不可靠的文章,负面、中性和正面情绪得分的平均值分别为0.076 (SD 0.039)、0.840 (SD 0.050)和0.084 (SD 0.035)。gydF4y2Ba机器学习分析gydF4y2Ba
报纸文章数据经过GloVE word embedding传递后,对文本数据进行10倍分割进行交叉验证。传统的ML模型包括LR、knn和NB。AUC值(gydF4y2Ba
),除灵敏度和召回值(gydF4y2Ba ).gydF4y2Ba接下来,对深度学习模型进行拟合。每个模型都包含训练前的GloVE词嵌入。深度学习模型的超参数优化使用ML Python scikit-learn库中的GridSearchCV完成。优化的超参数有批量大小、周期、退出率、神经元数量、优化器类型、学习率和激活函数类型。每个模型都有产生最佳结果的不同超参数。gydF4y2Ba
评估的深度学习模型有LSTM、GRU、BiLSTM、BiGRU和CNN。与传统ML模型类似,AUC、特异性和召回率被确定为性能指标(gydF4y2Ba
).gydF4y2Ba最后,利用BiGRU和XGBoost开发集成模型。我们的新模型首先在恢复测试子集上进行评估。生成了新模型的混淆矩阵,如图所示gydF4y2Ba
.我们的新深度学习模型的AUC、特异性和敏感性分别为0.906、0.835和0.945 (gydF4y2Ba ).gydF4y2Ba模型gydF4y2Ba | 特异性gydF4y2Ba | 灵敏度gydF4y2Ba | AUCgydF4y2BajgydF4y2Ba |
LRgydF4y2Ba | 0.720gydF4y2Ba | 0.575gydF4y2Ba | 0.563gydF4y2Ba |
然而,gydF4y2Ba | 0.660gydF4y2Ba | 0.739gydF4y2Ba | 0.530gydF4y2Ba |
注gydF4y2Ba | 0.700gydF4y2Ba | 0.627gydF4y2Ba | 0.553gydF4y2Ba |
BiLSTMgydF4y2Ba | 0.810gydF4y2Ba | 0.925gydF4y2Ba | 0.892gydF4y2Ba |
美国有线电视新闻网gydF4y2Ba | 0.792gydF4y2Ba | 0.851gydF4y2Ba | 0.789gydF4y2Ba |
LSTMgydF4y2Ba | 0.829gydF4y2Ba | 0.903gydF4y2Ba | 0.883gydF4y2Ba |
BiGRUgydF4y2Ba | 0.791gydF4y2Ba | 0.963gydF4y2Ba | 0.868gydF4y2Ba |
格勒乌gydF4y2Ba | 0.804gydF4y2Ba | 0.918gydF4y2Ba | 0.878gydF4y2Ba |
新模型gydF4y2Ba | 0.835gydF4y2Ba | 0.945gydF4y2Ba | 0.906gydF4y2Ba |
一个gydF4y2BaML:机器学习。gydF4y2Ba
bgydF4y2BaKNN: k近邻。gydF4y2Ba
cgydF4y2Ba逻辑回归。gydF4y2Ba
dgydF4y2Ba注意:朴素贝叶斯。gydF4y2Ba
egydF4y2BaBiLSTM:双向长短期存储器。gydF4y2Ba
fgydF4y2BaCNN:卷积神经网络。gydF4y2Ba
ggydF4y2BaLSTM:长短期记忆。gydF4y2Ba
hgydF4y2BaBiGRU:双向门控循环单元。gydF4y2Ba
我gydF4y2BaGRU:门控循环单元。gydF4y2Ba
jgydF4y2BaAUC:曲线下面积。gydF4y2Ba
讨论gydF4y2Ba
主要研究结果gydF4y2Ba
本研究采用BiGRU和XGBoost集成模型,使用ReCOVery数据集进行文本可靠性分类,其特异性、敏感性和AUC分别为0.835、0.945和0.906 [gydF4y2Ba
].通过我们的数据分析,我们证明了不可靠的新闻文章可读性较低,句子长度较高。与可靠的文章相比,它们还包含更多的负面情绪和较少的中性情绪,并包含更多两极分化的词汇类别。gydF4y2Ba数据使用gydF4y2Ba
使用新闻文章建立分类模型,一个重要的考虑是模型的可泛化性。为了确保模型是可泛化的,用于训练模型的数据在本质上必须是多样化的。许多深度学习错误信息检测研究的一个缺点是专注于从狭窄的新闻来源或地点检测错误信息[gydF4y2Ba
,gydF4y2Ba ].由于用于训练这些模型的数据集具有同质性,许多错误信息检测模型的可泛化性可能较差[gydF4y2Ba ].CoAID就是一个例子,这是一个数据集,由2019年12月1日至2020年9月1日与covid -19相关的新闻文章和社交媒体帖子构建而成。CoAID数据集的一个缺点是数据集使用的新闻来源数量较少,因为在数据收集过程中包含了9个可靠的新闻来源[gydF4y2Ba ].CoVerifi是一项使用CoAID数据集创建基于网络的工具来检查在线新闻文章是否可信的研究[gydF4y2Ba ].另一个值得注意的数据集是COVID-19-FAKES数据集,其中包含61711条有错误信息的推文和2,985,399条没有错误信息的推文[gydF4y2Ba ,gydF4y2Ba ].Silva等[gydF4y2Ba ]使用COVID-19-FAKES数据集,深入了解推文中存在错误信息的预测特征,以及有错误信息和没有错误信息的推文参与度的差异[gydF4y2Ba ].因此,对于新闻文章的多样性,我们使用了ReCOVery数据集,因为它们的范围从来自不同国家的约2000个不同的新闻媒体[gydF4y2Ba ].gydF4y2Ba情绪分析gydF4y2Ba
由于VADER具有较高的准确性,因此被用于基于词汇的水平上评估情绪gydF4y2BaFgydF4y2Ba1分类精度0.96,计算经济性[gydF4y2Ba
].尽管VADER已经成为NLP中用于情感分析的主要工具,但需要考虑的2个主要缺点是它无法识别讽刺/讽刺,以及在处理3类分析(消极、中性和积极)时准确性降低[gydF4y2Ba ].gydF4y2Ba从可靠新闻文章与不可靠新闻文章的分布来看,可靠新闻文章的负面情绪含量较不可靠新闻文章低,因为它们的负面情绪极性得分较低(gydF4y2Ba
).这与文献中对新闻内容的观察相一致,如Arif等[gydF4y2Ba )讨论了人们在互联网上搜索负面词汇会导致更有偏见的文章。为了强调情绪在区分假新闻和真实新闻中的重要性,Paschen [gydF4y2Ba 得出的结论是,与真实新闻文章相比,假新闻文章的标题和正文包含更多的负面内容,如愤怒和厌恶。假新闻更有可能表现出负面情绪,以推动特定的叙事来获利,这支持了我们的发现,即消极的不可靠来源比中性或积极的不可靠来源更多。gydF4y2Ba我们观察到中性可靠文章和中性不可靠文章的数量存在差异,与不可靠文章相比,可靠文章中有更多的中性情绪(gydF4y2Ba
).对可靠数据来源的中性情绪评分意味着在讨论主题时的公正性和客观性[gydF4y2Ba ].gydF4y2Ba由于上述原因,可靠和不可靠文本之间的情感效价不同,许多ML研究将情感作为一种特征来预测在线各种书面信息中的错误信息[gydF4y2Ba
].由于可靠性不同的文本之间的情感本质不同,情感分析被用于过滤社交媒体上的负面信息,垃圾邮件过滤等应用[gydF4y2Ba ].与我们的发现一致,Ajao等[gydF4y2Ba 研究发现,与可靠的推文相比,不可靠的推文通常包含更多的负面情绪,因为不可靠的推文的作者会利用负面情绪更好地传播他们的信息。他们还表明,情感的使用可以提高支持向量机(SVM)的准确性,当情感被考虑到文本特征之外[gydF4y2Ba ].因此,情绪是我们模型选择的一个特征。gydF4y2Ba文本分析gydF4y2Ba
据观察,这两组人的词汇本身非常相似,因为可靠来源和不可靠来源的主题都是相同的:COVID-19。此外,许多最频繁出现的词只是过渡词,可能在大多数英语文学作品中都能找到。gydF4y2Ba
有趣的是,在可靠资料中出现频率最高的词是“说”(gydF4y2Ba
).这可能是因为“said”被用来引用政治人物和科学领域的领导人的话。在这种情况下,文章的可靠性是文章引用可靠的信息来源的结果。另一个明显的趋势是,在不可靠的文章中发现的带有政治色彩的词汇越来越多。“国家”、“政府”和“特朗普”等词是指不可靠的消息来源,而不是指可靠的文章(gydF4y2Ba ).这传达了一种不可靠来源的政治评论模式[gydF4y2Ba ].我们可以预见,在COVID-19背景下讨论政治内容的文章可能对宣传议程感兴趣,因此不可靠。例如,Chen等[gydF4y2Ba 发现COVID-19虚假信息传播与2020年美国总统选举在口罩使用和邮寄选票方面存在相互作用。具体而言,卫生信息已被政治化,以推动政治议程和攻击政治对手。除了经常出现的单词之外,从Empath和类似模型中提取的词汇类别还允许我们评估可靠和不可靠新闻文章之间的主题频率差异[gydF4y2Ba ].与仅使用原始文本数据相比,使用从Empath和类似模型中提取的词汇类别可以提高模型性能[gydF4y2Ba -gydF4y2Ba ].gydF4y2Ba我们决定在最终的深度学习模型中探索并包含的另一个特性是新闻文章的可读性和长度。可读性已被证明是错误信息的预测。在Santos等人的研究中[gydF4y2Ba
],仅使用文章可读性分数和支持向量机算法就可以区分来自假新闻频繁来源的文章,准确率为92% [gydF4y2Ba ].同样,在Zhou等人的一项研究中[gydF4y2Ba ,基于他们对可靠和不可靠新闻文章进行分类的能力,研究了各种指标。使用随机森林确定,就对模型的贡献而言,可读性与情绪[gydF4y2Ba ].gydF4y2Ba机器学习分类gydF4y2Ba
在最初的ReCOVery研究中,Zhou等人[gydF4y2Ba
]创建了新闻文章可靠性的基线预测性能,发现可靠和不可靠新闻文章的精度分别为0.721-0.836和0.421-0.667。可靠新闻和不可靠新闻的召回率分别为0.705-0.829和0.441-0.667 [gydF4y2Ba ].基线模型中使用的特征包括文本词汇类别、修辞结构和新闻文章中的视觉信息。周等[gydF4y2Ba ]还在传统的ML模型(如svm)或深度学习算法(如具有单峰和多峰特征的cnn)上测试了该模型。其他研究也探索了使用恢复数据集进行虚假信息分类。其中一项研究是由Raj和Meel [gydF4y2Ba ,在那里,一种新颖的深度学习模型,联合循环和卷积神经网络(ARCNN),使用新闻文章中的图像和文本特征来检测错误信息。使用6个COVID-19假新闻数据集测试ARCNN的性能,其中ReCOVery为1个数据集,实现了准确性、精密度、召回率和召回率gydF4y2BaFgydF4y2Ba1分分别为80.98%、53.85%、58.33%、56.00% [gydF4y2Ba ].另一项使用ReCOVery数据集进行模型开发的研究探索了使用多种语言进行假新闻检测以提高模型性能[gydF4y2Ba ].最后,Wahle等人[gydF4y2Ba ]使用恢复数据集作为6个COVID-19错误信息数据集之一,评估15个基于变压器的ML模型的性能,以确定不同变压器模型的泛化性。与上述研究不同的是,我们能够证明可读性、文本特征、情绪和词汇类别的使用可以在原始恢复数据集基线模型的基础上得到改善[gydF4y2Ba ].因此,我们证明了上述文本特征对提高新闻文章可靠性预测的重要性。此外,我们还表明,在NLP环境下,多个输入的组合和所选模型的考虑可以提高ML模型的精度。gydF4y2Ba在我们最终提出的模型中,带有XGBoost和特征工程的BiGRU是性能最好的模型。BiGRU擅长捕捉长序列中的时间数据,因为双向模型可以更好地捕捉文本的上下文[gydF4y2Ba
].在这些模型在ReCOVery数据上的实验过程中,我们发现所有的深度学习模型都优于传统的ML模型,因为深度学习模型能够更好地处理更复杂的数据[gydF4y2Ba ,gydF4y2Ba ].此外,除了LSTM算法之外,我们还选择了GRU算法,这是循环神经网络的一种变体,因为与LSTM相比,它在较长文本上的性能有所提高[gydF4y2Ba ].为了进一步提高我们的模型的性能,我们建立了一个集成模型,因为结合多个预测可以产生更准确的预测[gydF4y2Ba ].gydF4y2Ba的优势gydF4y2Ba
我们调查的一个优势在于,它不仅有创建可靠性预测的深度学习模型的主要目标,而且还确定了可靠和不可靠新闻文章的文本和情绪的重要趋势。仅关注深度学习模型的调查存在一个“黑箱”问题,其中深度学习模型使用的机制是不可见的,并且包含在其许多复杂的隐藏层中[gydF4y2Ba
].因此,数据探索方法与深度学习模型相结合,能够更好地可视化和描绘文章可靠性分类。此外,我们的论文研究了新闻文章,与推特和社交媒体相比,新闻文章的文本更规范,因为每篇文章都是用专业的方法撰写的。因此,在预处理期间由于语法或拼写错误而删除的数据较少。使用新闻文章作为数据还避免了Twitter错误信息数据集在Twitter删除推文时所遭受的低水合性问题。gydF4y2Ba局限性和未来发展方向gydF4y2Ba
有许多方法可以进一步完善我们的项目。首先,扩大可用数据总数将是有价值的,因为可靠来源的数据几乎是不可靠来源的数据的两倍。此外,能够从网上搜罗Facebook帖子和Reddit帖子将允许我们扩大我们的访问范围,并评估其他高流量的信息来源。结合聚类模型还将增加我们搜索的特异性,并创建一个更准确的模型,在确定可靠性时可以考虑正在讨论COVID-19的哪个方面。正如结果所示,由于我们的模型具有很高的准确性,我们的模型可以作为一个web应用程序商业化,允许用户高度自信地评估他们正在阅读的文章的可靠性。此外,它还可以用来确定一篇文章的情感评分,以确定他们是否想要从事该特定的文献。gydF4y2Ba
尽管该模型专门识别与covid -19相关的信息,但它也可以用于其他类型的错误信息。如前所述,目前打击网上虚假信息的大多数方法都是通过使用人工调节的事实核查网站。例如推特的观鸟项目,独立用户可以标记他们认为不值得信任的帖子。gydF4y2Ba
].使用的其他方法还包括脸书的事实核查服务,该服务会手动将包含错误信息的帖子或网站标记为不值得信任的,并将其从公众视野中删除。gydF4y2Ba ].此外,在包含COVID-19信息的帖子下方会放置警告,提醒读者注意帖子中包含的潜在错误信息[gydF4y2Ba ].尽管有许多事实核查的实例,但出现的主要问题是人工事实核查的效率低下[gydF4y2Ba ].因此,新的事实核查方法旨在实现事实核查过程的自动化。事实核查网站的第一个例子是Bot Sentinel自动Twitter事实核查软件,用户可以安装该软件来监控垃圾邮件账户[gydF4y2Ba ].Bot Sentinel使用ML技术将帖子或个人资料分类为可靠或不可靠,准确率达95% [gydF4y2Ba ].gydF4y2Ba结论gydF4y2Ba
总之,我们证明了可读性、情绪、文本特征和词汇类别对于区分可靠和不可靠的新闻文章很重要,因为不可靠的文章可读性较差,有更多的负面情绪,有更多的政治词汇类别。使用我们的新集成深度学习模型,使用上述特征在原始恢复数据集中实现高于基线的性能,特异性、灵敏度和AUC分别为0.835、0.945和0.906。因此,使用我们的新模型应用可读性、情感和词汇类别可以帮助确定新闻文章的可靠性,并更好地改进不使用这些功能的现有模型。gydF4y2Ba
COVID-19揭示了为新闻文章开发自动化可靠性评估器的重要性,因为人工调节的事实核查方法可能效率低下。由于可读性、情感和词汇类别可以用于改进现有的可靠性分类模型,因此我们表明自动化可靠性检测可能是未来确定新文章可靠性的另一种方法,这将帮助新闻读者识别包含潜在不可靠信息的文章。gydF4y2Ba
致谢gydF4y2Ba
我们要感谢科学、技术、工程和数学(STEM)奖学金团队组织2021年全国大学生大数据挑战赛,以及JMIR赞助本出版物。gydF4y2Ba
利益冲突gydF4y2Ba
没有宣布。gydF4y2Ba
gydF4y2Ba对可靠和不可靠新闻文章的移情类别的平均(SDs)得分。gydF4y2Ba
XLSX文件(Microsoft Excel文件),31kbgydF4y2Ba参考文献gydF4y2Ba
- 如何对抗信息大流行:信息大流行管理的四大支柱。J Med Internet Res 2020 Jun 29;22(6):e21820 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 世界卫生组织。Infodemic》2022。URL:gydF4y2Bahttps://www.who.int/health-topics/infodemicgydF4y2Ba[2022-06-15]访问gydF4y2Ba
- obiava J, obiava K, mazynczak M, Owoc J, Olszewski R. COVID-19错误信息:社交媒体上主要分享的关于冠状病毒预防文章的准确性。卫生政策技术2021年3月10日;10(1):182-186 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Figueira Á, Oliveira L.假新闻的现状:挑战与机遇。计算机科学进展,2017;21(2):817-825。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 周秀雯W, Gaysynsky A,无伴奏合唱JN。我们从这里开始:社交媒体上的健康错误信息。Am J Public Health 2020 10月;110(S3):S273-S275。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 林泽,林锐。“假新闻”的定义。数字学报2018;6(2):137-153。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 雷泽DMJ, Baum MA, Benkler Y, Berinsky AJ, Greenhill KM, Menczer F,等。假新闻的科学。科学2018年3月9日;359(6380):1094-1096。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Tandoc EC。假新闻的事实:研究综述。社会指南针2019年7月25日;13(9):e12724。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- de Oliveira NR, Pisa PS, Lopez MA, de Medeiros DSV, Mattos DMF。基于自然语言处理的社交网络假新闻识别:趋势与挑战信息2021年1月18日;12(1):38。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Torabi Asr F, Taboada M.假新闻和错误信息检测的大数据和质量数据。大数据Soc 2019年5月23日;6(1):205395171984331。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 克莱顿K,布莱尔S, Busam JA, Forstner S, Glance J, Green G,等。假新闻的真正解决方案?衡量一般警告和事实检查标签在降低社交媒体上虚假故事可信度方面的有效性。行为政治2019年2月11日;42(4):1073-1095。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Krause NM, Freiling I, Beets B, Brossard D.事实核查作为风险沟通:COVID-19时期错误信息的多层风险。J Risk Res 2020 april 22;23(7-8):1052-1059。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Reis JCS, Correia A, Murai F, Veloso A, Benevenuto F.监督学习在假新闻检测中的应用。IEEE Intell系统2019 3月34日(2):76-81。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Elhadad M, Li K, Gebali F.一种集成深度学习技术用于检测COVID-19误导信息。见:基于网络的信息系统的进展。纽约曼哈顿:施普林格International;2020年8月20日发表于:基于网络的信息系统国际会议;2020;加拿大维多利亚,第163-175页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Singhania S, Fernandez N, Rao S. 3HAN:用于假新闻检测的深度神经网络。2017年发表于:第24届神经信息处理国际会议(ICONIP 2017);2017;广州,中国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Khan JY, Khondaker MTI, Afroz S, Uddin G, Iqbal A.在线假新闻检测的机器学习模型基准研究。Mach Learn应用程序2021年6月;4:100032。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 周x, Mulay A, Ferrara E, Zafarani R.恢复:COVID-19新闻可信度研究的多模式资源库。2020年发表于:CIKM '20:第29届ACM信息与知识管理国际会议;2020年10月19日至23日;虚拟事件爱尔兰p. 3205-3212。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 贾娜娜,胡敏,马立春。集成深度学习研究进展。arXiv预印本于2021年4月6日在线发布[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Kumar S, Asthana R, Upadhyay S, Upreti N, Akbar M.使用深度学习模型的假新闻检测:一种新方法。Trans Emerging Tel Tech 2019 11月05日;31(2):e3767。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 郑志刚,张志刚,张志刚。门控递归神经网络在序列建模中的应用。arXiv预印本发布于2014年12月11日。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 杨松,余旭,周勇。LSTM与GRU神经网络性能比较研究:以yelp评论数据集为例。2020发表于:2020年电子通信与人工智能国际研讨会(IWECAI);2020年6月12日至14日;上海,中国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 张志刚,张志刚。长短期记忆。神经计算1997 11月15日;9(8):1735-1780。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Chen T, Guestrin C. XGBoost:一个可扩展的树增强系统。2016年发表于:KDD '16:第22届ACM SIGKDD知识发现和数据挖掘国际会议;2016年8月13-17日;加利福尼亚州旧金山[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Shwartz-Ziv R, Armon A.表格数据:深度学习不是你所需要的全部。Inf Fusion 2022年5月;81:84-90。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- NewsGuard技术。评级过程和标准,2022。URL:gydF4y2Bahttps://www.newsguardtech.com/ratings/rating-pro cess-criteria /gydF4y2Ba[2022-06-14]访问gydF4y2Ba
- Zandt D.关于媒体偏见/事实核查。URL:gydF4y2Bahttps://mediabiasfactcheck.com/about/gydF4y2Ba[2022-06-14]访问gydF4y2Ba
- Loper E, Bird S. NLTK:自然语言工具包。arXiv预印本于2002年5月17日在线发布[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- McKinney W. Python中统计计算的数据结构。2010发表于:第九届Python科学会议(SciPy 2010);2010年6月28日至7月3日;德克萨斯州奥斯汀,第56-61页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Hutto C, Gilbert E. VADER:一个节俭的基于规则的社交媒体文本情感分析模型。2014年发表于:第八届国际AAAI博客与社交媒体会议;2014年6月1日至4日;密歇根州安阿伯市gydF4y2Bahttps://ojs.aaai.org/index.php/ICWSM/article/view/14550gydF4y2Ba
- Loria S. TextBlob:简化文本处理。URL:gydF4y2Bahttps://textblob.readthedocs.io/en/dev/gydF4y2Ba[2022-09-13]访问gydF4y2Ba
- DiMAscio C. py-可读性-度量。URL:gydF4y2Bahttps://github.com/cdimascio/py-readability-metricsgydF4y2Ba[2022-03-01]访问gydF4y2Ba
- 史丽玲,李文杰。科学文献可读性的统计模型。2001年发表于:CIKM01:第十届信息与知识管理国际会议;2001年10月5日至10日;亚特兰大,佐治亚州,第574-576页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 用Fry可读性图和Flesch-Kincaid年级水平对休闲阅读水平的比较。1999。URL:gydF4y2Bahttps://eric.ed.gov/?id=ED428333gydF4y2Ba[2022-06-16]访问gydF4y2Ba
- 朱勇。多文本可读性索引可视化研究。2010年参加:教育与管理技术国际会议(ICEMT 2010);2010年11月2-4日;开罗,埃及。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Gunning R. 20年后的雾指数。J Bus community 2016 9月16日;6(2):3-13。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 伯克V,格林伯格D.确定可读性:如何选择和应用易于使用的可读性公式来评估成人识字材料的难度。成人基础教育文学杂志2010;4(1):34-42。gydF4y2Ba
- Dale E, Chall J.预测可读性的公式。教育科学通报1948;27(1):11-28。gydF4y2Ba
- 新Dale-Chall可读性公式:一个基于词汇的可读性公式。2003。URL:gydF4y2Bahttps://www.readabilityformulas.com/new-dale-chall-readability-formula.phpgydF4y2Ba[2022-06-17]访问gydF4y2Ba
- 《如何使用Linsear编写可读性公式来分级你的文本》2003。URL:gydF4y2Bahttps://readabilityformulas.com/linsear-write-readability-formula.phpgydF4y2Ba[2022-06-17]访问gydF4y2Ba
- 陈斌,李志强,李志强。大尺度文本中主题信号的理解。2016年发表于:ACM CHI 2016: 2016 CHI计算系统中的人为因素会议;2016年5月7-12日;圣何塞,加州4647-4657页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 高磊,周刚,罗建,黄艳。Zipf上下文的词嵌入。IEEE Access 2019;7:168934-168943。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 西格德B, Eeg-Olofsson M, van Weijer J.单词长度、句子长度与频率——齐夫的再认识。语言学研究2004年4月,58(1):37-52。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Brysbaert M, Stevens M, Mandera P, Keuleers e,我们认识多少单词?词汇量的实际估计取决于单词的定义、语言输入的程度和参与者的年龄。Front Psychol 2016;7:1116 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 戈尔登R Nation P Read j接受性词汇量能有多大?应用语言学,1990;11(4):341-363。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 彭宁顿J, Socher R, Manning C. Glove:单词表示的全局向量。2014发表于:2014自然语言处理经验方法会议(EMNLP);2014年10月25-29日;卡塔尔多哈,1532-1543页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 王志伟,王志伟。基于深度双向LSTM网络学习的阿拉伯语文本情感分析。中国机械工程学报,2011;30(1):395-412。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 陈志伟,陈志伟。基于模糊神经网络的假新闻检测方法研究。arXiv预印本于2022年5月15日在线发布。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Cui L, Lee D. CoAID: COVID-19医疗错误信息数据库。arXiv预印本于2020年5月22日在线发布[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
- Kolluri NL, Murthy D. CoVerifi: COVID-19新闻验证系统。在线Soc Netw Media 2021年3月22日100123 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Elhadad M, Li K, Gebali F. COVID-19- fakes:用于检测COVID-19误导性信息的Twitter(阿拉伯语/英语)数据集。见:智能网络与协作系统的进展。纽约曼哈顿:施普林格International;2021年出席:智能网络与协作系统国际会议;2020;维多利亚页256-268。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Silva M, Ceschin F, Shrestha P, Brant C, Fernandes J, Silva CS,等。在疫情暴发的头几个月预测COVID-19推特话语中的错误信息和参与度。计算机械协会2020年11月;37(4):1-24 [gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
- 梅纳德·D,格林伍德·m,谁在乎讽刺的推特?调查讽刺对情感分析的影响。2014年出席:第九届国际语言资源与评估会议(LREC'14);2014年5月;冰岛,雷克雅未克gydF4y2Bahttp://www.lrec-conf.org/proceedings/lrec2014/index.htmlgydF4y2Ba
- 阿瑞夫,al - jefri M, Bizzi I, Perano G, Goldman M, Haq I,等。假新闻还是弱科学?谷歌返回的不同语言和国家的抗疫苗网页的可见性和特性。前沿免疫2018年6月5日;9:1215 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 利用人工智能和人类贡献来调查假新闻的情感诉求。J Prod Brand Manag 2019五月06;29(2):223-233。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 李文杰,李文杰,李文杰,李文杰。基于语言分析的假新闻模式识别方法。2018年发表于:第七届信息学、电子视觉国际会议(ICIEV)和第二届成像、视觉模式识别国际会议(IcIVPR);2018年6月25日至29日;日本北九州市。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Alonso MA, Vilares D, Gómez-Rodríguez C, Vilares J.假新闻检测的情感分析。电子2021年6月05日;10(11):1348。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Ajao O, Bhowmik D, Zargari S.在在线社交网络上检测虚假新闻的情绪意识。2019发表于:ICASSP 2019: 2019 IEEE声学、语音和信号处理国际会议;2019年5月12- 17日;英国布莱顿,页2507-2511。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Lee T.“假新闻”在全球的崛起以及对美国民主选举的威胁。公共行政政策2019 july 01;22(1):15-24。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 陈娥,Chang H, Rao A, Lerman K, Cowan G, Ferrara E.新冠肺炎错误信息与2020年美国总统大选。HKS错误信息审查,2021年3月3日。URL:gydF4y2Bahttps://misinforeview.hks.harvard.edu/article/covid-19-misin形成- - - - - 2020 u / -总统选举gydF4y2Ba[2022-09-13]访问gydF4y2Ba
- Agarwal I, Rana D, Panwala K, Shah R, Kathiriya V.假新闻检测的上下文特征粒度分析。研究广场预印本于2022年5月27日在线发布。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- sekuliic I, gjurkoviic M, Šnajder J.不只是抑郁:双相情感障碍预测reddit。aclanthology预印本于2018年10月在线发布。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Deb K, De H, Chatterjee S, Pal A.使用机器学习研究边缘性人格障碍。2022年发表于:第16届泛在信息管理与通信国际会议(IMCOM);2022年1月3日至5日;韩国首尔。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Jubair F, Salim N, Al-Karadsheh O, Hassona Y, Saifan R, Abdel-Majeed M.对COVID-19爆发早期推特聊天的情绪分析。2021出席:第四届信息技术与智能系统研究国际研讨会(ISRITI);2021年12月12日至17日;日惹,印尼。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Santos R, Pedro G, Leal S.测量可读性特征在假新闻检测中的影响。2020年出席:第十二届语言资源与评估大会;2020年5月11日至16日;法国马赛,p. 1404-1413gydF4y2Bahttps://aclanthology.org/2020.lrec-1.176gydF4y2Ba
- 周欣,贾恩·A,弗哈·VV, Zafarani .假新闻早期检测:一个理论驱动的模型。数字威胁条例2020年6月30日;1(2):1-25。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 杨晓明,王晓明。基于ARCNN的多模态信息检测方法。Neural Netw 2022 Feb;146:36-68。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Dementieva D, Panchenko A.跨语言证据提高单语假新闻检测。2021年发表于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议:学生研究研讨会;2021年8月;在线第310-320页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Wahle J, Ashok N, Raus T, Meuschke N, Ghosal T, Gipp B.神经语言模型在新冠肺炎错误信息检测中的泛化测试。见:信息建设更美好世界:塑造全球未来。iConference 2022。计算机科学课堂讲稿,13192卷。可汗:施普林格;2022年出席:信息打造更美好世界:塑造全球未来。iConference 2022;2022;虚拟p. 381-392。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 刘志强,刘志强,刘志强,等。支持向量机分类算法在文本分类中的应用。2006年发表于:人工智能的理论与实践,第19届世界计算机大会,TC 12: IFIP AI 2006流;2006年8月21日至24日;智利圣地亚哥,第169-178页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 欧Sagi O, Rokach L.集成学习:综述。电线数据挖掘Knowl发现2018年2月27日;8(4):e1249。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Samek W, Wiegand T, Müller K.可解释的人工智能:理解、可视化和解释深度学习模型。arXiv预印本于2017年8月28日在线发布[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
- 罗斯Y,皮克尔斯N.更新我们处理误导性信息的方法。URL:gydF4y2Bahttps://blog.twitter.com/en_us/topics/product/2020/updating-our-approach-to-misleading-informationgydF4y2Ba[2021-07-03]访问gydF4y2Ba
- Meta业务帮助中心。关于Facebook上的事实核查。URL:gydF4y2Bahttps://www.facebook.com/business/help/2593586 717571940gydF4y2Ba[2022-09-13]访问gydF4y2Ba
- Nakov P, Corney D, Hasanain M.自动事实核查协助人类事实核查。arXiv预印本于2021年3月13日在线发布[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 机器人前哨。不仅仅是机器人。URL:gydF4y2Bahttps://botsentinel.com/info/aboutgydF4y2Ba[2022-09-13]访问gydF4y2Ba
gydF4y2Ba
缩写gydF4y2Ba
ARCNN:gydF4y2Ba联合循环和卷积神经网络gydF4y2Ba |
阿里:gydF4y2Ba自动可读性索引gydF4y2Ba |
AUC:gydF4y2Ba曲线下面积gydF4y2Ba |
BiGRU:gydF4y2Ba双向门控循环单元gydF4y2Ba |
BiLSTM:gydF4y2Ba双向长短期记忆gydF4y2Ba |
有线电视新闻网:gydF4y2Ba卷积神经网络gydF4y2Ba |
FN:gydF4y2Ba假阴性gydF4y2Ba |
外交政策:gydF4y2Ba假阳性gydF4y2Ba |
手套:gydF4y2Ba字表示的全局向量gydF4y2Ba |
格勒乌:gydF4y2Ba门控循环装置gydF4y2Ba |
资讯:gydF4y2Ba再gydF4y2Ba |
LR:gydF4y2Ba逻辑回归gydF4y2Ba |
LSTM:gydF4y2Ba长短期记忆gydF4y2Ba |
ML:gydF4y2Ba机器学习gydF4y2Ba |
注:gydF4y2Ba朴素贝叶斯gydF4y2Ba |
NLP:gydF4y2Ba自然语言处理gydF4y2Ba |
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba |
TN:gydF4y2Ba真正的负gydF4y2Ba |
TP:gydF4y2Ba真阳性gydF4y2Ba |
维德:gydF4y2Ba价感字典和情感推理器gydF4y2Ba |
XGBoost:gydF4y2Ba极端梯度增强gydF4y2Ba |
编辑:T麦基;提交19.04.22;同行评议作者:W Ceron, SF Tsao;对作者09.06.22的评论;订正后收到25.08.22;接受10.09.22;发表22.09.22gydF4y2Ba
版权gydF4y2Ba©Kevin Zhan,李宇彤,Rafay Osmani,王晓宇,曹博。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 22.09.2022。gydF4y2Ba
这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba