发表在23卷第九名(2021): 9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/30451,首次出版
从Twitter上识别虚假的人乳头瘤病毒(HPV)疫苗信息和相应的风险感知:先进的预测模型

从Twitter上识别虚假的人乳头瘤病毒(HPV)疫苗信息和相应的风险感知:先进的预测模型

从Twitter上识别虚假的人乳头瘤病毒(HPV)疫苗信息和相应的风险感知:先进的预测模型

原始论文

1伊利诺伊大学香槟分校信息科学学院,美国伊利诺斯州香槟市

2伊利诺伊大学厄巴纳-香槟分校计算机科学系,美国伊利诺伊州厄巴纳

3.美国弗吉尼亚州布莱克斯堡,弗吉尼亚理工学院和州立大学计算机科学系

4美国伊利诺伊州芝加哥市伊利诺伊大学芝加哥分校医学院

5伊利诺伊大学芝加哥分校计算机科学系,美国伊利诺伊州芝加哥

6美国伊利诺伊州芝加哥市伊利诺伊大学芝加哥分校医学教育系

7伊利诺斯大学厄巴纳-香槟分校癌症中心,美国伊利诺斯州厄巴纳

通讯作者:

陈洁丝博士

信息科学学院

伊利诺伊大学香槟分校

501 E丹尼尔街

香槟,伊利诺伊州,61820

美国

电话:1 217 333 0125

电子邮件:chin5@illinois.edu


背景:人类乳头瘤病毒(HPV)疫苗的接种率仍然很低,尽管HPV疫苗的有效性已经确立了十多年。疫苗犹豫的部分原因是社交媒体上关于HPV疫苗的虚假信息。打击虚假的HPV疫苗信息是解决疫苗犹豫的合理步骤。

摘要目的:鉴于虚假HPV疫苗信息的巨大危害,迫切需要在虚假社交媒体信息传播之前识别出来。这项研究的目标是开发一种系统和可推广的方法来识别社交媒体上的虚假HPV疫苗信息。

方法:本研究利用机器学习和自然语言处理开发了一系列分类模型和因果关系挖掘方法,以识别和检查Twitter上与HPV疫苗相关的真假信息。

结果:我们发现卷积神经网络模型在识别包含虚假HPV疫苗相关信息的推文方面优于所有其他模型(F分数= 91.95)。我们还开发了完全无监督的因果关系挖掘模型,以确定HPV疫苗的候选效果,以捕捉HPV疫苗的风险感知。此外,我们发现虚假信息包含的损失框架信息主要关注疫苗的潜在风险,涉及多种主题,使用更多样化的词汇;而真实信息包含的收益和损失框架信息,关注疫苗的有效性,涉及较少的主题,使用相对有限的词汇。

结论:我们的研究证明了使用预测模型识别社交媒体上虚假HPV疫苗信息及其风险认知的可行性和有效性。

中国医学杂志,2017;23(9):e30451

doi: 10.2196/30451

关键字



每年约有13,000名妇女新诊断为侵袭性子宫颈癌,而超过4,000名妇女死于该疾病[1].子宫颈癌是由某些类型的人乳头瘤病毒(HPV)引起的[23.].HPV是美国最常见的性传播感染,在14至44岁的人群中,每年估计有620万新感染[4-6].除宫颈癌外,HPV还是多种头颈癌、生殖器癌和肛门癌的致病媒介[7-9].在美国,hpv相关癌症的总体负担一直在增加[9].预防人乳头瘤病毒比大多数性传播感染更具挑战性,因为避孕套并不能完全预防感染[10].因此,通过接种疫苗进行预防对于减少这种无处不在的感染所造成的癌症负担至关重要。

普遍建议所有青少年接种人乳头瘤病毒疫苗[10].尽管在预防由目标HPV类型引起的癌前病变方面具有非凡的功效(高达90%的保护)[11-13],在美国,只有56.8%的13至17岁女性和51.8%的13至17岁男性完成了HPV疫苗系列[14].HPV疫苗接种有许多已知的障碍,包括对HPV疫苗副作用和不良事件的误解,对疫苗必要性的误解,从卫生保健人员那里得到的建议不一致,完成疫苗接种的费用,诊所的机会有限,以及对文化信仰的侵犯[15-21].在这些障碍中,风险认知的偏差不仅与疫苗接种意愿低有关[22-25]也与实际的疫苗接种行为有关[162226-30.].全国免疫调查显示,父母对HPV疫苗的三大担忧是缺乏知识、疫苗的感知有用性低(HPV感染的感知风险低)、以及对副作用和安全问题的感知风险高[31],强调了在HPV疫苗接种决策中风险认识的重要性。

社交媒体已成为人们交流疫苗相关观点、形成对疫苗态度的重要信息来源[32-38].它的影响是惊人的,特别是对Twitter疫苗信息,因为Twitter上与HPV疫苗相关的意见与实际疫苗接受度和覆盖率有关[39].现有的研究调查了关于HPV疫苗的新主题和公众对支持和反对疫苗的在线讨论的态度[192440-44].虽然已经确定了围绕HPV疫苗的多个虚假阴谋和神话,但没有研究使用自动计算方法来提取HPV疫苗错误信息传播中使用的主要疫苗接种论点的因果线索。研究表明,无论是内容质量、科学稳健性,还是信息的真实性,都无法证明信息的传播,而虚假或未经证实的信息有时比真实信息更具病毒性[4546].随着人们对社交媒体上虚假信息传播的关注激增[4547-50],一种自动、系统和可推广的方法来检测社会认可的虚假健康信息仍有待研究。虚假信息的威胁是至关重要的,因为对虚假信息的依赖(即感知准确性)会随着每次接触虚假信息而放大,并通过社交网络进一步放大[51-53].由于人们缺乏健康知识,缺乏可信度判断能力,尽管引用了来源,但健康新闻的质量参差不齐,因此用户生成的虚假健康信息的泛滥尤其会使人们受害。[54-56].因此,在虚假健康信息传播之前检测虚假健康信息是最大限度减少虚假信息威胁的重要一步[57].

有几部作品针对健康方面的不实信息[5859大多数研究使用描述性方法来研究已知的健康错误信息,并进行分析以揭示常见的错误观念、人口和地理模式以及社交媒体用户行为[256061].一些研究已经实现了计算模型,以识别来自其他社交媒体平台(如YouTube和Instagram)的健康错误信息;然而,他们中没有人试图从短且有时不完整的文本信息中识别健康错误信息,例如推文[6263].与其他相关工作相比,我们将用于识别虚假HPV疫苗信息的分类模型与无监督的因果关系挖掘结合起来,以根据Twitter消息中表达的内容提取被认为是HPV抗疫苗健康担忧的归因原因的风险感知。为此,我们进行了一项信息流行病学研究,使用自然语言处理和机器学习方法,如分类、聚类、依赖分析和短语挖掘,来识别那些经常出现在社交媒体上的虚假HPV疫苗接种论点。我们的方法分析可以应用于其他领域,如COVID-19疫苗接种、食品安全和政治,以提取关于在线分享的真实和误导性声明之间的异同的有见解的信息。


我们收集了2013年12月至2017年12月发布的与HPV疫苗相关的推文语料库。我们使用了以前已知的Crimson Hexagon(现为Brandwatch)的社交媒体分析应用程序编程界面和HPV相关搜索词列表,包括但不限于“HPV疫苗”、“乳头瘤病毒疫苗”、“宫颈癌疫苗”、“HPV疫苗”、“宫颈癌疫苗”和“加德西”。我们的建模管道由几个步骤组成:采样、注释和数据预处理、训练和分析(参见图1).数据预处理阶段包括基于规则的词汇归一化和无监督的词嵌入预训练。

图1。因果关系挖掘数据收集和建模管道。
查看此图

首先,我们每年随机抽取1000条推文,并在两轮中将它们传递给2名注释者。两名批注员都接受过关于HPV疫苗的基本培训(包括广泛阅读国家癌症研究所、疾病控制和预防中心以及美国癌症协会提供的经过验证的HPV疫苗相关材料),其中1名批注员接受过正规的医学教育培训。与错误信息检测的相关工作类似[64-66],我们将任务构建为二元分类,其中每条推文都被分类为真信息或假信息(其中假信息包括部分假信息或部分真信息)。因此,我们不仅要求注释者判断每条推文的内容的真实性,还允许他们选择一个额外的选项作为“不适用”,对于不属于这两类中的任何一类的推文(例如,固执己见的文本和其他非事实或无关的帖子)。标记为不适用的tweet将从注释管道中过滤掉。通过讨论,两个注释者的评分有任何差异。对于评分者之间的可靠性,科恩的kappa系数(κ)为0.75,被认为是对任务的良好一致[67].结果数据集由5000条有标记的推文和702,858条无标记的推文组成。推文的字符长度,包括所有提及、转发和标签,从21到826个字符不等。

为了减少词汇规范化步骤的词汇量,将单词格式化为小写,并删除url;数字和twitter特定的项目,如用户提及(用户名前缀为“@”)或转发,被标记并映射到每个类别的公共特殊令牌(即,分别为NUMBER, MENTION, RT)。一些缩略词被替换为它们的规范形式:例如,“Can't”被替换为“Cannot”,“You'll”被替换为“You will”,“&”被替换为“and”,等等。此外,连字符和正斜杠被替换为空格,字母数字配对被处理,2个或2个以上的用户提到的实例被减少到2个“MENTION”标记,标签引号和其他类型的标点符号被删除,多个前导或尾随空格被替换为一个空格。这个过程减少了每条推文的长度,可以在18到295个字符之间。

基于训练集的最终词汇量为4098个词汇(其中1个词汇表示空白)。根据频率优势比(即每个类别中出现的比例)加权的术语分析显示,某些术语在真实类别中代表过多,但在虚假类别中很少出现,例如,强烈表明HPV疫苗预防癌症有效性的词汇在网上传播,如“预防”、“保护”和“有效”。另一方面,虚假信息包含“危险”、“不利”和“致命”等术语,并更多地关注用于接种疫苗的负面因果影响。


分类模型

词嵌入将离散的词标记映射到实值向量表示,其中语义相似的词具有相似的向量,因此在嵌入空间中更接近。一般来说,这种词嵌入的预训练已经被发现对一些自然语言处理任务是有益的,允许更快的模型收敛和任务性能改进。因此,我们训练了一个无监督嵌入模型FastText [68],用我们完整的Twitter集合作为训练数据,并进行上述预处理。与其他单词表示模型相比,FastText可以为词汇表外的单词生成单词向量,并已被证明是短文本相似性的强大基线,其开源实现允许更快的训练[69].更具体地说,FastText为词汇表中的每个术语生成300维向量表示,用作模型嵌入层的初始化。我们还实验了维基百科预训练的嵌入和没有任何预训练的嵌入:我们的实验表明,当使用hpv相关的预训练单词嵌入初始化时,模型在准确性方面表现得更好。

最后,我们将标注的数据分为60%的训练,20%的验证和20%的测试,在所有模型中保持相同的分割,以进行公平的比较。在每个集合中精确匹配的推文重复数据删除后,总共剩下3661条推文(2142条用于训练,758条用于验证,761条用于测试集)。我们尝试了几种模型架构,包括卷积神经网络(CNN) [70],双向长短期记忆(BiLSTM),传统模型,包括支持向量机和朴素贝叶斯。我们用交叉熵训练,用10的自适应矩估计4学习率,衰减0.01,神经模型的批处理大小为32。超参数调优使用Tune库[71].在表1,我们报告了前5个执行模型变化的平均值和SD。我们的实验评估表明,cnn的表现比其他模型更好(见图2而且3.对于各自的混淆矩阵和接收机工作特征曲线下的区域神经网络之间的比较)。在这两个神经网络中表现最好的前5个模型中,CNN比BiLSTM需要更少的训练时间。CNN的平均每epoch训练时间为11.5 ms(标准差1.09,最小值16,最大值16,中位数12),而BiLSTM的平均每epoch训练时间为51.3 ms(标准差34.07,最小值14,最大值88,中位数81)。我们表现最好的CNN模型有256个卷积滤波器,包括-3个宽度的核(3,4和5),并校正线性单元非线性;最大池化层,128个单元的全连接层,具有整流线性单元激活和0.1 dropout,以及产生分类预测的最终软最大输出层。

表1。人乳头瘤病毒疫苗虚假信息识别:分类模型比较。
模型 精度 精度 回忆 F分数
支持向量机一个,意思是 57.424 57.806 56.721 55.532
朴素贝叶斯 51.774 52.485 52.301 51.090
美国有线电视新闻网b,平均值(SD) 91.958 (0.269) 91.953 (0.272) 91.946 (0.271) 91.946 (0.270)c
BiLSTMd,平均值(SD) 91.643 (0.432) 91.710 (0.396) 91.574 (0.453) 91.618 (0.438)

一个支持向量机:支持向量机。

bCNN:卷积神经网络。

c斜体表示最高F得分在表格中。

cBiLSTM:双向长短期存储器。

图2。混淆矩阵的最佳表现CNN模型。BiLSTM:双向长短期存储器;CNN:卷积神经网络。
查看此图
图3。ROC为最佳性能的卷积神经网络和双向长短期记忆模型。AUC:曲线下面积;ROC:受试者工作特征。
查看此图

因果关系挖掘

为了识别归因于HPV疫苗的风险认知,我们首先将分类器应用于一组291,037条推文,从中我们能够将124,031条标记为虚假推文,将167,006条标记为真实推文。使用由Kayesh等人推导出的因果术语字典[72]对于Twitter因果关系检测,我们筛选了包含至少1个这些术语的推文,如果分类置信度至少为0.998,则将推文分类为虚假信息,因为这保持了我们的分类器的高保真度。因此,总共有9352条tweet被用于因果关系挖掘过程(表2).然后,我们使用一个依赖解析器来标记和合并多词表达式[73].由于推文可以有多个话语(即独立的句子或片段),我们保留了与因果线索一起出现的名词短语,而不管它们是否与因果线索有依赖关系,这与Kayesh等人的研究相反[72].候选因果短语是一组与推文相关的术语,其中包含因果线索,并包含候选效应短语。

表2。应用多个筛选器后的消息数。
模型 真正的 总计
无过滤器,n 124031年 167006年 291037年
+置信阈值,n (%) 72172 (58.19) 105166 (62.97) 177338 (60.93)
+包含因果提示,n (%) 3667 (2.96) 5685 (3.40) 9352 (3.21)

然后,我们可以计算因果集的逐点互信息(PMI)C= {c1、……c}和效果集E= {e1、……e其中,候选因果短语c效果短语ej,是包含术语的集合wcVc而且weVe,分别。在这里,Vc术语、名词短语和多词表达式的集合是否来自推文中的候选因果短语(不包括最低频率为1的术语,并删除停止词)和Ve是由候选效果短语派生出来的词汇。

计算术语的PMIweej而且wcc我们有,

我们可以应用拉普拉斯平滑来确保概率分布是非零[74],可以计算归一化逐点互信息(NPMI) [75]如下:

NPMI的取值范围为-1到1,其中-1表示两项从未同时出现,0表示它们相互独立,1表示完全同时出现。

崩溃候选人效果短语和排名效果

由于我们的模型是完全无监督的,并且包括转发,推文消息可能会变得非常冗余,但我们的方法可以检测到许多几乎重复的候选效果短语。为了折叠这些短语,我们使用从候选效果短语的嵌入表示中获得的语义相似性对这些术语进行聚类。特别地,我们使用HuggingFace包[76]从变压器模型中获得双向编码器表示的后4层的和[77].为了计算词嵌入,我们在候选效果短语中对这些词嵌入取平均值,以产生嵌入向量。

基于密度的带噪声应用的空间聚类[78,然后对候选效果短语进行聚类。其中有两个重要参数:(1)可达性,即同一聚类中要考虑的2个“点”之间的最大距离;以及(2)被视为集群的“点”的最小数量。这里的点是指效果集的嵌入实值向量表示。我们将可达性设置为0.1,将最小点数设置为1,因为我们希望只检索语义上最相似的单词,同时保持有意义的集群。注意,除了DBSCAN,还有其他的替代方案,例如对点进行排序以识别集群结构(OPTICS) [79]和基于层次密度的带噪声应用程序空间聚类(HDBSCAN) [80]用于光谱聚类;然而,我们只需要减少查询时比较的效果数量,这意味着DBSCAN就足够了。然后,我们选择聚类核心作为每个聚类的代表来折叠效果。

为了识别与不同因果词相关的感知,我们将其制定为一个检索问题。给定一个与因果关系相关的查询,我们使用NPMI对相关影响进行了排名。为了计算评分函数,我们使用以下方法:

这个评分函数计算查询和候选效果短语中所有术语对的平均NPMI。然后,我们可以计算一个类别的累计NPMI得分C一个效果短语如下:

因果关系挖掘结果

为了验证候选因果挖掘方法,我们采用了与HPV疫苗风险感知(即感知效果)有关的词汇。HPV疫苗风险词典(HPVVR)是一个面向消费者的词典,用于捕捉外行如何描述他们对HPV疫苗的风险认知(包括他们对HPV疫苗的感知危害和益处)[81].HPVVR的研制分为两个阶段。第一阶段涉及采用来自国土安全部风险词汇、MedlinePlus消费者健康主题词汇和消费者健康词汇(统一医学语言系统)的风险表达和hpv疫苗相关面向消费者的词汇[8283].第二阶段是由2名训练有素的注释人员根据用户生成的内容(来自2013年至2018年随机采样的用户生成内容,包括Twitter和Facebook)提取关于风险感知描述的外行语言(评分者间可靠性:Cohen’s kappa系数(κ)=0.80)。HPVVR涵盖了29类风险感知相关词汇的200多个术语或短语。

这个黄金标准的效果列表,G,然后与效果集进行匹配E.特别地,我们定义了部分匹配,如果ground truth效应短语中的某些项与某些候选效应短语(即,G∩e≠Ø).例如,我们从数据中挖掘出了“预防喉癌”,这与HPVVR中的“预防宫颈癌”部分匹配。还有另外两种部分匹配。如果候选效应短语是ground truth效应短语的一个更具体的例子,我们将匹配定义为合适的,g∈g.例如,我们从数据中挖掘了“早发性绝经”,这与HPVVR中的“绝经”是一个适当的匹配。如果候选效应短语是基本事实效应短语的更一般形式,我们就认为存在反向匹配,E⊆g.例如,我们从数据中挖掘出“疲劳”,这与HPVVR中的“极度疲劳”相反。在136个ground-truth效应短语中,我们发现55个(40.4%)匹配,78个(57.4%)部分匹配,48个(35.3%)反向匹配,103个(75.7%)部分或正确匹配或两者都匹配。同时,也有一些候选效果短语是新发现的效果。

由于因果关系挖掘方法是一种完全自下而上、无监督的方法,我们可以自动挖掘任何一组推文的候选效果。特别是,对于预测的虚假推文,最大的候选效应集群之一包含了与不同实体的反应有关的术语,如“日本”、“丹麦”和“大学”,关于HPV疫苗的潜在问题,如“召回”、“失去支持”和“禁止”。另一个这样的群集包含与不孕症有关的术语,如“卵巢早衰”和“年轻女孩更年期提前”。另一个大型候选效应聚类是关于严重不良事件和并发症的误解,如“猝死”、“瘫痪”和“中风”。请注意,有些候选效果短语可能与健康影响没有直接关系。因此,为了在进一步的分析中减轻这种限制,我们将影响限制在基本真理中的项(即,VeG


主要结果

本研究中使用的CNN和BiLSTM模型的性能表明,使用推文文本识别关于HPV疫苗的错误信息与事实信息的可行性。平均而言,这两个模型对任何一类的预测都有很高的可信度。尽管在测试过程中,这两个模型在准确性(和置信度)方面表现几乎相同,但CNN的训练比BiLSTM模型更方便,这导致它被选为首选模型。

为了检查与HPV疫苗相关的风险认知,我们利用了虚假信息分类器和效果排序器。图4显示了应用“HPV疫苗”和“加德西”效果排名查询后的累计NPMI分数。我们可以围绕HPV疫苗的成本和收益对这些看法进行分类。总的来说,人们讨论了真实的HPV疫苗推文的好处或低风险的伤害,以及虚假的HPV疫苗推文的各种不良事件。在真正的HPV疫苗推文中,与HPV疫苗相关的主要效果是预防HPV感染相关的癌症,并否认接种疫苗的青少年无保护的性行为增加的风险。在虚假的HPV疫苗推文中,与HPV疫苗相关的主要影响是与不孕症相关的疾病(如卵巢损伤)、儿童发育障碍、死亡和HPV疫苗中的有毒成分。在我们之前关于患者驱动的HPVVR的工作之后,因果关系挖掘的发现帮助我们确定了与HPV疫苗相关的主要问题,然后可以优先考虑解决方案。

结果表明,与真实信息中较少的主题和相对有限的术语相比,虚假HPV疫苗信息不仅在风险感知方面涵盖了广泛的主题,而且涉及了更多样化的词汇来描述这些主题。在关于反疫苗和prov疫苗文献的类似工作中,也注意到这种虚假或误导性信息中基于医学的术语频率和主题多样性的现象[84].对这种差异的一种可能的解释是,真实的信息需要有证据的共识,从而将术语和结果限制在用于描述这些主题的特定选择或短语中。虚假信息缺乏对术语或结果的限制,往往使用叙事语言或提及新奇的话题来衡量注意力[4685].

通过因果关系挖掘,我们还观察到了真实和虚假HPV疫苗信息的信息框架的差异图4).真实的信息包含收益框架和损失框架信息,特别是那些强调疫苗在预防HPV相关癌症方面的有效性,HPV感染与癌症之间的联系,以及否定疫苗的潜在危害,如无忧无虑或无保护的性行为(图4).相反,虚假信息主要是损失框架,关注据称由疫苗引起的负面结果,例如导致hpv相关癌症或其他严重不良事件(不孕、神经障碍或死亡;图4).使用表示风险的使役动词(例如,疫苗是“预防”,而疫苗是“伤害”或“导致”,等等)可能是区分真实和虚假信息的诊断性的。未来的研究应利用先前关于信息框架有效性的研究结果,以检验不同框架下的错误信息的影响[8687].

图4。查询“HPV疫苗”和“Gardasil”时的累计NMPI评分。条形宽度中的部分对应于每个类别的效应项的NPMI贡献。人乳头瘤病毒;NPMI:归一化点互信息。
查看此图

与之前工作的比较

与健康相关的错误信息研究涵盖了广泛的学科[5859],其中几项研究侧重于不同的医学领域,如癌症、性传播疾病和感染、流感,以及最近的COVID-19 [256061].在疫苗相关领域,几篇论文研究了疫苗行为,以及社交媒体上反疫苗和虚假信息推文传播的地理和人口模式,与自闭症谱系障碍有关[60]、流感疫苗[88],以及癌症治疗[89].一些研究努力解决了一些关键问题,比如用额外的弱社会监督信号缓解标签稀缺,用注意机制改善难以处理的问题,以及利用网络和群体或用户信息[6590-92].一般来说,疫苗犹豫识别与疫苗接种行为检测的区别在于,前者涉及一种态度或立场,而后者涉及检测接种疫苗的行为[93].我们的研究更类似于疫苗犹豫的研究,但不同之处在于,我们专注于通过检查风险感知从推特中提取因果关系;HPV疫苗相关的健康问题或预期收益的可归因原因;并使用自然语言处理、机器学习和无监督因果挖掘技术。

我们观察到,具有多个滤波器尺寸的卷积模型[7094]比BiLSTM模型对短文本域(如推文)的效果更好。直观地说,CNN体系结构捕获最常见的n-gram(长度为3、4和5),因此更善于发现短文本中的判别文本模式。虽然我们测试了更复杂的BiLSTM架构,但总的来说,CNN模型比其他模型变体表现得更好,并且训练速度更快。这些发现对于社交媒体健康相关的分析是有用的,特别是关于该领域的从业者应该探索社交媒体文本分类的一组模型。

关于因果关系挖掘,早期的工作使用手工编码的特定领域知识库[9596].确定因果关系的一个挑战是通过不同的语言结构观察因果关系的各种方式。先前的研究[97]表明分类器可以确定从预定义的语言模式<名词短语-动词-名词短语>的形式中自动提取的因果关系表达式是否为因果关系。然而,监督方法需要大量手工注释的原因和结果,因此需要大量资源。最近的工作比较了用于因果关系挖掘的无监督方法,包括共现方法(如按点互信息)和基于话语线索的方法(基于信息检索技术),以计算因果查询中的匹配数量[98].这样的比较是在大规模的文档集合上进行的,因此他们的见解不适用于我们的任务,相比之下,数据量有限。最后,推文中的事件因果关系检测将因果关系挖掘限制在某些感兴趣的事件上。“基于上下文词扩展和神经网络的推文事件因果关系检测”[72],作者提出了一种对候选因果短语和候选效应短语进行编码的方法,用于开发前馈网络分类器。我们的方法不局限于某些事件。最重要的是,我们关注与HPV疫苗有关的健康相关信息,这一方法可以推广到其他健康主题。

限制

在应用监督学习方法时,一个常见的瓶颈是需要大量高质量的标注数据进行训练。由于手头任务的复杂性质,以及需要大量的手工工作,我们的数据集大小可能在提供跨其他领域和数据源泛化的见解方面受到限制。此外,由于在非正式的用户生成的语言中发现了频繁的语言变化,用词紧密的实例可能避免了重复数据删除。在未来,我们希望通过结合弱监督方法和去噪机制来解决可用标记数据的短缺问题。尽管如此,我们选择继续使用监督学习以获得更高的精度,因为弱监督可能会导致标签噪声被注入到虚假信息检测模型中,从而影响后续的因果关系挖掘步骤。

另一个限制源于模型置信度和准确性的不一致。换句话说,模型置信度可能并不代表模型的正确性,这是机器学习研究社区中众所周知的问题[99].在我们的实验中,我们观察到BiLSTM模型对大多数假阴性产生了高置信度的估计(即,在预测事实文本时,它错位了更多的置信度),而CNN模型对高置信度的例子有相同数量的假阳性和假阴性。CNN的错误预测中约有20%的可信度较低。总的来说,BiLSTM模型似乎在一个方向上过于自信,可能会被更好地校准。需要对这些高置信度的不准确预测进行进一步分析,以发现可解释的模式,以识别与事实对应部分具有强烈相似性的错误信息子主题和语句。

最后,我们应该注意到,任何额外元数据的使用都需要谨慎,特别是对于用户添加的信息,例如用户配置文件特征,以及报告的时间戳和社交网络链接,因为最近的研究表明,错误信息传播者不仅倾向于通过组建群体来操纵社交网络结构,以增加影响力[[One hundred.],还有几种元数据[101].在这项研究中,我们没有使用这些类型的额外数据源,因此我们只能解释基于内容的结果,而不能沿着文本中发现的关系之外的任何其他维度解释。

结论

这项研究展示了一种系统的、自动的方法来开发计算模型,以识别虚假的HPV疫苗相关信息及其在社交媒体上的相关影响。这种方法可以推广到其他社交媒体健康信息,并为估计给定健康主题的潜在影响提供见解。

致谢

我们感谢Chieh-Li (Julian) Chin和Wen-Yuh Su在本研究数据收集和准备方面的协助。我们也感谢伊利诺伊大学香槟分校的技术服务和癌症中心对我们研究的支持。这项研究得到了美国国立卫生研究院(#1R21CA237483)的资助。本出版物中表达的任何意见、发现、结论或建议都是作者的观点,并不一定反映美国国立卫生研究院的观点。

利益冲突

没有宣布。

  1. 王晓燕,王晓燕,王晓燕。中国癌症杂志,2019。CA A Cancer临床2019年1月08日;69(1):7-34 [免费全文] [CrossRef
  2. 希夫曼MH,鲍尔HM,胡佛RN,玻璃AG,卡德尔DM,拉什BB,等。流行病学证据表明,人乳头瘤病毒感染引起大多数宫颈上皮内瘤变。中华肿瘤学杂志1993 6月16日;32(12):958-964。[CrossRef] [Medline
  3. Bosch FX, Manos MM, Muñoz N, Sherman M, Jansen AM, Peto J,等。人乳头瘤病毒在宫颈癌中的流行:全球视角。国际宫颈癌生物学研究(IBSCC)研究组。中华肿瘤学杂志,1999,6(4):366 - 366。[Medline
  4. Dunne EF, Unger ER, Sternberg M, McQuillan G, Swan DC, Patel SS,等。美国女性中HPV感染的流行率。美国医学杂志2007年2月28日;297(8):813-819。[CrossRef] [Medline
  5. Myers ER, McCrory DC, Nanda K, Bastian L, Matchar DB。人乳头瘤病毒感染和宫颈癌发生的自然史的数学模型。美国流行病学杂志2000年6月15日;151(12):1158-1171。[CrossRef] [Medline
  6. Weinstock H, Berman S, Cates W.美国青年中的性传播疾病:发病率和流行率估计,2000。性别与生殖健康展望2004;36(1):6-10。[CrossRef] [Medline
  7. 莫克J,李AK, Glattre, Hallmans G, Jellum E, Koskela P,等。人乳头瘤病毒感染是头颈部鳞状细胞癌的危险因素。中华外科杂志2001年4月12日;344(15):1125-1131。[CrossRef] [Medline
  8. Watson M, Saraiya M, Ahmed F, Cardinez CJ, Reichman ME, Weir HK,等。使用基于人群的癌症登记数据评估美国人乳头瘤病毒相关癌症的负担:方法概述巨蟹座2008年11月15日;113(10增刊):2841-2854 [免费全文] [CrossRef] [Medline
  9. Viens LJ, Henley SJ, Watson M, Markowitz LE, Thomas CC, Thompson TD,等。人乳头瘤病毒相关癌症-美国,2008-2012。MMWR Morb Mortal Wkly Rep 2016 july 08;65(26):661-666 [免费全文] [CrossRef] [Medline
  10. HPV疫苗时间表和剂量。疾病控制和预防中心URL:https://www.cdc.gov/hpv/hcp/schedules-recommendations.html[2021-06-17]访问
  11. Garland SM, Kjaer SK, Muñoz N, Block SL, Brown DR, DiNubile MJ,等。四价人乳头瘤病毒疫苗的影响和有效性:对10年真实世界经验的系统回顾临床感染疾病2016 Aug 15;63(4):519-527 [免费全文] [CrossRef] [Medline
  12. Villa LL, Costa RLR, Petta CA, Andrade RP, Ault KA, Giuliano AR,等。年轻女性预防性四价人乳头瘤病毒(6,11,16,18型)L1病毒样颗粒疫苗:一项随机双盲安慰剂对照多中心II期疗效试验Lancet Oncol 2005 5月;6(5):271-278。[CrossRef] [Medline
  13. 未来II研究小组。人乳头瘤病毒四价疫苗预防宫颈高级病变。英国医学杂志2007年5月10日;356(19):1915-1927。[CrossRef] [Medline
  14. Elam-Evans LD, Yankey D, Singleton JA, Sterrett N, Markowitz LE, Williams CL,等。国家、地区、州和选定的地方13-17岁青少年的疫苗接种覆盖率-美国,2019年。MMWR Morb Mortal Wkly Rep 2020年8月21日;69(33):1109-1116 [免费全文] [CrossRef] [Medline
  15. 疾病预防控制中心建议青少年只注射两次HPV疫苗。疾病控制与预防中心,2016。URL:http://www.cdc.gov/media/releases/2016/p1020-hpv-shots.html[2021-06-17]访问
  16. Muhwezi WW, Banura C, Turiho AK, Mirembe F.乌干达父母允许年轻男性接种人类乳头瘤病毒疫苗的知识、风险认知和意愿PLoS One 2014;9(9):e106686 [免费全文] [CrossRef] [Medline
  17. 布鲁尔NT,法泽卡斯KI。HPV疫苗可接受性的预测因素:一项基于理论的系统综述。中国医学杂志2007;45(2):107-114。[CrossRef] [Medline
  18. Newman PA, Logie CH, Doukas N, Asakura K. HPV疫苗在男性中的可接受性:系统回顾和荟萃分析。性传播感染2013 Nov;89(7):568-574 [免费全文] [CrossRef] [Medline
  19. Larson HJ, Wilson R, Hanley S, Parys A, Paterson P.追踪疫苗情绪的全球传播:全球对日本暂停HPV疫苗推荐的反应。中华免疫杂志2014;10(9):2543-2550 [免费全文] [CrossRef] [Medline
  20. Dempsey AF, Zimet GD, Davis RL, Koutsky L.与父母接受人乳头瘤病毒疫苗相关的因素:一项关于HPV书面信息的随机干预研究儿科2006年5月;117(5):1486-1493。[CrossRef] [Medline
  21. Jain N, Euler GL, Shefer A, Lu P, Yankey D, Markowitz L.美国妇女对人乳头瘤病毒(HPV)的认识和接种,国家免疫调查-成人2007。Prev Med 2009 5月;48(5):426-431。[CrossRef] [Medline
  22. Pask EB, Rawlins ST.男性意图参与行为,以保护人类乳头瘤病毒(HPV):测试风险感知态度框架。卫生通报2016;31(2):139-149。[CrossRef] [Medline
  23. 乔利D,道格拉斯KM。反疫苗阴谋论对疫苗接种意图的影响。PLoS One 2014;9(2):e89177 [免费全文] [CrossRef] [Medline
  24. Nan X, Madden K.博客圈中的HPV疫苗信息:正面和负面博客如何影响与疫苗相关的风险认知、态度和行为意图。卫生通讯2012年11月27日(8):829-836。[CrossRef] [Medline
  25. Zimet GD, Rosberger Z, Fisher WA, Perez S, Stupiansky NW。信念,行为和HPV疫苗:纠正神话和错误信息。Prev Med 2013 11月;57(5):414-418 [免费全文] [CrossRef] [Medline
  26. 布鲁尔NT,查普曼GB,吉本斯FX,杰拉德M,麦考尔KD,温斯坦ND。风险感知与健康行为之间关系的元分析:以接种疫苗为例。《健康心理》2007年3月26日(2):136-145。[CrossRef] [Medline
  27. 梅休A,马林斯TLK,丁L,罗森塔尔SL,齐梅特GD,莫罗C,等。青少年HPV疫苗接种后的风险认知和随后的性行为。儿科学2014年3月;133(3):404-411 [免费全文] [CrossRef] [Medline
  28. 风险知觉与自我保护行为。欧洲心理学家1996年1月1日(1):34-43。[CrossRef
  29. 温斯坦ND, Kwitel A,麦考尔KD,马格南RE,杰拉德M,吉本斯FX。风险认知:评估及其与流感疫苗接种的关系。健康心理学2007;26(2):146-151。[CrossRef
  30. Betsch C, Renkewitz F, Betsch T, Ulshöfer C.疫苗关键网站对感知疫苗接种风险的影响。中华健康与心理杂志2010年4月15日(3):446-455。[CrossRef] [Medline
  31. Reagan-Steiner S, Yankey D, Jeyarajah J, Elam-Evans LD, Singleton JA, Curtis CR,等。国家、地区、州和选定地方13-17岁青少年的疫苗接种覆盖率——美国,2014年。MMWR Morb Mortal Wkly Rep 2015年7月31日;64(29):784-792 [免费全文] [CrossRef] [Medline
  32. 斯坦RA。反疫苗阴谋的黄金时代。病菌2017年12月;7(4):168-170 [免费全文] [CrossRef] [Medline
  33. Covolo L, Ceretti E, Passeri C, Boletti M, Gelatti u在意大利的YouTube视频中关于疫苗接种的争论是什么?内容分析。Hum Vaccin Immunother 2017 july 03;13(7):1693-1699 [免费全文] [CrossRef] [Medline
  34. 张c, Gotsis M, Jordan-Marsh M.作为HPV疫苗接种论坛的社交媒体微博。Hum Vaccin Immunother 2013 Nov;9(11):2483-2489 [免费全文] [CrossRef] [Medline
  35. 姜桂杰,eing - nelson SR, Mackey L, Schlitt JT, Marathe A, Abbas KM,等。网络社交媒体中疫苗情绪的语义网络分析疫苗2017 Jun 22;35(29):3621-3638 [免费全文] [CrossRef] [Medline
  36. Orr D, Baram-Tsabari A, Landsman K.社交媒体作为健康相关公共辩论和讨论的平台:Facebook上的脊髓灰质炎疫苗。Isr J卫生政策决议2016;5:34 [免费全文] [CrossRef] [Medline
  37. Salathé M, Khandelwal S.用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。公共科学图书馆计算生物学2011年10月;7(10):e1002199 [免费全文] [CrossRef] [Medline
  38. Aquino F, Donzelli G, De Franco E, Privitera G, Lopalco PL, Carducci A.意大利MMR疫苗接种的网络和公众信心。疫苗2017年8月16日;35(35 Pt B):4494-4498。[CrossRef] [Medline
  39. Dunn AG, Leask J, Zhou X, Mandl KD, Coiera E.社交媒体上对人乳头瘤病毒疫苗负面意见的暴露与表达之间的关系:一项观察性研究。J Med Internet Res 2015 Jun 10;17(6):e144 [免费全文] [CrossRef] [Medline
  40. Keim-Malpass J, Mitchell EM, Sun E, Kennedy C.使用twitter了解公众对#HPV疫苗的看法:公共卫生护士参与社会营销的机会。公共卫生护士2017年3月06日;34(4):316-323。[CrossRef
  41. Surian D, Nguyen DQ, Kennedy G, Johnson M, Coiera E, Dunn AG。使用主题建模和社区检测来描述关于HPV疫苗的twitter讨论。中国医学杂志,2016;18(8):e232 [免费全文] [CrossRef] [Medline
  42. Massey PM, Leader A, yum - tov E, Budenz A, Fisher K, Klassen AC.应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播。J Med Internet Res 2016 Dec 05;18(12):e318 [免费全文] [CrossRef] [Medline
  43. Bahk CY, Cumming M, Paushter L, Madoff LC, Thomson A, Brownstein JS。公开可用的在线工具有助于实时监测疫苗对话和情绪。卫生Aff (Millwood) 2016年2月;35(2):341-347。[CrossRef] [Medline
  44. 杜俊,徐俊,宋宏,陶晨。基于机器学习的人乳头瘤病毒疫苗接种情绪趋势分析。BMC Med Inform Decis Mak 2017 july 05;17(Suppl 2):69 [免费全文] [CrossRef] [Medline
  45. Bessi A, Coletto M, Davidescu GA, Scala A, Caldarelli G, Quattrociocchi W.科学vs阴谋:错误信息时代的集体叙事。PLoS One 2015 Feb 23;10(2):e0118093 [免费全文] [CrossRef] [Medline
  46. Vosoughi S, Roy D, Aral S.网上真假新闻的传播。科学2018年3月09日;359(6380):1146-1151。[CrossRef] [Medline
  47. Acemoglu D, Ozdaglar A, ParandehGheibi A.错误信息在社交网络中的传播。出来了。2009.URL:http://arxiv.org/abs/0906.5007[2021-06-17]访问
  48. Lewandowsky S, Ecker UK, Cook J.超越错误信息:理解和应对“后真相”时代。记忆与认知应用研究2017年12月;6(4):353-369。[CrossRef
  49. Bessi A, Caldarelli G, Del Vicario M, Scala A, Quattrociocchi W.信息时代内容选择的社会决定因素。2014年发表于:社会信息学国际会议;2014年11月;西班牙巴塞罗那,页259-268http://arxiv.org/abs/1409.2651CrossRef
  50. 奥尔科特H,根茨科M. 2016年大选中的社交媒体和假新闻。国家经济研究局,2017。URL:http://www.nber.org/papers/w23089[2021-06-17]访问
  51. Dechêne A,斯塔尔C,汉森J, Wänke M.关于真相的真相:真相效应的元分析综述。Pers Soc Psychol Rev 2010年5月;14(2):238-257。[CrossRef] [Medline
  52. 重复诱导真值效应的参考理论。认知2017年3月;160:110-126。[CrossRef
  53. 重复与评价语句的真值。心理学报,2002;26(3):393-407。[CrossRef
  54. 马海波,李东,李永杰。HPV疫苗:在线新闻故事的内容分析。《妇女健康杂志》(Larchmt) 2009年3月18日(3):401-407。[CrossRef] [Medline
  55. Eysenbach G, Powell J, Kuss O, Sa E.评估消费者在万维网上的健康信息质量的经验研究:系统回顾。《美国医学会杂志》2002;287(20):2691 - 2700。[Medline
  56. 克莱因,王志强,王志强。在互联网上寻求消费者健康信息:最先进的状态。卫生教育决议2001年12月;16(6):671-692 [免费全文] [Medline
  57. Moorhead SA, Hazlett DE, Harrison L, Carroll JK, Irwin A, Hoving C.医疗保健的新维度:对社交媒体用于健康传播的用途、好处和局限性的系统回顾。J medical Internet Res 2013年4月23日;15(4):e85 [免费全文] [CrossRef] [Medline
  58. Dhoju S, Main URM, Ashad KM, Hassan N.可靠和不可靠媒体卫生新闻的差异。2019年发表于:2019年万维网大会论文集;2019年5月13-17日;旧金山,981-987页。[CrossRef
  59. Suarez-Lledo V, Alvarez-Galvez J.社交媒体上健康错误信息的流行率:系统回顾。J Med Internet Res 2021年1月20日;23(1):e17187 [免费全文] [CrossRef] [Medline
  60. Tomeny TS, Vargo CJ, El-Toukhy S.推特上与自闭症相关的反疫苗信念的地理和人口相关性,2009-15。2017年10月;191:168-175 [免费全文] [CrossRef] [Medline
  61. 黄x, Smith M, Paul M, Ryzhkov D, Quinn S, Broniatowski D,等。研究社交媒体上的流感疫苗接种模式。2017年发表于:AAAI研讨会;2017年2月4日至5日;旧金山。
  62. 侯r, Pérez-Rosas V, Loeb S, Mihalcea R.在线医疗视频中错误信息的自动检测。2019年发表于:多式联运国际会议;2019年10月;中国苏州,p. 235-243http://arxiv.org/abs/1909.01543CrossRef
  63. 王泽,尹泽,Argyris Y.利用多模态深度学习检测社交媒体上的医疗错误信息。IEEE J.生物医学。卫生通报2021年6月;25(6):2193-2203 [免费全文] [CrossRef
  64. 程磊,郭睿,舒凯,刘宏。关于假新闻传播的因果关系理解。出来了。2020.URL:https://arxiv.org/abs/2010.10580[2021-06-17]访问
  65. 吕尚斯基,徐松,刘勇。CSI:一种混合深度假新闻检测模型。2017年发表于:ACM信息与知识管理会议;2017年11月6日至10日;纽约797-806页。[CrossRef
  66. 舒克,崔琳,王松,李丹,刘华。dEFEND:可解释的假新闻检测。2019发表于:第25届ACM SIGKDD知识发现与数据挖掘国际会议;2019年8月4日至8日;纽约,第395-405页。[CrossRef
  67. 亨特R.百分比的协议,皮尔逊的相关性,和kappa作为衡量检查员之间的可靠性。中华医学杂志,1986年2月;65(2):128-130。[CrossRef] [Medline
  68. 博雅诺夫斯基,格雷夫,朱林,米科洛夫。利用子词信息丰富词向量。TACL 2017 12月;5:135-146。[CrossRef
  69. Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。2017年发表于:第15届计算语言学协会欧洲分会会议;2017年4月3日至7日;西班牙瓦伦西亚,p. 427-431。[CrossRef
  70. 用于句子分类的卷积神经网络。:计算语言学协会;2014年发表于:2014年自然语言处理经验方法会议(EMNLP);2014年10月24-29日;卡塔尔多哈,1746-1751年。[CrossRef
  71. 李律R,梁娥,西原R, Moritz P, Gonzalez J, Stoica I. Tune:分布式模型选择和训练的研究平台。出来了。2018.URL:https://arxiv.org/abs/1807.05118[2021-06-17]访问
  72. 王晓峰,王晓峰,王晓峰。基于神经网络的推文事件因果关系检测方法。2019年发表于:第20届并行和分布式计算、应用和技术国际会议(PDCAT);2019年12月5日至7日;澳大利亚黄金海岸,第352-357页。[CrossRef
  73. 孔l,施耐德N, Swayamdipta S, Bhatia A, Dyer C, Smith N.推文依赖解析器。2014年发表于:自然语言处理经验方法会议论文集(EMNLP);2014年10月25日至29日;卡塔尔多哈,第1001-1012页。[CrossRef
  74. 翟志强,李志强。基于自适应信息检索的语言模型平滑方法研究。2017年发表于:ACM SIGIR论坛;2017年7月;纽约第268-276页。[CrossRef
  75. 搭配提取中的归一化互信息(逐点)。2009年发表于:GSCL论文集;2009年9月30日;德国波茨坦,第31-40页。
  76. Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A,等。HuggingFace的变形金刚:最先进的自然语言处理。出来了。2019.URL:https://arxiv.org/abs/1910.03771[2021-06-17]访问
  77. 戴夫林J,张敏,李K, Toutanova K.伯特:深度双向转换器的语言理解预训练。出来了。2018.URL:https://arxiv.org/abs/1810.04805[2021-06-17]访问
  78. 舒伯特E,桑德J, Ester M,克里格尔H,徐旭。DBSCAN重访,重访:为什么和如何使用DBSCAN(仍然)。ACM反式。数据库系统工程2017 Aug 24;42(3):1-21。[CrossRef
  79. Ankerst M, Breunig M, Kriegel H, Sander J. OPTICS:排序点识别聚类结构。SIGMOD Rec 1999 Jun;28(2):49-60。[CrossRef
  80. 杨晓东,李志强,李志强。hdbscan:基于分层密度的聚类方法。JOSS 2017 3月2日(11):205。[CrossRef
  81. 下巴J,下巴C: R,刘B,施瓦兹答:构建一个致病人类乳头状瘤病毒(HPV)疫苗风险词典。2018年发表于:第40届医学决策学会年会上;2018年10月13-17日;加拿大蒙特利尔。[CrossRef
  82. 史密斯C,斯塔夫里P.消费者健康词汇。就位:Lewis D, Eysenbach G, Kukafka R, Stavri P, Jimison H,编辑。消费者健康信息学:告知消费者和改善医疗保健。纽约州纽约:施普林格;2005:122 - 128。
  83. 曾秋冬,谢涛。探索和发展消费者健康词汇。中国医学信息杂志2006;13(1):24-29 [免费全文] [CrossRef] [Medline
  84. 我不懂你,但我相信你:使用计算机辅助文本分析来检查医学术语的使用和疫苗在线文章的参与度。医疗保健传播杂志2020年5月21日;14(1):61-67。[CrossRef
  85. 彭伟,谭萍,刘伟,程勇,裴安。传播规模与结构病毒传播:信息和网络特征对推特健康信息传播的影响。Comput Human behaviour 2018年12月;89:111-120 [免费全文] [CrossRef] [Medline
  86. 马哲德,杰牧。使用信息框架促进接受人乳头瘤病毒疫苗。健康心理杂志2007年11月26日(6):745-752。[CrossRef] [Medline
  87. O'Keefe DJ, Nan X.促进疫苗接种的得失框架信息的相对说服力:一项元分析综述。卫生交流2012;27(8):776-783。[CrossRef] [Medline
  88. Weissenbacher D, Sarker A, Paul M, Gonzalez-Hernandez G.第三种社交媒体健康挖掘(SMM4H)共享任务概述。2018年EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会&共享任务;2018年10月;布鲁塞尔,比利时。[CrossRef
  89. Ghenai A, Mejova Y.假疗法。In: Proc. ACM hum .-计算。2018年11月发表于:美国计算机学会人机交互论文集;2018;纽约第1-20页。[CrossRef
  90. 金志,曹军,张勇,罗娟。基于冲突社会观点的微博新闻验证。2016年发表于:AAAI人工智能会议论文集;2016年2月12日至17日;亚利桑那州菲尼克斯。
  91. 王勇,杨伟,马峰,徐娟,钟斌,邓强,等。基于强化学习的假新闻检测监管不力。: AAAI。2020年4月03日发表于:2020年AAAI人工智能会议论文集;2月7 - 12;纽约516-523页。[CrossRef
  92. Lu Y, Li C. GCAN:用于社交媒体可解释假新闻检测的图形感知共同关注网络。2020年发表于:计算语言学协会第58届年会论文集;2020年7月6日至8日;在线第505-514页。[CrossRef
  93. Joshi A, Dai X, Karimi S, Sparks R, Paris C, MacIntyre C.疫苗接种行为检测的NLP方法比较。2018年发表于:2018 EMNLP研讨会论文集SMM4H:第三届社交媒体挖掘健康应用研讨会及共享任务;2018年10月31日;布鲁塞尔,比利时。[CrossRef
  94. 尹伟,康凯,于敏,Schütze H.自然语言处理中CNN与RNN的比较研究。出来了。2017.URL:https://arxiv.org/abs/1702.01923[2021-06-17]访问
  95. 刘志刚,刘志刚。基于深度域理论的语篇分析。1989年发表于:政府人工智能系统年度会议;1989年3月27日至31日;华盛顿特区,第195页。[CrossRef
  96. Kaplan RM, Berry-Rogghe G.基于知识的文本因果关系习得。知识获取1991 9月3日(3):317-337。[CrossRef
  97. 自动检测因果关系的问题回答。2003年发表于:ACL多语言摘要和问答研讨会;2003年7月;札幌,日本,第76-83页。[CrossRef
  98. hasanzadeh O, Bhattacharjya D, Feblowitz M, Srinivas K, Perrone M, Sohrabi S,等。通过大规模文本挖掘回答二元因果问题:使用人类专家的因果对进行评估。第28届国际人工智能联合会议(IJCAI-19) 2019:5003-5009。[CrossRef
  99. 郭c, Pleiss G,孙杨,Weinberger K.现代神经网络的标定。2017年发表于:第34届机器学习国际会议;2017年8月6日至11日;澳大利亚悉尼,约1321-1330年。
  100. 吴琳,刘华,刘华,刘华。社交媒体中的错误信息:定义、操纵和检测。SIGKDD空洞。2019年11月26日;21(2):80-90。[CrossRef
  101. 数据工艺:对社交媒体元数据的操作。数据与社会研究所,2018。URL:https://datasociety.net/wp-content/uploads/2018/11/DS_Data_Craft_Manipulation_of_Social_Media_Metadata.pdf[2021-06-16]访问


BiLSTM:双向长短期记忆
有线电视新闻网:卷积神经网络
DBSCAN:基于密度的有噪声应用的空间聚类
HDBSCAN:基于分层密度的带噪声应用的空间聚类
人乳头状瘤病毒:人类乳头状瘤病毒
HPVVR:hpv疫苗风险词典
NPMI:归一化点互信息
光学:对点排序以识别聚类结构
采购经理人指数:点互信息


G·艾森巴赫(G Eysenbach)编辑;提交14.05.21;同行评审:R R, D Huang;对作者08.06.21的评论;接受04.08.21;发表09.09.21

版权

©Tre Tomaszewski, Alex Morales, Ismini Lourentzou, Rachel Caskey, Bing Liu, Alan Schwartz, Jessie Chin。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2021年9月9日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map