JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v23i9e30451 34499043 10.2196/30451 原始论文 原始论文 从Twitter上识别虚假的人乳头瘤病毒(HPV)疫苗信息和相应的风险感知:先进的预测模型 Eysenbach 冈瑟 R Rajkamal 蒂娜 张照片 混乱关系 女士 1 https://orcid.org/0000-0001-7199-3132 莫拉莱斯 亚历克斯 博士学位 2 https://orcid.org/0000-0002-1236-6822 Lourentzou Ismini 博士学位 3. https://orcid.org/0000-0002-1238-772X : 瑞秋 医学博士 4 https://orcid.org/0000-0002-6285-3311 必应 博士学位 5 https://orcid.org/0000-0002-4096-6980 施瓦兹 艾伦 博士学位 6 https://orcid.org/0000-0003-3809-6637 下巴 杰西 博士学位 1
信息科学学院 伊利诺伊大学香槟分校 501 E丹尼尔街 香槟,伊利诺伊州,61820 美国 1 217 333 0125 chin5@illinois.edu
7 https://orcid.org/0000-0002-2878-8544
信息科学学院 伊利诺伊大学香槟分校 香槟, 美国 计算机科学系 伊利诺伊大学香槟分校 乌尔班纳, 美国 计算机科学系 弗吉尼亚理工大学和州立大学 弗吉尼亚州布莱克斯堡 美国 医学院 伊利诺伊大学芝加哥分校 芝加哥, 美国 计算机科学系 伊利诺伊大学芝加哥分校 芝加哥, 美国 医学教育系 伊利诺伊大学芝加哥分校 芝加哥, 美国 伊利诺斯州癌症中心 伊利诺伊大学香槟分校 乌尔班纳, 美国 通讯作者:Jessie Chin chin5@illinois.edu 9 2021 9 9 2021 23 9 e30451 14 5 2021 8 6 2021 4 8 2021 ©Tre Tomaszewski, Alex Morales, Ismini Lourentzou, Rachel Caskey, Bing Liu, Alan Schwartz, Jessie Chin。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2021年9月9日。 2021

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

人类乳头瘤病毒(HPV)疫苗的接种率仍然很低,尽管HPV疫苗的有效性已经确立了十多年。疫苗犹豫的部分原因是社交媒体上关于HPV疫苗的虚假信息。打击虚假的HPV疫苗信息是解决疫苗犹豫的合理步骤。

客观的

鉴于虚假HPV疫苗信息的巨大危害,迫切需要在虚假社交媒体信息传播之前识别出来。这项研究的目标是开发一种系统和可推广的方法来识别社交媒体上的虚假HPV疫苗信息。

方法

本研究利用机器学习和自然语言处理开发了一系列分类模型和因果关系挖掘方法,以识别和检查Twitter上与HPV疫苗相关的真假信息。

结果

我们发现卷积神经网络模型在识别包含虚假HPV疫苗相关信息的推文方面优于所有其他模型( F分数= 91.95)。我们还开发了完全无监督的因果关系挖掘模型,以确定HPV疫苗的候选效果,以捕捉HPV疫苗的风险感知。此外,我们发现虚假信息包含的损失框架信息主要关注疫苗的潜在风险,涉及多种主题,使用更多样化的词汇;而真实信息包含的收益和损失框架信息,关注疫苗的有效性,涉及较少的主题,使用相对有限的词汇。

结论

我们的研究证明了使用预测模型识别社交媒体上虚假HPV疫苗信息及其风险认知的可行性和有效性。

错误信息 虚假信息 社交媒体 人乳头状瘤病毒 人乳头瘤病毒疫苗 疫苗接种 因果关系挖掘 导致 效果 风险感知 疫苗 感知 风险 推特 机器学习 自然语言处理 子宫颈癌
简介

每年约有13,000名妇女新诊断为侵袭性子宫颈癌,而超过4,000名妇女死于该疾病[ 1].子宫颈癌是由某些类型的人乳头瘤病毒(HPV)引起的[ 2 3.].HPV是美国最常见的性传播感染,在14至44岁的人群中,每年估计有620万新感染[ 4- 6].除宫颈癌外,HPV还是多种头颈癌、生殖器癌和肛门癌的致病媒介[ 7- 9].在美国,hpv相关癌症的总体负担一直在增加[ 9].预防人乳头瘤病毒比大多数性传播感染更具挑战性,因为避孕套并不能完全预防感染[ 10].因此,通过接种疫苗进行预防对于减少这种无处不在的感染所造成的癌症负担至关重要。

普遍建议所有青少年接种人乳头瘤病毒疫苗[ 10].尽管在预防由目标HPV类型引起的癌前病变方面具有非凡的功效(高达90%的保护)[ 11- 13],在美国,只有56.8%的13至17岁女性和51.8%的13至17岁男性完成了HPV疫苗系列[ 14].HPV疫苗接种有许多已知的障碍,包括对HPV疫苗副作用和不良事件的误解,对疫苗必要性的误解,从卫生保健人员那里得到的建议不一致,完成疫苗接种的费用,诊所的机会有限,以及对文化信仰的侵犯[ 15- 21].在这些障碍中,风险认知的偏差不仅与疫苗接种意愿低有关[ 22- 25]也与实际的疫苗接种行为有关[ 16 22 26- 30.].全国免疫调查显示,父母对HPV疫苗的三大担忧是缺乏知识、疫苗的感知有用性低(HPV感染的感知风险低)、以及对副作用和安全问题的感知风险高[ 31],强调了在HPV疫苗接种决策中风险认识的重要性。

社交媒体已成为人们交流疫苗相关观点、形成对疫苗态度的重要信息来源[ 32- 38].它的影响是惊人的,特别是对Twitter疫苗信息,因为Twitter上与HPV疫苗相关的意见与实际疫苗接受度和覆盖率有关[ 39].现有的研究调查了关于HPV疫苗的新主题和公众对支持和反对疫苗的在线讨论的态度[ 19 24 40- 44].虽然已经确定了围绕HPV疫苗的多个虚假阴谋和神话,但没有研究使用自动计算方法来提取HPV疫苗错误信息传播中使用的主要疫苗接种论点的因果线索。研究表明,无论是内容质量、科学稳健性,还是信息的真实性,都无法证明信息的传播,而虚假或未经证实的信息有时比真实信息更具病毒性[ 45 46].随着人们对社交媒体上虚假信息传播的关注激增[ 45 47- 50],一种自动、系统和可推广的方法来检测社会认可的虚假健康信息仍有待研究。虚假信息的威胁是至关重要的,因为对虚假信息的依赖(即感知准确性)会随着每次接触虚假信息而放大,并通过社交网络进一步放大[ 51- 53].由于人们缺乏健康知识,缺乏可信度判断能力,尽管引用了来源,但健康新闻的质量参差不齐,因此用户生成的虚假健康信息的泛滥尤其会使人们受害。[ 54- 56].因此,在虚假健康信息传播之前检测虚假健康信息是最大限度减少虚假信息威胁的重要一步[ 57].

有几部作品针对健康方面的不实信息[ 58 59大多数研究使用描述性方法来研究已知的健康错误信息,并进行分析以揭示常见的错误观念、人口和地理模式以及社交媒体用户行为[ 25 60 61].一些研究已经实现了计算模型,以识别来自其他社交媒体平台(如YouTube和Instagram)的健康错误信息;然而,他们中没有人试图从短且有时不完整的文本信息中识别健康错误信息,例如推文[ 62 63].与其他相关工作相比,我们将用于识别虚假HPV疫苗信息的分类模型与无监督的因果关系挖掘结合起来,以根据Twitter消息中表达的内容提取被认为是HPV抗疫苗健康担忧的归因原因的风险感知。为此,我们进行了一项信息流行病学研究,使用自然语言处理和机器学习方法,如分类、聚类、依赖分析和短语挖掘,来识别那些经常出现在社交媒体上的虚假HPV疫苗接种论点。我们的方法分析可以应用于其他领域,如COVID-19疫苗接种、食品安全和政治,以提取关于在线分享的真实和误导性声明之间的异同的有见解的信息。

方法

我们收集了2013年12月至2017年12月发布的与HPV疫苗相关的推文语料库。我们使用了以前已知的Crimson Hexagon(现为Brandwatch)的社交媒体分析应用程序编程界面和HPV相关搜索词列表,包括但不限于“HPV疫苗”、“乳头瘤病毒疫苗”、“宫颈癌疫苗”、“HPV疫苗”、“宫颈癌疫苗”和“加德西”。我们的建模管道由几个步骤组成:采样、注释和数据预处理、训练和分析(参见 图1).数据预处理阶段包括基于规则的词汇归一化和无监督的词嵌入预训练。

因果关系挖掘数据收集和建模管道。

首先,我们每年随机抽取1000条推文,并在两轮中将它们传递给2名注释者。两名批注员都接受过关于HPV疫苗的基本培训(包括广泛阅读国家癌症研究所、疾病控制和预防中心以及美国癌症协会提供的经过验证的HPV疫苗相关材料),其中1名批注员接受过正规的医学教育培训。与错误信息检测的相关工作类似[ 64- 66],我们将任务构建为二元分类,其中每条推文都被分类为真信息或假信息(其中假信息包括部分假信息或部分真信息)。因此,我们不仅要求注释者判断每条推文的内容的真实性,还允许他们选择一个额外的选项作为“不适用”,对于不属于这两类中的任何一类的推文(例如,固执己见的文本和其他非事实或无关的帖子)。标记为不适用的tweet将从注释管道中过滤掉。通过讨论,两个注释者的评分有任何差异。对于评分者之间的可靠性,科恩的kappa系数(κ)为0.75,被认为是对任务的良好一致[ 67].结果数据集由5000条有标记的推文和702,858条无标记的推文组成。推文的字符长度,包括所有提及、转发和标签,从21到826个字符不等。

为了减少词汇规范化步骤的词汇量,将单词格式化为小写,并删除url;数字和twitter特定的项目,如用户提及(用户名前缀为“@”)或转发,被标记并映射到每个类别的公共特殊令牌(即,分别为NUMBER, MENTION, RT)。一些缩略词被替换为它们的规范形式:例如,“Can't”被替换为“Cannot”,“You'll”被替换为“You will”,“&”被替换为“and”,等等。此外,连字符和正斜杠被替换为空格,字母数字配对被处理,2个或2个以上的用户提到的实例被减少到2个“MENTION”标记,标签引号和其他类型的标点符号被删除,多个前导或尾随空格被替换为一个空格。这个过程减少了每条推文的长度,可以在18到295个字符之间。

基于训练集的最终词汇量为4098个词汇(其中1个词汇表示空白)。根据频率优势比(即每个类别中出现的比例)加权的术语分析显示,某些术语在真实类别中代表过多,但在虚假类别中很少出现,例如,强烈表明HPV疫苗预防癌症有效性的词汇在网上传播,如“预防”、“保护”和“有效”。另一方面,虚假信息包含“危险”、“不利”和“致命”等术语,并更多地关注用于接种疫苗的负面因果影响。

结果 分类模型

词嵌入将离散的词标记映射到实值向量表示,其中语义相似的词具有相似的向量,因此在嵌入空间中更接近。一般来说,这种词嵌入的预训练已经被发现对一些自然语言处理任务是有益的,允许更快的模型收敛和任务性能改进。因此,我们训练了一个无监督嵌入模型FastText [ 68],用我们完整的Twitter集合作为训练数据,并进行上述预处理。与其他单词表示模型相比,FastText可以为词汇表外的单词生成单词向量,并已被证明是短文本相似性的强大基线,其开源实现允许更快的训练[ 69].更具体地说,FastText为词汇表中的每个术语生成300维向量表示,用作模型嵌入层的初始化。我们还实验了维基百科预训练的嵌入和没有任何预训练的嵌入:我们的实验表明,当使用hpv相关的预训练单词嵌入初始化时,模型在准确性方面表现得更好。

最后,我们将标注的数据分为60%的训练,20%的验证和20%的测试,在所有模型中保持相同的分割,以进行公平的比较。在每个集合中精确匹配的推文重复数据删除后,总共剩下3661条推文(2142条用于训练,758条用于验证,761条用于测试集)。我们尝试了几种模型架构,包括卷积神经网络(CNN) [ 70],双向长短期记忆(BiLSTM),传统模型,包括支持向量机和朴素贝叶斯。我们用交叉熵训练,用10的自适应矩估计4学习率,衰减0.01,神经模型的批处理大小为32。超参数调优使用Tune库[ 71].在 表1,我们报告了前5个执行模型变化的平均值和SD。我们的实验评估表明,cnn的表现比其他模型更好(见 图2而且 3.对于各自的混淆矩阵和接收机工作特征曲线下的区域神经网络之间的比较)。在这两个神经网络中表现最好的前5个模型中,CNN比BiLSTM需要更少的训练时间。CNN的平均每epoch训练时间为11.5 ms(标准差1.09,最小值16,最大值16,中位数12),而BiLSTM的平均每epoch训练时间为51.3 ms(标准差34.07,最小值14,最大值88,中位数81)。我们表现最好的CNN模型有256个卷积滤波器,包括-3个宽度的核(3,4和5),并校正线性单元非线性;最大池化层,128个单元的全连接层,具有整流线性单元激活和0.1 dropout,以及产生分类预测的最终软最大输出层。

人乳头瘤病毒疫苗虚假信息识别:分类模型比较。

模型 精度 精度 回忆 F分数
支持向量机一个,意思是 57.424 57.806 56.721 55.532
朴素贝叶斯 51.774 52.485 52.301 51.090
美国有线电视新闻网b,平均值(SD) 91.958 (0.269) 91.953 (0.272) 91.946 (0.271) 91.946 (0.270)c
BiLSTMd,平均值(SD) 91.643 (0.432) 91.710 (0.396) 91.574 (0.453) 91.618 (0.438)

一个支持向量机:支持向量机。

bCNN:卷积神经网络。

c斜体表示最高 F得分在表格中。

cBiLSTM:双向长短期存储器。

混淆矩阵的最佳表现CNN模型。BiLSTM:双向长短期存储器;CNN:卷积神经网络。

ROC为最佳性能的卷积神经网络和双向长短期记忆模型。AUC:曲线下面积;ROC:受试者工作特征。

因果关系挖掘

为了识别归因于HPV疫苗的风险认知,我们首先将分类器应用于一组291,037条推文,从中我们能够将124,031条标记为虚假推文,将167,006条标记为真实推文。使用由Kayesh等人推导出的因果术语字典[ 72]对于Twitter因果关系检测,我们筛选了包含至少1个这些术语的推文,如果分类置信度至少为0.998,则将推文分类为虚假信息,因为这保持了我们的分类器的高保真度。因此,总共有9352条tweet被用于因果关系挖掘过程( 表2).然后,我们使用一个依赖解析器来标记和合并多词表达式[ 73].由于推文可以有多个话语(即独立的句子或片段),我们保留了与因果线索一起出现的名词短语,而不管它们是否与因果线索有依赖关系,这与Kayesh等人的研究相反[ 72].候选因果短语是一组与推文相关的术语,其中包含因果线索,并包含候选效应短语。

应用多个筛选器后的消息数。

模型 真正的 总计
无过滤器,n 124031年 167006年 291037年
+置信阈值,n (%) 72172 (58.19) 105166 (62.97) 177338 (60.93)
+包含因果提示,n (%) 3667 (2.96) 5685 (3.40) 9352 (3.21)

然后,我们可以计算因果集的逐点互信息(PMI) C= { c1、…… c }和效果集 E= { e1、…… e 其中,候选因果短语c效果短语ej,是包含术语的集合 wc V c而且 we Ve ,分别。在这里, V c 术语、名词短语和多词表达式的集合是否来自推文中的候选因果短语(不包括最低频率为1的术语,并删除停止词)和 Ve 是由候选效果短语派生出来的词汇。

计算术语的PMI we ej 而且 wc c 我们有,

我们可以应用拉普拉斯平滑来确保概率分布是非零[ 74],可以计算归一化逐点互信息(NPMI) [ 75]如下:

NPMI的取值范围为-1到1,其中-1表示两项从未同时出现,0表示它们相互独立,1表示完全同时出现。

崩溃候选人效果短语和排名效果

由于我们的模型是完全无监督的,并且包括转发,推文消息可能会变得非常冗余,但我们的方法可以检测到许多几乎重复的候选效果短语。为了折叠这些短语,我们使用从候选效果短语的嵌入表示中获得的语义相似性对这些术语进行聚类。特别地,我们使用HuggingFace包[ 76]从变压器模型中获得双向编码器表示的后4层的和[ 77].为了计算词嵌入,我们在候选效果短语中对这些词嵌入取平均值,以产生嵌入向量。

基于密度的带噪声应用的空间聚类[ 78,然后对候选效果短语进行聚类。其中有两个重要参数:(1)可达性,即同一聚类中要考虑的2个“点”之间的最大距离;以及(2)被视为集群的“点”的最小数量。这里的点是指效果集的嵌入实值向量表示。我们将可达性设置为0.1,将最小点数设置为1,因为我们希望只检索语义上最相似的单词,同时保持有意义的集群。注意,除了DBSCAN,还有其他的替代方案,例如对点进行排序以识别集群结构(OPTICS) [ 79]和基于层次密度的带噪声应用程序空间聚类(HDBSCAN) [ 80]用于光谱聚类;然而,我们只需要减少查询时比较的效果数量,这意味着DBSCAN就足够了。然后,我们选择聚类核心作为每个聚类的代表来折叠效果。

为了识别与不同因果词相关的感知,我们将其制定为一个检索问题。给定一个与因果关系相关的查询,我们使用NPMI对相关影响进行了排名。为了计算评分函数,我们使用以下方法:

这个评分函数计算查询和候选效果短语中所有术语对的平均NPMI。然后,我们可以计算一个类别的累计NPMI得分 C一个 效果短语如下:

因果关系挖掘结果

为了验证候选因果挖掘方法,我们采用了与HPV疫苗风险感知(即感知效果)有关的词汇。HPV疫苗风险词典(HPVVR)是一个面向消费者的词典,用于捕捉外行如何描述他们对HPV疫苗的风险认知(包括他们对HPV疫苗的感知危害和益处)[ 81].HPVVR的研制分为两个阶段。第一阶段涉及采用来自国土安全部风险词汇、MedlinePlus消费者健康主题词汇和消费者健康词汇(统一医学语言系统)的风险表达和hpv疫苗相关面向消费者的词汇[ 82 83].第二阶段是由2名训练有素的注释人员根据用户生成的内容(来自2013年至2018年随机采样的用户生成内容,包括Twitter和Facebook)提取关于风险感知描述的外行语言(评分者间可靠性:Cohen’s kappa系数(κ)=0.80)。HPVVR涵盖了29类风险感知相关词汇的200多个术语或短语。

这个黄金标准的效果列表, G,然后与效果集进行匹配 E.特别地,我们定义了部分匹配,如果ground truth效应短语中的某些项与某些候选效应短语(即, G∩e≠Ø).例如,我们从数据中挖掘出了“预防喉癌”,这与HPVVR中的“预防宫颈癌”部分匹配。还有另外两种部分匹配。如果候选效应短语是ground truth效应短语的一个更具体的例子,我们将匹配定义为合适的, g∈g.例如,我们从数据中挖掘了“早发性绝经”,这与HPVVR中的“绝经”是一个适当的匹配。如果候选效应短语是基本事实效应短语的更一般形式,我们就认为存在反向匹配, E⊆g.例如,我们从数据中挖掘出“疲劳”,这与HPVVR中的“极度疲劳”相反。在136个ground-truth效应短语中,我们发现55个(40.4%)匹配,78个(57.4%)部分匹配,48个(35.3%)反向匹配,103个(75.7%)部分或正确匹配或两者都匹配。同时,也有一些候选效果短语是新发现的效果。

由于因果关系挖掘方法是一种完全自下而上、无监督的方法,我们可以自动挖掘任何一组推文的候选效果。特别是,对于预测的虚假推文,最大的候选效应集群之一包含了与不同实体的反应有关的术语,如“日本”、“丹麦”和“大学”,关于HPV疫苗的潜在问题,如“召回”、“失去支持”和“禁止”。另一个这样的群集包含与不孕症有关的术语,如“卵巢早衰”和“年轻女孩更年期提前”。另一个大型候选效应聚类是关于严重不良事件和并发症的误解,如“猝死”、“瘫痪”和“中风”。请注意,有些候选效果短语可能与健康影响没有直接关系。因此,为了在进一步的分析中减轻这种限制,我们将影响限制在基本真理中的项(即, Ve G

讨论 主要结果

本研究中使用的CNN和BiLSTM模型的性能表明,使用推文文本识别关于HPV疫苗的错误信息与事实信息的可行性。平均而言,这两个模型对任何一类的预测都有很高的可信度。尽管在测试过程中,这两个模型在准确性(和置信度)方面表现几乎相同,但CNN的训练比BiLSTM模型更方便,这导致它被选为首选模型。

为了检查与HPV疫苗相关的风险认知,我们利用了虚假信息分类器和效果排序器。 图4显示了应用“HPV疫苗”和“加德西”效果排名查询后的累计NPMI分数。我们可以围绕HPV疫苗的成本和收益对这些看法进行分类。总的来说,人们讨论了真实的HPV疫苗推文的好处或低风险的伤害,以及虚假的HPV疫苗推文的各种不良事件。在真正的HPV疫苗推文中,与HPV疫苗相关的主要效果是预防HPV感染相关的癌症,并否认接种疫苗的青少年无保护的性行为增加的风险。在虚假的HPV疫苗推文中,与HPV疫苗相关的主要影响是与不孕症相关的疾病(如卵巢损伤)、儿童发育障碍、死亡和HPV疫苗中的有毒成分。在我们之前关于患者驱动的HPVVR的工作之后,因果关系挖掘的发现帮助我们确定了与HPV疫苗相关的主要问题,然后可以优先考虑解决方案。

结果表明,与真实信息中较少的主题和相对有限的术语相比,虚假HPV疫苗信息不仅在风险感知方面涵盖了广泛的主题,而且涉及了更多样化的词汇来描述这些主题。在关于反疫苗和prov疫苗文献的类似工作中,也注意到这种虚假或误导性信息中基于医学的术语频率和主题多样性的现象[ 84].对这种差异的一种可能的解释是,真实的信息需要有证据的共识,从而将术语和结果限制在用于描述这些主题的特定选择或短语中。虚假信息缺乏对术语或结果的限制,往往使用叙事语言或提及新奇的话题来衡量注意力[ 46 85].

通过因果关系挖掘,我们还观察到了真实和虚假HPV疫苗信息的信息框架的差异 图4).真实的信息包含收益框架和损失框架信息,特别是那些强调疫苗在预防HPV相关癌症方面的有效性,HPV感染与癌症之间的联系,以及否定疫苗的潜在危害,如无忧无虑或无保护的性行为( 图4).相反,虚假信息主要是损失框架,关注据称由疫苗引起的负面结果,例如导致hpv相关癌症或其他严重不良事件(不孕、神经障碍或死亡; 图4).使用表示风险的使役动词(例如,疫苗是“预防”,而疫苗是“伤害”或“导致”,等等)可能是区分真实和虚假信息的诊断性的。未来的研究应利用先前关于信息框架有效性的研究结果,以检验不同框架下的错误信息的影响[ 86 87].

查询“HPV疫苗”和“Gardasil”时的累计NMPI评分。条形宽度中的部分对应于每个类别的效应项的NPMI贡献。人乳头瘤病毒;NPMI:归一化点互信息。

与之前工作的比较

与健康相关的错误信息研究涵盖了广泛的学科[ 58 59],其中几项研究侧重于不同的医学领域,如癌症、性传播疾病和感染、流感,以及最近的COVID-19 [ 25 60 61].在疫苗相关领域,几篇论文研究了疫苗行为,以及社交媒体上反疫苗和虚假信息推文传播的地理和人口模式,与自闭症谱系障碍有关[ 60]、流感疫苗[ 88],以及癌症治疗[ 89].一些研究努力解决了一些关键问题,比如用额外的弱社会监督信号缓解标签稀缺,用注意机制改善难以处理的问题,以及利用网络和群体或用户信息[ 65 90- 92].一般来说,疫苗犹豫识别与疫苗接种行为检测的区别在于,前者涉及一种态度或立场,而后者涉及检测接种疫苗的行为[ 93].我们的研究更类似于疫苗犹豫的研究,但不同之处在于,我们专注于通过检查风险感知从推特中提取因果关系;HPV疫苗相关的健康问题或预期收益的可归因原因;并使用自然语言处理、机器学习和无监督因果挖掘技术。

我们观察到,具有多个滤波器尺寸的卷积模型[ 70 94]比BiLSTM模型对短文本域(如推文)的效果更好。直观地说,CNN体系结构捕获最常见的n-gram(长度为3、4和5),因此更善于发现短文本中的判别文本模式。虽然我们测试了更复杂的BiLSTM架构,但总的来说,CNN模型比其他模型变体表现得更好,并且训练速度更快。这些发现对于社交媒体健康相关的分析是有用的,特别是关于该领域的从业者应该探索社交媒体文本分类的一组模型。

关于因果关系挖掘,早期的工作使用手工编码的特定领域知识库[ 95 96].确定因果关系的一个挑战是通过不同的语言结构观察因果关系的各种方式。先前的研究[ 97]表明分类器可以确定从预定义的语言模式<名词短语-动词-名词短语>的形式中自动提取的因果关系表达式是否为因果关系。然而,监督方法需要大量手工注释的原因和结果,因此需要大量资源。最近的工作比较了用于因果关系挖掘的无监督方法,包括共现方法(如按点互信息)和基于话语线索的方法(基于信息检索技术),以计算因果查询中的匹配数量[ 98].这样的比较是在大规模的文档集合上进行的,因此他们的见解不适用于我们的任务,相比之下,数据量有限。最后,推文中的事件因果关系检测将因果关系挖掘限制在某些感兴趣的事件上。“基于上下文词扩展和神经网络的推文事件因果关系检测”[ 72],作者提出了一种对候选因果短语和候选效应短语进行编码的方法,用于开发前馈网络分类器。我们的方法不局限于某些事件。最重要的是,我们关注与HPV疫苗有关的健康相关信息,这一方法可以推广到其他健康主题。

限制

在应用监督学习方法时,一个常见的瓶颈是需要大量高质量的标注数据进行训练。由于手头任务的复杂性质,以及需要大量的手工工作,我们的数据集大小可能在提供跨其他领域和数据源泛化的见解方面受到限制。此外,由于在非正式的用户生成的语言中发现了频繁的语言变化,用词紧密的实例可能避免了重复数据删除。在未来,我们希望通过结合弱监督方法和去噪机制来解决可用标记数据的短缺问题。尽管如此,我们选择继续使用监督学习以获得更高的精度,因为弱监督可能会导致标签噪声被注入到虚假信息检测模型中,从而影响后续的因果关系挖掘步骤。

另一个限制源于模型置信度和准确性的不一致。换句话说,模型置信度可能并不代表模型的正确性,这是机器学习研究社区中众所周知的问题[ 99].在我们的实验中,我们观察到BiLSTM模型对大多数假阴性产生了高置信度的估计(即,在预测事实文本时,它错位了更多的置信度),而CNN模型对高置信度的例子有相同数量的假阳性和假阴性。CNN的错误预测中约有20%的可信度较低。总的来说,BiLSTM模型似乎在一个方向上过于自信,可能会被更好地校准。需要对这些高置信度的不准确预测进行进一步分析,以发现可解释的模式,以识别与事实对应部分具有强烈相似性的错误信息子主题和语句。

最后,我们应该注意到,任何额外元数据的使用都需要谨慎,特别是对于用户添加的信息,例如用户配置文件特征,以及报告的时间戳和社交网络链接,因为最近的研究表明,错误信息传播者不仅倾向于通过组建群体来操纵社交网络结构,以增加影响力[[ One hundred.],还有几种元数据[ 101].在这项研究中,我们没有使用这些类型的额外数据源,因此我们只能解释基于内容的结果,而不能沿着文本中发现的关系之外的任何其他维度解释。

结论

这项研究展示了一种系统的、自动的方法来开发计算模型,以识别虚假的HPV疫苗相关信息及其在社交媒体上的相关影响。这种方法可以推广到其他社交媒体健康信息,并为估计给定健康主题的潜在影响提供见解。

缩写 BiLSTM

双向长短期记忆

美国有线电视新闻网

卷积神经网络

DBSCAN

基于密度的有噪声应用的空间聚类

HDBSCAN

基于分层密度的带噪声应用的空间聚类

人乳头状瘤病毒

人类乳头状瘤病毒

HPVVR

hpv疫苗风险词典

NPMI

归一化点互信息

光学

对点排序以识别聚类结构

采购经理人指数

点互信息

我们感谢Chieh-Li (Julian) Chin和Wen-Yuh Su在本研究数据收集和准备方面的协助。我们也感谢伊利诺伊大学香槟分校的技术服务和癌症中心对我们研究的支持。这项研究得到了美国国立卫生研究院(#1R21CA237483)的资助。本出版物中表达的任何意见、发现、结论或建议都是作者的观点,并不一定反映美国国立卫生研究院的观点。

没有宣布。

西格尔 R 米勒 K Jemal 一个 2019年癌症统计数据 癌症临床 2019 01 08 69 1 7 34 10.3322 / caac.21551 Schiffman MH 鲍尔 胡佛 RN 玻璃 AG) 卡德尔 DM BB 斯科特 博士 谢尔曼 Kurman RJ Wacholder 年代 流行病学证据表明,人乳头瘤病毒感染引起大多数宫颈上皮内瘤变 中华泌尿外科肿瘤研究所 1993 06 16 85 12 958 64 10.1093 / jnci / 85.12.958 8388478 博世 外汇 诺斯 毫米 穆尼奥斯 N 谢尔曼 詹森 皮托 J Schiffman MH 莫雷诺 V Kurman R 沙阿 KV 人乳头瘤病毒在宫颈癌中的流行:全球视角。国际宫颈癌生物学研究(IBSCC)研究组 中华泌尿外科肿瘤研究所 1995 06 07 87 11 796 802 7791229 邓恩 英孚 昂格尔 斯特恩伯格 McQuillan G 天鹅 直流 帕特尔 党卫军 马科维茨 美国女性中HPV感染的流行率 《美国医学会杂志》 2007 02 28 297 8 813 9 10.1001 / jama.297.8.813 17327523 297/8/813 迈尔斯 麦克罗里 直流 南达 K 巴斯蒂安· l Matchar DB 人乳头瘤病毒感染和宫颈癌发生的自然史的数学模型 Am J流行病 2000 06 15 151 12 1158 71 10.1093 / oxfordjournals.aje.a010166 10905528 魏因斯托克 H 伯曼 年代 盖茨 W 美国青年中的性传播疾病:发病率和流行率估计,2000年 展望性与生殖健康 2004 36 1 6 10 10.1363 / psrh.36.6.04 14982671 36604 14982671 莫克 J 谎言 正义与发展党 Glattre E Hallmans G Jellum E Koskela P Mø噢 B Pukkala E 席勒 JT 青年汽车 l Lehtinen Dillner J 人乳头瘤病毒感染是头颈部鳞状细胞癌的危险因素 N英语J医学 2001 04 12 344 15 1125 31 10.1056 / NEJM200104123441503 11297703 11297703 沃森 Saraiya 艾哈迈德 F Cardinez CJ Reichman 香港 理查兹 结核病 使用基于人群的癌症登记数据评估美国人乳头瘤病毒相关癌症的负担:方法概述 癌症 2008 11 15 113 10 5 2841 54 10.1002 / cncr.23758 18980203 18980203 来吧 LJ 亨利 SJ 沃森 马科维茨 托马斯。 CC 汤普森 道明 Razzaghi H Saraiya 人乳头瘤病毒相关癌症-美国,2008-2012 MMWR Morb凡人Wkly代表 2016 07 08 65 26 661 6 10.15585 / mmwr.mm6526a1 27387669 HPV疫苗时间表和剂量 疾病控制和预防中心 2021-06-17 https://www.cdc.gov/hpv/hcp/schedules-recommendations.html 加兰 SM ·卡亚尔: SK 穆尼奥斯 努比亚 SL 棕色(的) 博士 DiNubile 乔丹 林赛 BR 库特 BJ 佩雷斯 G Dominiak-Felden G Saah AJ 特鲁里街 R 达斯 R 软颚顶的 C 四价人乳头瘤病毒疫苗的影响和有效性:对10年真实世界经验的系统回顾 临床感染病 2016 08 15 63 4 519 27 10.1093 / cid / ciw354 27230391 ciw354 PMC4967609 别墅 科斯塔 RLR Petta CA 安德雷德 RP 奥尔特 朱利亚诺 基于“增大化现实”技术 惠勒 厘米 Koutsky 白垩土 C Lehtinen Skjeldestad 奥尔森 年代 Steinwall 棕色(的) 博士 Kurman RJ Ronnett BM 偷了 MH Ferenczy 一个 哈珀 DM 塔姆 通用汽车 J Lupinacci l Railkar R Taddeo FJ 詹森 KU 艾瑟 霍奇金淋巴瘤 Saah AJ 巴尔 E 年轻女性预防性四价人乳头瘤病毒(6,11,16,18型)L1病毒样颗粒疫苗:一项随机双盲安慰剂对照多中心II期疗效试验 《柳叶刀》杂志 2005 05 6 5 271 8 10.1016 / s1470 - 2045 (05) 70101 - 7 15863374 s1470 - 2045 (05) 70101 - 7 未来II研究小组 人乳头瘤病毒四价疫苗预防宫颈高级病变 N英语J医学 2007 05 10 356 19 1915 27 10.1056 / NEJMoa061741 17494925 356/19/1915 Elam-Evans LD 妍吉 D 单例 晶澳 4格 N 马科维茨 威廉姆斯 CL Fredua B 麦克纳马拉 l 现实世界 年代 国家、地区、州和选定的地方13-17岁青少年的疫苗接种覆盖率-美国,2019年 MMWR Morb凡人Wkly代表 2020 08 21 69 33 1109 1116 10.15585 / mmwr.mm6933a1 32817598 PMC7439984 疾病预防控制中心建议青少年只注射两次HPV疫苗 疾病控制和预防中心 2016 2021-06-17 http://www.cdc.gov/media/releases/2016/p1020-hpv-shots.html Muhwezi WW Banura C Turiho 正义与发展党 Mirembe F 在乌干达,父母的知识、风险认识和允许年轻男性接种人乳头瘤病毒疫苗的意愿 《公共科学图书馆•综合》 2014 9 9 e106686 10.1371 / journal.pone.0106686 25203053 玉米饼- d - 14 - 16887 PMC4159277 布鲁尔 NT 法泽卡斯 KI HPV疫苗可接受性的预测因素:一项基于理论的系统综述 Prev地中海 2007 45 2 - 3 107 14 10.1016 / j.ypmed.2007.05.013 17628649 s0091 - 7435 (07) 00237 - x 纽曼 巴勒斯坦权力机构 假珠宝饰物 CH Doukas N 仓叶 K HPV疫苗在男性中的可接受性:系统回顾和荟萃分析 性传播感染 2013 11 89 7 568 74 10.1136 / sextrans - 2012 - 050980 23828943 sextrans - 2012 - 050980 PMC3812849 拉森 沪江 威尔逊 R 汉利 年代 一部分 一个 帕特森 P 追踪疫苗情绪的全球传播:全球对日本暂停HPV疫苗推荐的反应 Hum Vaccin Immunother 2014 10 9 2543 50 10.4161 / 21645515.2014.969618 25483472 PMC4977439 邓普西 房颤 Zimet GD 戴维斯 RL Koutsky l 与父母接受人乳头瘤病毒疫苗相关的因素:一项关于HPV书面信息的随机干预研究 儿科 2006 05 117 5 1486 93 10.1542 / peds.2005 - 1381 16651301 117/5/1486 耆那教徒的 N 欧拉 GL Shefer 一个 P 妍吉 D 马科维茨 l 美国妇女对人乳头瘤病毒(HPV)的认识和开始接种疫苗,2007年国家免疫调查-成人 Prev地中海 2009 05 48 5 426 31 10.1016 / j.ypmed.2008.11.010 19100762 s0091 - 7435 (08) 00626 - 9 帕斯克 海尔哥哥 罗林斯 男性参与预防人类乳头瘤病毒(HPV)行为的意图:测试风险感知态度框架 健康Commun 2016 31 2 139 49 10.1080 / 10410236.2014.940670 26098812 乔利 D 道格拉斯 公里 反疫苗阴谋论对疫苗接种意图的影响 《公共科学图书馆•综合》 2014 9 2 e89177 10.1371 / journal.pone.0089177 24586574 玉米饼- d - 13 - 38770 PMC3930676 X 马登 K 博客圈中的HPV疫苗信息:正面和负面博客如何影响与疫苗相关的风险认知、态度和行为意图 健康Commun 2012 11 27 8 829 36 10.1080 / 10410236.2012.661348 22452582 Zimet GD 罗斯伯格 Z 费雪 佤邦 佩雷斯 年代 Stupiansky 西北 信念,行为和HPV疫苗:纠正神话和错误信息 Prev地中海 2013 11 57 5 414 8 10.1016 / j.ypmed.2013.05.013 23732252 s0091 - 7435 (13) 00176 - x 布鲁尔 NT 查普曼 GB 吉本斯 外汇 杰拉德 无干扰 KD 温斯坦 ND 风险感知与健康行为之间关系的元分析:以接种疫苗为例 健康Psychol 2007 03 26 2 136 45 10.1037 / 0278 - 6133.26.2.136 17385964 2007-03487-002 梅休 一个 马林斯 TLK l 罗森塔尔 SL Zimet GD 明天 C 卡恩 晶澳 青少年HPV疫苗接种后的风险认知和随后的性行为 儿科 2014 03 133 3. 404 11 10.1542 / peds.2013 - 2822 24488747 peds.2013 - 2822 PMC3934341 van der Pligt J 风险感知和自我保护行为 欧洲的心理学家 1996 01 1 1 34 43 10.1027 / 1016 - 9040.1.1.34 温斯坦 ND Kwitel 一个 无干扰 KD Magnan 再保险 杰拉德 吉本斯 外汇 风险认知:评估及其与流感疫苗接种的关系 健康心理学 2007 26 2 146 151 10.1037 / 0278 - 6133.26.2.146 Betsch C Renkewitz F Betsch T Ulshofer 科瑞娜 疫苗关键网站对感知疫苗接种风险的影响 健康心理杂志 2010 04 15 3. 446 55 10.1177 / 1359105309353647 20348365 15/3/446 Reagan-Steiner 年代 妍吉 D Jeyarajah J Elam-Evans LD 单例 晶澳 柯蒂斯 CR 麦克尼尔 J 马科维茨 现实世界 年代 国家、地区、州和选定地方13-17岁青少年的疫苗接种覆盖率——美国,2014年 MMWR Morb凡人Wkly代表 2015 07 31 64 29 784 92 10.15585 / mmwr.mm6429a3 26225476 mm6429a3 PMC4584833 斯坦 类风湿性关节炎 反疫苗阴谋的黄金时代 细菌 2017 12 7 4 168 170 10.18683 / germs.2017.1122 29264353 germs.2017.1122 PMC5734925 Covolo l Ceretti E Passeri C Boletti Gelatti U 在意大利的YouTube视频中,关于疫苗接种的争论是什么?内容分析 Hum Vaccin Immunother 2017 07 03 13 7 1693 1699 10.1080 / 21645515.2017.1306159 28362544 PMC5512771 C Gotsis Jordan-Marsh 社交媒体微博作为HPV疫苗接种论坛 Hum Vaccin Immunother 2013 11 9 11 2483 9 10.4161 / hv.25599 23842072 25599 PMC3981860 GJ Ewing-Nelson 麦基 l Schlitt JT Marathe 一个 阿巴斯 公里 Swarup 年代 网络社交媒体中疫苗情绪的语义网络分析 疫苗 2017 06 22 35 29 3621 3638 10.1016 / j.vaccine.2017.05.052 28554500 s0264 - 410 x (17) 30688 - 6 PMC5548132 奥尔 D Baram-Tsabari 一个 同胞 K 社交媒体作为健康相关公共辩论和讨论的平台:Facebook上的脊髓灰质炎疫苗 Isr J卫生政策决议 2016 5 34 10.1186 / s13584 - 016 - 0093 - 4 27843544 93 PMC5103590 Salathe 马塞尔 年代 利用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响 PLoS计算生物学 2011 10 7 10 e1002199 10.1371 / journal.pcbi.1002199 22022249 pcompbiol - d - 11 - 00652 PMC3192813 阿基诺 F Donzelli G 德弗朗哥 E Privitera G Lopalco PL 性格外向 一个 意大利对MMR疫苗接种的网络和公众信心 疫苗 2017 08 16 35 35pt B 4494 4498 10.1016 / j.vaccine.2017.07.029 28736200 s0264 - 410 x (17) 30937 - 4 邓恩 AG) Leask J X Mandl KD Coiera E 在社交媒体上接触人乳头瘤病毒疫苗和表达对疫苗的负面意见之间的关联:一项观察性研究 J医疗互联网服务 2015 06 10 17 6 e144 10.2196 / jmir.4343 26063290 v17i6e144 PMC4526932 Keim-Malpass J 米切尔 新兴市场 太阳 E 肯尼迪 C 使用twitter了解公众对#HPV疫苗的看法:公共卫生护士参与社会营销的机会 公共健康护士 2017 03 06 34 4 316 323 10.1111 / phn.12318 Surian D DQ 肯尼迪 G 约翰逊 Coiera E 邓恩 AG) 使用主题建模和社区检测来描述关于HPV疫苗的twitter讨论 J医疗互联网服务 2016 18 8 e232 10.2196 / jmir.6045 27573910 v18i8e232 梅西 领袖 一个 Yom-Tov E 布登兹 一个 费雪 K 克拉森 交流 应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播 J医疗互联网服务 2016 12 05 18 12 e318 10.2196 / jmir.6670 27919863 v18i12e318 PMC5168526 Bahk CY Cumming Paushter l 马多夫 信用证 汤姆森 一个 布朗斯坦 JS 公开可用的在线工具有助于实时监测疫苗对话和情绪 卫生助理(米尔伍德) 2016 02 35 2 341 7 10.1377 / hlthaff.2015.1092 26858390 35/2/341 J J 首歌 H C 利用基于机器学习的方法,利用推特数据评估人乳头瘤病毒疫苗接种情绪趋势 BMC Med通知Decis Mak 2017 07 05 17 增刊2 69 10.1186 / s12911 - 017 - 0469 - 6 28699569 10.1186 / s12911 - 017 - 0469 - 6 PMC5506590 Bessi 一个 Coletto Davidescu 遗传算法 Scala 一个 Caldarelli G Quattrociocchi W 科学vs阴谋:虚假信息时代的集体叙事 《公共科学图书馆•综合》 2015 2 23 10 2 e0118093 10.1371 / journal.pone.0118093 25706981 玉米饼- d - 14 - 35774 PMC4338055 Vosoughi 年代 罗伊 D 咸海 年代 网上真假新闻的传播 科学 2018 03 09 359 6380 1146 1151 10.1126 / science.aap9559 29590045 359/6380/1146 阿西莫格鲁 D Ozdaglar 一个 ParandehGheibi 一个 虚假信息在社交网络上的传播 arXiv 2009 2021-06-17 http://arxiv.org/abs/0906.5007 Lewandowsky 年代 埃克 英国 烹饪 J 超越错误信息:理解和应对“后真相”时代 记忆与认知应用研究杂志 2017 12 6 4 353 369 10.1016 / j.jarmac.2017.07.008 Bessi 一个 Caldarelli G 德尔Vicario Scala 一个 Quattrociocchi W (错误)信息时代内容选择的社会决定因素 2014 社会信息学国际会议 2014年11月 西班牙巴塞罗那 259 268 10.1007 / 978 - 3 - 319 - 13734 - 6 _18 Allcott H 根茨科 2016年大选中的社交媒体和假新闻 国家经济研究局 2017 2021-06-17 http://www.nber.org/papers/w23089 Dechene 爱丽丝 斯特尔 C 汉森 J 万科 米凯拉 关于真相的真相:真相效应的元分析综述 Pers Soc Psychol Rev 2010 05 14 2 238 57 10.1177 / 1088868309352251 20023210 1088868309352251 Unkelbach C SC 重复诱导真值效应的参考理论 认知 2017 03 160 110 126 10.1016 / j.cognition.2016.12.016 施瓦兹 语句的重复和真值评定 美国心理学杂志 1982 95 3. 393 407 10.2307 / 1422132 Habel Liddon N Stryker HPV疫苗:在线新闻故事的内容分析 妇女健康(Larchmt) 2009 03 18 3. 401 7 10.1089 / jwh.2008.0920 19281323 Eysenbach G 鲍威尔 J 与库 O Sa E 在万维网上为消费者评估健康信息质量的经验研究:系统回顾 《美国医学会杂志》 2002 287 20. 2691 700 12020305 jrv10005 克莱因 RJ 海恩斯 公里 在互联网上寻求消费者健康信息:最先进的状态 健康教育决议 2001 12 16 6 671 92 11780707 学习 SA Hazlett 哈里森 l 卡罗尔 JK 欧文 一个 霍文 C 医疗保健的一个新维度:对社交媒体用于健康传播的用途、好处和局限性的系统回顾 J医疗互联网服务 2013 04 23 15 4 e85燃料 10.2196 / jmir.1933 23615206 v15i4e85 PMC3636326 Dhoju 年代 主要 阶层 Ashad 公里 哈桑 N 可靠和不可靠媒体的卫生新闻差异 2019 2019年万维网大会配套论文集 2019年5月13-17日 旧金山 981 987 10.1145/3308560.3316741 Suarez-Lledo V Alvarez-Galvez J 社交媒体上健康错误信息的流行:系统审查 J医疗互联网服务 2021 01 20. 23 1 e17187 10.2196/17187 33470931 v23i1e17187 PMC7857950 Tomeny TS Vargo CJ El-Toukhy 年代 2009- 2015年推特上与自闭症相关的反疫苗信念的地理和人口统计学相关性 社会科学与医学 2017 10 191 168 175 10.1016 / j.socscimed.2017.08.041 28926775 s0277 - 9536 (17) 30522 - 1 PMC5623105 X 史密斯 保罗 里兹科夫 D 奎因 年代 Broniatowski D Dredze 研究社交媒体上的流感疫苗接种模式 2017 AAAI研讨会 2017年2月4日至5日 旧金山 R Perez-Rosas V 勒布 年代 Mihalcea R 对在线医疗视频中的错误信息进行自动检测 2019 多式联运国际会议 2019年10月 中国苏州, 235 243 10.1145/3340555.3353763 Z Z 郭进隆译 Y 利用多模态深度学习检测社交媒体上的医疗错误信息 IEEE J.生物医学。健康告知 2021 6 25 6 2193 2203 10.1109 / jbhi.2020.3037027 l R K H 对假新闻传播的因果理解 arXiv 2020 2021-06-17 https://arxiv.org/abs/2010.10580 Ruchansky N 搜索引擎优化 年代 Y CSI:假新闻检测的混合深度模型 2017 ACM信息与知识管理会议 2017年11月6日至10日 纽约 797 806 10.1145/3132847.3132877 K l 年代 D H 防御:可解释的假新闻检测 2019 第25届ACM SIGKDD知识发现与数据挖掘国际会议 2019年8月4日至8日 纽约 395 405 10.1145/3292500.3330935 亨特 R 百分之一致,皮尔森的相关性,和kappa作为测量之间的考官的可靠性 J登特保留区 1986 02 65 2 128 30. 10.1177 / 00220345860650020701 3455967 Bojanowski P 坟墓 E Joulin 一个 Mikolov T 用子词信息丰富词向量 TACL 2017 12 5 135 146 10.1162 / tacl_a_00051 Joulin 一个 坟墓 E Bojanowski P Mikolov T 高效文本分类的技巧包 2017 第十五届计算语言学协会欧洲分会会议 2017年4月3日至7日 瓦伦西亚,西班牙 427 431 10.18653 / v1 / e17 - 2068 Y 用于句子分类的卷积神经网络 2014 2014自然语言处理经验方法会议(EMNLP) 2014年10月24日至29日 卡塔尔多哈 计算语言学协会 1746 1751 10.3115 / v1 / d14 - 1181 Liaw R E Nishihara R 莫里茨 P 冈萨雷斯 J 斯托伊卡 Tune:分布式模型选择和训练的研究平台 arXiv 2018 2021-06-17 https://arxiv.org/abs/1807.05118 Kayesh H 伊斯兰教 J 基于上下文词扩展和神经网络的推文事件因果关系检测 2019 第20届并行和分布式计算、应用和技术国际会议(PDCAT) 2019年12月5日至7日 澳大利亚黄金海岸 352 357 10.1109 / pdcat46702.2019.00070 香港 l 施耐德 N Swayamdipta 年代 巴蒂亚 一个 戴尔 C 史密斯 N tweet的依赖项解析器 2014 自然语言处理经验方法会议论文集 2014年10月25日至29日 卡塔尔多哈 1001 1012 10.3115 / v1 / d14 - 1108 C 拉弗蒂 J 应用于特殊信息检索的语言模型平滑方法研究 2017 ACM SIGIR论坛 2017年7月 纽约 268 276 10.1145/3130348.3130377 伯马 G 搭配提取中的标准化互信息(逐点) 2009 GSCL论文集 2009年9月30日 德国波茨坦 31 40 T 首次亮相 l V Chaumond J Delangue C 莫伊 一个 Cistac P Rault T Louf R Funtowicz HuggingFace的变形金刚:最先进的自然语言处理 arXiv 2019 2021-06-17 https://arxiv.org/abs/1910.03771 Devlin J K Toutanova K BERT:深度双向转换器的预训练,用于语言理解 arXiv 2018 2021-06-17 https://arxiv.org/abs/1810.04805 舒伯特 E 砂光机 J Kriegel H X DBSCAN重访,重访:为什么以及应该(仍然)使用DBSCAN ACM反式。数据库系统 2017 08 24 42 3. 1 21 10.1145 / 3068335 Ankerst Breunig Kriegel H 砂光机 J 光学:排序点来识别聚类结构 SIGMOD矩形 1999 06 28 2 49 60 10.1145/304182.304187 麦克因尼斯 l 希利 J Astels 年代 hdbscan:基于层次密度的聚类 2017 03 2 11 205 10.21105 / joss.00205 下巴 J 下巴 C : R B 施瓦兹 一个 建立患者驱动的人乳头瘤病毒(HPV)疫苗风险词典 2018 医疗决策学会第四十届年会 2018年10月13日至17日 加拿大蒙特利尔 10.5005 / jp /书/ 10027 _10 史密斯 C Stavri P 刘易斯 D Eysenbach G Kukafka R Stavri P Jimison H 消费者健康词汇 消费者健康信息学:告知消费者和改善医疗保健 2005 纽约州纽约 施普林格 122 128 QT 谢霆锋 T 探索和发展消费者健康词汇 美国医学信息协会 2006 13 1 24 9 10.1197 / jamia.M1761 16221948 M1761 PMC1380193 Z 我不理解你,但我相信你:使用计算机辅助文本分析来检查医学术语的使用和疫苗在线文章的参与度 卫生保健传播杂志 2020 05 21 14 1 61 67 10.1080 / 17538068.2020.1755137 J W 棕褐色 P W Y 英国宇航系统公司 一个 传播规模和结构病毒式传播:信息和网络特征对推特上传播健康信息的影响 计算人类行为 2018 12 89 111 120 10.1016 / j.chb.2018.07.039 32288177 s0747 - 5632 (18) 30361 - 3 PMC7127591 Gerend 牧羊人 使用信息框架促进接受人乳头瘤病毒疫苗 健康Psychol 2007 11 26 6 745 52 10.1037 / 0278 - 6133.26.6.745 18020847 2007-16656-013 奥基夫 DJ X 促进疫苗接种的得失框架信息的相对说服力:一项荟萃分析综述 健康Commun 2012 27 8 776 83 10.1080 / 10410236.2011.640974 22292904 Weissenbacher D 衬衣 一个 保罗 Gonzalez-Hernandez G 第三种社交媒体健康挖掘(SMM4H)共享任务概述 计算语言学协会 2018 2018 EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会&共享任务 2018年10月 比利时布鲁塞尔 10.18653 / v1 / w18 - 5904 Ghenai 一个 Mejova Y 假的治疗 Proc. ACM hum .-计算。交互 2018 11 美国计算机学会人机交互论文集 2018 纽约 1 20. 10.1145 / 3274327 Z J Y J 利用微博上矛盾的社会观点进行新闻验证 2016 AAAI人工智能会议论文集 2016年2月12日至17日 亚利桑那州菲尼克斯 Y W F J B J 基于强化学习的假新闻检测监管不力 AAAI 2020 04 03 2020年AAAI人工智能会议记录 2月7 纽约 516 523 10.1609 / aaai.v34i01.5389 Y C GCAN:用于社交媒体上可解释假新闻检测的图形感知共同关注网络 2020 计算语言学协会第58届年会论文集 2020年7月6日至8日 在线 505 514 10.18653 / v1/2020.acl-main.48 Joshi 一个 X 卡里 年代 火花 R 巴黎 C 麦金太尔 C 注射与否:NLP方法用于疫苗接种行为检测的比较 2018 2018年EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会和共享任务 2018年10月31日 比利时布鲁塞尔 10.18653 / v1 / w18 - 5911 W 萤石 K Schutze H 自然语言处理中CNN与RNN的比较研究 arXiv 2017 2021-06-17 https://arxiv.org/abs/1702.01923 Joskowicz l Ksiezyck T Grishman R 语篇分析的深层域模型 1989 政府人工智能系统年度会议 1989年3月27日至31日 华盛顿特区 195 10.1109 / aisig.1989.47325 卡普兰 RM Berry-Rogghe G 基于知识的文本因果关系习得 知识获取 1991 9 3. 3. 317 337 10.1016 / 1042 - 8143 (91) 90009 - c Girju R 自动检测因果关系的问题回答 2003 ACL多语言总结和问答研讨会 2003年7月 日本札幌 76 83 10.3115/1119312.1119322 Hassanzadeh O Bhattacharjya D Feblowitz K Perrone Sohrabi 年代 卡茨 通过大规模文本挖掘回答二元因果问题:使用人类专家的因果对进行评估 第28届人工智能国际联合会议论文集(IJCAI-19) 2019 5003 5009 10.24963 / ijcai.2019/695 C Pleiss G 太阳 Y 温伯格 K 论现代神经网络的标定 2017 第34届国际机器学习会议 2017年8月6日至11日 澳大利亚悉尼 1321 1330 l Morstatter F Carley 公里 H 社交媒体中的错误信息:定义、操纵和检测 SIGKDD空洞。Newsl 2019 11 26 21 2 80 90 10.1145/3373464.3373475 Acker 一个 数据处理:对社交媒体元数据的操作 数据与社会研究所 2018 2021-06-16 https://datasociety.net/wp-content/uploads/2018/11/DS_Data_Craft_Manipulation_of_Social_Media_Metadata.pdf
Baidu
map