卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v23i9e30451

34499043

10.2196/30451

原始论文

从Twitter上识别虚假的人乳头瘤病毒(HPV)疫苗信息和相应的风险感知:先进的预测模型

Eysenbach

冈瑟

Rajkamal

黄

蒂娜

张照片

混乱关系

女士 1

https://orcid.org/0000-0001-7199-3132

莫拉莱斯

亚历克斯

博士学位 2

https://orcid.org/0000-0002-1236-6822

Lourentzou

Ismini

博士学位 3.

https://orcid.org/0000-0002-1238-772X

瑞秋

医学博士 4

https://orcid.org/0000-0002-6285-3311

刘

必应

博士学位 5

https://orcid.org/0000-0002-4096-6980

施瓦兹

艾伦

博士学位 6

https://orcid.org/0000-0003-3809-6637

下巴

杰西

博士学位 1

信息科学学院伊利诺伊大学香槟分校

501 E丹尼尔街

香槟，伊利诺伊州，61820

美国 1 217 333 0125 chin5@illinois.edu

https://orcid.org/0000-0002-2878-8544

1 信息科学学院伊利诺伊大学香槟分校

香槟,

美国 2 计算机科学系伊利诺伊大学香槟分校

乌尔班纳,

美国 3. 计算机科学系弗吉尼亚理工大学和州立大学

弗吉尼亚州布莱克斯堡

美国 4 医学院伊利诺伊大学芝加哥分校

芝加哥,

美国 5 计算机科学系伊利诺伊大学芝加哥分校

芝加哥,

美国 6 医学教育系伊利诺伊大学芝加哥分校

芝加哥,

美国 7 伊利诺斯州癌症中心伊利诺伊大学香槟分校

乌尔班纳,

美国

通讯作者:Jessie Chin chin5@illinois.edu

9 2021

9 9 2021

23 9

e30451

14 5 2021 8 6 2021 4 8 2021

©Tre Tomaszewski, Alex Morales, Ismini Lourentzou, Rachel Caskey, Bing Liu, Alan Schwartz, Jessie Chin。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2021年9月9日。

2021

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

人类乳头瘤病毒(HPV)疫苗的接种率仍然很低，尽管HPV疫苗的有效性已经确立了十多年。疫苗犹豫的部分原因是社交媒体上关于HPV疫苗的虚假信息。打击虚假的HPV疫苗信息是解决疫苗犹豫的合理步骤。

客观的

鉴于虚假HPV疫苗信息的巨大危害，迫切需要在虚假社交媒体信息传播之前识别出来。这项研究的目标是开发一种系统和可推广的方法来识别社交媒体上的虚假HPV疫苗信息。

方法

本研究利用机器学习和自然语言处理开发了一系列分类模型和因果关系挖掘方法，以识别和检查Twitter上与HPV疫苗相关的真假信息。

结果

我们发现卷积神经网络模型在识别包含虚假HPV疫苗相关信息的推文方面优于所有其他模型( F分数= 91.95)。我们还开发了完全无监督的因果关系挖掘模型，以确定HPV疫苗的候选效果，以捕捉HPV疫苗的风险感知。此外，我们发现虚假信息包含的损失框架信息主要关注疫苗的潜在风险，涉及多种主题，使用更多样化的词汇;而真实信息包含的收益和损失框架信息，关注疫苗的有效性，涉及较少的主题，使用相对有限的词汇。

结论

我们的研究证明了使用预测模型识别社交媒体上虚假HPV疫苗信息及其风险认知的可行性和有效性。

错误信息虚假信息社交媒体人乳头状瘤病毒人乳头瘤病毒疫苗疫苗接种因果关系挖掘导致效果风险感知疫苗感知风险推特机器学习自然语言处理子宫颈癌

简介

每年约有13,000名妇女新诊断为侵袭性子宫颈癌，而超过4,000名妇女死于该疾病[ 1］．子宫颈癌是由某些类型的人乳头瘤病毒(HPV)引起的[ 2， 3.］．HPV是美国最常见的性传播感染，在14至44岁的人群中，每年估计有620万新感染[ 4- 6］．除宫颈癌外，HPV还是多种头颈癌、生殖器癌和肛门癌的致病媒介[ 7- 9］．在美国，hpv相关癌症的总体负担一直在增加[ 9］．预防人乳头瘤病毒比大多数性传播感染更具挑战性，因为避孕套并不能完全预防感染[ 10］．因此，通过接种疫苗进行预防对于减少这种无处不在的感染所造成的癌症负担至关重要。

普遍建议所有青少年接种人乳头瘤病毒疫苗[ 10］．尽管在预防由目标HPV类型引起的癌前病变方面具有非凡的功效(高达90%的保护)[ 11- 13]，在美国，只有56.8%的13至17岁女性和51.8%的13至17岁男性完成了HPV疫苗系列[ 14］．HPV疫苗接种有许多已知的障碍，包括对HPV疫苗副作用和不良事件的误解，对疫苗必要性的误解，从卫生保健人员那里得到的建议不一致，完成疫苗接种的费用，诊所的机会有限，以及对文化信仰的侵犯[ 15- 21］．在这些障碍中，风险认知的偏差不仅与疫苗接种意愿低有关[ 22- 25]也与实际的疫苗接种行为有关[ 16， 22， 26- 30.］．全国免疫调查显示，父母对HPV疫苗的三大担忧是缺乏知识、疫苗的感知有用性低(HPV感染的感知风险低)、以及对副作用和安全问题的感知风险高[ 31]，强调了在HPV疫苗接种决策中风险认识的重要性。

社交媒体已成为人们交流疫苗相关观点、形成对疫苗态度的重要信息来源[ 32- 38］．它的影响是惊人的，特别是对Twitter疫苗信息，因为Twitter上与HPV疫苗相关的意见与实际疫苗接受度和覆盖率有关[ 39］．现有的研究调查了关于HPV疫苗的新主题和公众对支持和反对疫苗的在线讨论的态度[ 19， 24， 40- 44］．虽然已经确定了围绕HPV疫苗的多个虚假阴谋和神话，但没有研究使用自动计算方法来提取HPV疫苗错误信息传播中使用的主要疫苗接种论点的因果线索。研究表明，无论是内容质量、科学稳健性，还是信息的真实性，都无法证明信息的传播，而虚假或未经证实的信息有时比真实信息更具病毒性[ 45， 46］．随着人们对社交媒体上虚假信息传播的关注激增[ 45， 47- 50]，一种自动、系统和可推广的方法来检测社会认可的虚假健康信息仍有待研究。虚假信息的威胁是至关重要的，因为对虚假信息的依赖(即感知准确性)会随着每次接触虚假信息而放大，并通过社交网络进一步放大[ 51- 53］．由于人们缺乏健康知识，缺乏可信度判断能力，尽管引用了来源，但健康新闻的质量参差不齐，因此用户生成的虚假健康信息的泛滥尤其会使人们受害。[ 54- 56］．因此，在虚假健康信息传播之前检测虚假健康信息是最大限度减少虚假信息威胁的重要一步[ 57］．

有几部作品针对健康方面的不实信息[ 58， 59］，大多数研究使用描述性方法来研究已知的健康错误信息，并进行分析以揭示常见的错误观念、人口和地理模式以及社交媒体用户行为[ 25， 60， 61］．一些研究已经实现了计算模型，以识别来自其他社交媒体平台(如YouTube和Instagram)的健康错误信息;然而，他们中没有人试图从短且有时不完整的文本信息中识别健康错误信息，例如推文[ 62， 63］．与其他相关工作相比，我们将用于识别虚假HPV疫苗信息的分类模型与无监督的因果关系挖掘结合起来，以根据Twitter消息中表达的内容提取被认为是HPV抗疫苗健康担忧的归因原因的风险感知。为此，我们进行了一项信息流行病学研究，使用自然语言处理和机器学习方法，如分类、聚类、依赖分析和短语挖掘，来识别那些经常出现在社交媒体上的虚假HPV疫苗接种论点。我们的方法分析可以应用于其他领域，如COVID-19疫苗接种、食品安全和政治，以提取关于在线分享的真实和误导性声明之间的异同的有见解的信息。

方法

我们收集了2013年12月至2017年12月发布的与HPV疫苗相关的推文语料库。我们使用了以前已知的Crimson Hexagon(现为Brandwatch)的社交媒体分析应用程序编程界面和HPV相关搜索词列表，包括但不限于“HPV疫苗”、“乳头瘤病毒疫苗”、“宫颈癌疫苗”、“HPV疫苗”、“宫颈癌疫苗”和“加德西”。我们的建模管道由几个步骤组成:采样、注释和数据预处理、训练和分析(参见图1)．数据预处理阶段包括基于规则的词汇归一化和无监督的词嵌入预训练。

图1

因果关系挖掘数据收集和建模管道。

首先，我们每年随机抽取1000条推文，并在两轮中将它们传递给2名注释者。两名批注员都接受过关于HPV疫苗的基本培训(包括广泛阅读国家癌症研究所、疾病控制和预防中心以及美国癌症协会提供的经过验证的HPV疫苗相关材料)，其中1名批注员接受过正规的医学教育培训。与错误信息检测的相关工作类似[ 64- 66]，我们将任务构建为二元分类，其中每条推文都被分类为真信息或假信息(其中假信息包括部分假信息或部分真信息)。因此，我们不仅要求注释者判断每条推文的内容的真实性，还允许他们选择一个额外的选项作为“不适用”，对于不属于这两类中的任何一类的推文(例如，固执己见的文本和其他非事实或无关的帖子)。标记为不适用的tweet将从注释管道中过滤掉。通过讨论，两个注释者的评分有任何差异。对于评分者之间的可靠性，科恩的kappa系数(κ)为0.75，被认为是对任务的良好一致[ 67］．结果数据集由5000条有标记的推文和702,858条无标记的推文组成。推文的字符长度，包括所有提及、转发和标签，从21到826个字符不等。

为了减少词汇规范化步骤的词汇量，将单词格式化为小写，并删除url;数字和twitter特定的项目，如用户提及(用户名前缀为“@”)或转发，被标记并映射到每个类别的公共特殊令牌(即，分别为NUMBER, MENTION, RT)。一些缩略词被替换为它们的规范形式:例如，“Can't”被替换为“Cannot”，“You'll”被替换为“You will”，“&”被替换为“and”，等等。此外，连字符和正斜杠被替换为空格，字母数字配对被处理，2个或2个以上的用户提到的实例被减少到2个“MENTION”标记，标签引号和其他类型的标点符号被删除，多个前导或尾随空格被替换为一个空格。这个过程减少了每条推文的长度，可以在18到295个字符之间。

基于训练集的最终词汇量为4098个词汇(其中1个词汇表示空白)。根据频率优势比(即每个类别中出现的比例)加权的术语分析显示，某些术语在真实类别中代表过多，但在虚假类别中很少出现，例如，强烈表明HPV疫苗预防癌症有效性的词汇在网上传播，如“预防”、“保护”和“有效”。另一方面，虚假信息包含“危险”、“不利”和“致命”等术语，并更多地关注用于接种疫苗的负面因果影响。

结果分类模型

词嵌入将离散的词标记映射到实值向量表示，其中语义相似的词具有相似的向量，因此在嵌入空间中更接近。一般来说，这种词嵌入的预训练已经被发现对一些自然语言处理任务是有益的，允许更快的模型收敛和任务性能改进。因此，我们训练了一个无监督嵌入模型FastText [ 68]，用我们完整的Twitter集合作为训练数据，并进行上述预处理。与其他单词表示模型相比，FastText可以为词汇表外的单词生成单词向量，并已被证明是短文本相似性的强大基线，其开源实现允许更快的训练[ 69］．更具体地说，FastText为词汇表中的每个术语生成300维向量表示，用作模型嵌入层的初始化。我们还实验了维基百科预训练的嵌入和没有任何预训练的嵌入:我们的实验表明，当使用hpv相关的预训练单词嵌入初始化时，模型在准确性方面表现得更好。

最后，我们将标注的数据分为60%的训练，20%的验证和20%的测试，在所有模型中保持相同的分割，以进行公平的比较。在每个集合中精确匹配的推文重复数据删除后，总共剩下3661条推文(2142条用于训练，758条用于验证，761条用于测试集)。我们尝试了几种模型架构，包括卷积神经网络(CNN) [ 70]，双向长短期记忆(BiLSTM)，传统模型，包括支持向量机和朴素贝叶斯。我们用交叉熵训练，用10的自适应矩估计⁴学习率，衰减0.01，神经模型的批处理大小为32。超参数调优使用Tune库[ 71］．在表1，我们报告了前5个执行模型变化的平均值和SD。我们的实验评估表明，cnn的表现比其他模型更好(见图2而且 3.对于各自的混淆矩阵和接收机工作特征曲线下的区域神经网络之间的比较)。在这两个神经网络中表现最好的前5个模型中，CNN比BiLSTM需要更少的训练时间。CNN的平均每epoch训练时间为11.5 ms(标准差1.09，最小值16，最大值16，中位数12)，而BiLSTM的平均每epoch训练时间为51.3 ms(标准差34.07，最小值14，最大值88，中位数81)。我们表现最好的CNN模型有256个卷积滤波器，包括-3个宽度的核(3,4和5)，并校正线性单元非线性;最大池化层，128个单元的全连接层，具有整流线性单元激活和0.1 dropout，以及产生分类预测的最终软最大输出层。

表1

人乳头瘤病毒疫苗虚假信息识别:分类模型比较。

模型	精度	精度	回忆	F分数
支持向量机^一个,意思是	57.424	57.806	56.721	55.532
朴素贝叶斯	51.774	52.485	52.301	51.090
美国有线电视新闻网^b，平均值(SD)	91.958 (0.269)	91.953 (0.272)	91.946 (0.271)	91.946 (0.270)^c
BiLSTM^d，平均值(SD)	91.643 (0.432)	91.710 (0.396)	91.574 (0.453)	91.618 (0.438)

^一个支持向量机:支持向量机。

^bCNN:卷积神经网络。

^c斜体表示最高 F得分在表格中。

^cBiLSTM:双向长短期存储器。

图2

混淆矩阵的最佳表现CNN模型。BiLSTM:双向长短期存储器;CNN:卷积神经网络。

图3

ROC为最佳性能的卷积神经网络和双向长短期记忆模型。AUC:曲线下面积;ROC:受试者工作特征。

因果关系挖掘

为了识别归因于HPV疫苗的风险认知，我们首先将分类器应用于一组291,037条推文，从中我们能够将124,031条标记为虚假推文，将167,006条标记为真实推文。使用由Kayesh等人推导出的因果术语字典[ 72]对于Twitter因果关系检测，我们筛选了包含至少1个这些术语的推文，如果分类置信度至少为0.998，则将推文分类为虚假信息，因为这保持了我们的分类器的高保真度。因此，总共有9352条tweet被用于因果关系挖掘过程( 表2)．然后，我们使用一个依赖解析器来标记和合并多词表达式[ 73］．由于推文可以有多个话语(即独立的句子或片段)，我们保留了与因果线索一起出现的名词短语，而不管它们是否与因果线索有依赖关系，这与Kayesh等人的研究相反[ 72］．候选因果短语是一组与推文相关的术语，其中包含因果线索，并包含候选效应短语。

表2

应用多个筛选器后的消息数。

模型	假	真正的	总计
无过滤器，n	124031年	167006年	291037年
+置信阈值，n (%)	72172 (58.19)	105166 (62.97)	177338 (60.93)
+包含因果提示，n (%)	3667 (2.96)	5685 (3.40)	9352 (3.21)

然后，我们可以计算因果集的逐点互信息(PMI) C= { c₁、…… c_米 }和效果集 E= { e₁、…… e_米其中，候选因果短语c_我效果短语e_j，是包含术语的集合 w_c ∈ V _c而且 w_e∈ V_e ,分别。在这里, V _c 术语、名词短语和多词表达式的集合是否来自推文中的候选因果短语(不包括最低频率为1的术语，并删除停止词)和 V_e 是由候选效果短语派生出来的词汇。

计算术语的PMI w_e ∈ e_j 而且 w_c ∈ c_我我们有,

我们可以应用拉普拉斯平滑来确保概率分布是非零[ 74]，可以计算归一化逐点互信息(NPMI) [ 75]如下:

NPMI的取值范围为-1到1，其中-1表示两项从未同时出现，0表示它们相互独立，1表示完全同时出现。

崩溃候选人效果短语和排名效果

由于我们的模型是完全无监督的，并且包括转发，推文消息可能会变得非常冗余，但我们的方法可以检测到许多几乎重复的候选效果短语。为了折叠这些短语，我们使用从候选效果短语的嵌入表示中获得的语义相似性对这些术语进行聚类。特别地，我们使用HuggingFace包[ 76]从变压器模型中获得双向编码器表示的后4层的和[ 77］．为了计算词嵌入，我们在候选效果短语中对这些词嵌入取平均值，以产生嵌入向量。

基于密度的带噪声应用的空间聚类[ 78，然后对候选效果短语进行聚类。其中有两个重要参数:(1)可达性，即同一聚类中要考虑的2个“点”之间的最大距离;以及(2)被视为集群的“点”的最小数量。这里的点是指效果集的嵌入实值向量表示。我们将可达性设置为0.1，将最小点数设置为1，因为我们希望只检索语义上最相似的单词，同时保持有意义的集群。注意，除了DBSCAN，还有其他的替代方案，例如对点进行排序以识别集群结构(OPTICS) [ 79]和基于层次密度的带噪声应用程序空间聚类(HDBSCAN) [ 80]用于光谱聚类;然而，我们只需要减少查询时比较的效果数量，这意味着DBSCAN就足够了。然后，我们选择聚类核心作为每个聚类的代表来折叠效果。

为了识别与不同因果词相关的感知，我们将其制定为一个检索问题。给定一个与因果关系相关的查询问，我们使用NPMI对相关影响进行了排名。为了计算评分函数，我们使用以下方法:

这个评分函数计算查询和候选效果短语中所有术语对的平均NPMI。然后，我们可以计算一个类别的累计NPMI得分 C_一个效果短语如下:

因果关系挖掘结果

为了验证候选因果挖掘方法，我们采用了与HPV疫苗风险感知(即感知效果)有关的词汇。HPV疫苗风险词典(HPVVR)是一个面向消费者的词典，用于捕捉外行如何描述他们对HPV疫苗的风险认知(包括他们对HPV疫苗的感知危害和益处)[ 81］．HPVVR的研制分为两个阶段。第一阶段涉及采用来自国土安全部风险词汇、MedlinePlus消费者健康主题词汇和消费者健康词汇(统一医学语言系统)的风险表达和hpv疫苗相关面向消费者的词汇[ 82， 83］．第二阶段是由2名训练有素的注释人员根据用户生成的内容(来自2013年至2018年随机采样的用户生成内容，包括Twitter和Facebook)提取关于风险感知描述的外行语言(评分者间可靠性:Cohen’s kappa系数(κ)=0.80)。HPVVR涵盖了29类风险感知相关词汇的200多个术语或短语。

这个黄金标准的效果列表， G，然后与效果集进行匹配 E．特别地，我们定义了部分匹配，如果ground truth效应短语中的某些项与某些候选效应短语(即， G∩e≠Ø)．例如，我们从数据中挖掘出了“预防喉癌”，这与HPVVR中的“预防宫颈癌”部分匹配。还有另外两种部分匹配。如果候选效应短语是ground truth效应短语的一个更具体的例子，我们将匹配定义为合适的， g∈g．例如，我们从数据中挖掘了“早发性绝经”，这与HPVVR中的“绝经”是一个适当的匹配。如果候选效应短语是基本事实效应短语的更一般形式，我们就认为存在反向匹配， E⊆g．例如，我们从数据中挖掘出“疲劳”，这与HPVVR中的“极度疲劳”相反。在136个ground-truth效应短语中，我们发现55个(40.4%)匹配，78个(57.4%)部分匹配，48个(35.3%)反向匹配，103个(75.7%)部分或正确匹配或两者都匹配。同时，也有一些候选效果短语是新发现的效果。

由于因果关系挖掘方法是一种完全自下而上、无监督的方法，我们可以自动挖掘任何一组推文的候选效果。特别是，对于预测的虚假推文，最大的候选效应集群之一包含了与不同实体的反应有关的术语，如“日本”、“丹麦”和“大学”，关于HPV疫苗的潜在问题，如“召回”、“失去支持”和“禁止”。另一个这样的群集包含与不孕症有关的术语，如“卵巢早衰”和“年轻女孩更年期提前”。另一个大型候选效应聚类是关于严重不良事件和并发症的误解，如“猝死”、“瘫痪”和“中风”。请注意，有些候选效果短语可能与健康影响没有直接关系。因此，为了在进一步的分析中减轻这种限制，我们将影响限制在基本真理中的项(即， V_e ＝ G）．

讨论主要结果

本研究中使用的CNN和BiLSTM模型的性能表明，使用推文文本识别关于HPV疫苗的错误信息与事实信息的可行性。平均而言，这两个模型对任何一类的预测都有很高的可信度。尽管在测试过程中，这两个模型在准确性(和置信度)方面表现几乎相同，但CNN的训练比BiLSTM模型更方便，这导致它被选为首选模型。

为了检查与HPV疫苗相关的风险认知，我们利用了虚假信息分类器和效果排序器。图4显示了应用“HPV疫苗”和“加德西”效果排名查询后的累计NPMI分数。我们可以围绕HPV疫苗的成本和收益对这些看法进行分类。总的来说，人们讨论了真实的HPV疫苗推文的好处或低风险的伤害，以及虚假的HPV疫苗推文的各种不良事件。在真正的HPV疫苗推文中，与HPV疫苗相关的主要效果是预防HPV感染相关的癌症，并否认接种疫苗的青少年无保护的性行为增加的风险。在虚假的HPV疫苗推文中，与HPV疫苗相关的主要影响是与不孕症相关的疾病(如卵巢损伤)、儿童发育障碍、死亡和HPV疫苗中的有毒成分。在我们之前关于患者驱动的HPVVR的工作之后，因果关系挖掘的发现帮助我们确定了与HPV疫苗相关的主要问题，然后可以优先考虑解决方案。

结果表明，与真实信息中较少的主题和相对有限的术语相比，虚假HPV疫苗信息不仅在风险感知方面涵盖了广泛的主题，而且涉及了更多样化的词汇来描述这些主题。在关于反疫苗和prov疫苗文献的类似工作中，也注意到这种虚假或误导性信息中基于医学的术语频率和主题多样性的现象[ 84］．对这种差异的一种可能的解释是，真实的信息需要有证据的共识，从而将术语和结果限制在用于描述这些主题的特定选择或短语中。虚假信息缺乏对术语或结果的限制，往往使用叙事语言或提及新奇的话题来衡量注意力[ 46， 85］．

通过因果关系挖掘，我们还观察到了真实和虚假HPV疫苗信息的信息框架的差异图4)．真实的信息包含收益框架和损失框架信息，特别是那些强调疫苗在预防HPV相关癌症方面的有效性，HPV感染与癌症之间的联系，以及否定疫苗的潜在危害，如无忧无虑或无保护的性行为( 图4)．相反，虚假信息主要是损失框架，关注据称由疫苗引起的负面结果，例如导致hpv相关癌症或其他严重不良事件(不孕、神经障碍或死亡; 图4)．使用表示风险的使役动词(例如，疫苗是“预防”，而疫苗是“伤害”或“导致”，等等)可能是区分真实和虚假信息的诊断性的。未来的研究应利用先前关于信息框架有效性的研究结果，以检验不同框架下的错误信息的影响[ 86， 87］．

图4

查询“HPV疫苗”和“Gardasil”时的累计NMPI评分。条形宽度中的部分对应于每个类别的效应项的NPMI贡献。人乳头瘤病毒;NPMI:归一化点互信息。

与之前工作的比较

与健康相关的错误信息研究涵盖了广泛的学科[ 58， 59]，其中几项研究侧重于不同的医学领域，如癌症、性传播疾病和感染、流感，以及最近的COVID-19 [ 25， 60， 61］．在疫苗相关领域，几篇论文研究了疫苗行为，以及社交媒体上反疫苗和虚假信息推文传播的地理和人口模式，与自闭症谱系障碍有关[ 60]、流感疫苗[ 88]，以及癌症治疗[ 89］．一些研究努力解决了一些关键问题，比如用额外的弱社会监督信号缓解标签稀缺，用注意机制改善难以处理的问题，以及利用网络和群体或用户信息[ 65， 90- 92］．一般来说，疫苗犹豫识别与疫苗接种行为检测的区别在于，前者涉及一种态度或立场，而后者涉及检测接种疫苗的行为[ 93］．我们的研究更类似于疫苗犹豫的研究，但不同之处在于，我们专注于通过检查风险感知从推特中提取因果关系;HPV疫苗相关的健康问题或预期收益的可归因原因;并使用自然语言处理、机器学习和无监督因果挖掘技术。

我们观察到，具有多个滤波器尺寸的卷积模型[ 70， 94]比BiLSTM模型对短文本域(如推文)的效果更好。直观地说，CNN体系结构捕获最常见的n-gram(长度为3、4和5)，因此更善于发现短文本中的判别文本模式。虽然我们测试了更复杂的BiLSTM架构，但总的来说，CNN模型比其他模型变体表现得更好，并且训练速度更快。这些发现对于社交媒体健康相关的分析是有用的，特别是关于该领域的从业者应该探索社交媒体文本分类的一组模型。

关于因果关系挖掘，早期的工作使用手工编码的特定领域知识库[ 95， 96］．确定因果关系的一个挑战是通过不同的语言结构观察因果关系的各种方式。先前的研究[ 97]表明分类器可以确定从预定义的语言模式<名词短语-动词-名词短语>的形式中自动提取的因果关系表达式是否为因果关系。然而，监督方法需要大量手工注释的原因和结果，因此需要大量资源。最近的工作比较了用于因果关系挖掘的无监督方法，包括共现方法(如按点互信息)和基于话语线索的方法(基于信息检索技术)，以计算因果查询中的匹配数量[ 98］．这样的比较是在大规模的文档集合上进行的，因此他们的见解不适用于我们的任务，相比之下，数据量有限。最后，推文中的事件因果关系检测将因果关系挖掘限制在某些感兴趣的事件上。“基于上下文词扩展和神经网络的推文事件因果关系检测”[ 72]，作者提出了一种对候选因果短语和候选效应短语进行编码的方法，用于开发前馈网络分类器。我们的方法不局限于某些事件。最重要的是，我们关注与HPV疫苗有关的健康相关信息，这一方法可以推广到其他健康主题。

限制

在应用监督学习方法时，一个常见的瓶颈是需要大量高质量的标注数据进行训练。由于手头任务的复杂性质，以及需要大量的手工工作，我们的数据集大小可能在提供跨其他领域和数据源泛化的见解方面受到限制。此外，由于在非正式的用户生成的语言中发现了频繁的语言变化，用词紧密的实例可能避免了重复数据删除。在未来，我们希望通过结合弱监督方法和去噪机制来解决可用标记数据的短缺问题。尽管如此，我们选择继续使用监督学习以获得更高的精度，因为弱监督可能会导致标签噪声被注入到虚假信息检测模型中，从而影响后续的因果关系挖掘步骤。

另一个限制源于模型置信度和准确性的不一致。换句话说，模型置信度可能并不代表模型的正确性，这是机器学习研究社区中众所周知的问题[ 99］．在我们的实验中，我们观察到BiLSTM模型对大多数假阴性产生了高置信度的估计(即，在预测事实文本时，它错位了更多的置信度)，而CNN模型对高置信度的例子有相同数量的假阳性和假阴性。CNN的错误预测中约有20%的可信度较低。总的来说，BiLSTM模型似乎在一个方向上过于自信，可能会被更好地校准。需要对这些高置信度的不准确预测进行进一步分析，以发现可解释的模式，以识别与事实对应部分具有强烈相似性的错误信息子主题和语句。

最后，我们应该注意到，任何额外元数据的使用都需要谨慎，特别是对于用户添加的信息，例如用户配置文件特征，以及报告的时间戳和社交网络链接，因为最近的研究表明，错误信息传播者不仅倾向于通过组建群体来操纵社交网络结构，以增加影响力[[ One hundred.]，还有几种元数据[ 101］．在这项研究中，我们没有使用这些类型的额外数据源，因此我们只能解释基于内容的结果，而不能沿着文本中发现的关系之外的任何其他维度解释。

结论

这项研究展示了一种系统的、自动的方法来开发计算模型，以识别虚假的HPV疫苗相关信息及其在社交媒体上的相关影响。这种方法可以推广到其他社交媒体健康信息，并为估计给定健康主题的潜在影响提供见解。

缩写

BiLSTM

双向长短期记忆

美国有线电视新闻网

卷积神经网络

DBSCAN

基于密度的有噪声应用的空间聚类

HDBSCAN

基于分层密度的带噪声应用的空间聚类

人乳头状瘤病毒

人类乳头状瘤病毒

HPVVR

hpv疫苗风险词典

NPMI

归一化点互信息

光学

对点排序以识别聚类结构

采购经理人指数

点互信息

我们感谢Chieh-Li (Julian) Chin和Wen-Yuh Su在本研究数据收集和准备方面的协助。我们也感谢伊利诺伊大学香槟分校的技术服务和癌症中心对我们研究的支持。这项研究得到了美国国立卫生研究院(#1R21CA237483)的资助。本出版物中表达的任何意见、发现、结论或建议都是作者的观点，并不一定反映美国国立卫生研究院的观点。

没有宣布。

西格尔

米勒

Jemal

一个

2019年癌症统计数据

癌症临床 2019 01 08 69 1 7 34

10.3322 / caac.21551

Schiffman

鲍尔

嗯

胡佛

玻璃

AG)

卡德尔

冲

斯科特

博士

谢尔曼

我

Kurman

Wacholder

年代

流行病学证据表明，人乳头瘤病毒感染引起大多数宫颈上皮内瘤变

中华泌尿外科肿瘤研究所 1993 06 16 85 12 958 64

10.1093 / jnci / 85.12.958

8388478

博世

外汇

诺斯

毫米

穆尼奥斯

谢尔曼

米

詹森

我

皮托

Schiffman

莫雷诺

Kurman

沙阿

人乳头瘤病毒在宫颈癌中的流行:全球视角。国际宫颈癌生物学研究(IBSCC)研究组

中华泌尿外科肿瘤研究所 1995 06 07 87 11 796 802

7791229

邓恩

英孚

昂格尔

呃

斯特恩伯格

米

McQuillan

天鹅

直流

帕特尔

党卫军

马科维茨

勒

美国女性中HPV感染的流行率

《美国医学会杂志》 2007 02 28 297 8 813 9

10.1001 / jama.297.8.813

17327523

297/8/813

迈尔斯

呃

麦克罗里

直流

南达

巴斯蒂安·

Matchar

人乳头瘤病毒感染和宫颈癌发生的自然史的数学模型

Am J流行病 2000 06 15 151 12 1158 71

10.1093 / oxfordjournals.aje.a010166

10905528

魏因斯托克

伯曼

年代

盖茨

美国青年中的性传播疾病:发病率和流行率估计，2000年

展望性与生殖健康 2004 36 1 6 10

10.1363 / psrh.36.6.04

14982671

36604

14982671

莫克

谎言

正义与发展党

Glattre

Hallmans

Jellum

Koskela

Mø噢

Pukkala

席勒

青年汽车

Lehtinen

米

Dillner

人乳头瘤病毒感染是头颈部鳞状细胞癌的危险因素

N英语J医学 2001 04 12 344 15 1125 31

10.1056 / NEJM200104123441503

11297703

沃森

米

Saraiya

米

艾哈迈德

Cardinez

Reichman

我

堰

香港

理查兹

结核病

使用基于人群的癌症登记数据评估美国人乳头瘤病毒相关癌症的负担:方法概述

癌症 2008 11 15 113 10 5 2841 54

10.1002 / cncr.23758

18980203

来吧

亨利

沃森

米

马科维茨

勒

托马斯。

汤普森

道明

Razzaghi

Saraiya

米

人乳头瘤病毒相关癌症-美国，2008-2012

MMWR Morb凡人Wkly代表 2016 07 08 65 26 661 6

10.15585 / mmwr.mm6526a1

27387669

HPV疫苗时间表和剂量

疾病控制和预防中心 2021-06-17

https://www.cdc.gov/hpv/hcp/schedules-recommendations.html

加兰

·卡亚尔:

穆尼奥斯

努比亚

块

棕色（的）

博士

DiNubile

乔丹

林赛

库特

佩雷斯

Dominiak-Felden

Saah

特鲁里街

达斯

软颚顶的

四价人乳头瘤病毒疫苗的影响和有效性:对10年真实世界经验的系统回顾

临床感染病 2016 08 15 63 4 519 27

10.1093 / cid / ciw354

27230391

ciw354

PMC4967609

别墅

噢

科斯塔

RLR

Petta

安德雷德

奥尔特

卡

朱利亚诺

基于“增大化现实”技术

惠勒

厘米

Koutsky

拉

白垩土

Lehtinen

米

Skjeldestad

菲

奥尔森

年代

Steinwall

米

棕色（的）

博士

Kurman

Ronnett

偷了

Ferenczy

一个

哈珀

塔姆

通用汽车

余

Lupinacci

Railkar

Taddeo

詹森

艾瑟

太

唱

霍奇金淋巴瘤

Saah

巴尔

年轻女性预防性四价人乳头瘤病毒(6,11,16,18型)L1病毒样颗粒疫苗:一项随机双盲安慰剂对照多中心II期疗效试验

《柳叶刀》杂志 2005 05 6 5 271 8

10.1016 / s1470 - 2045 (05) 70101 - 7

15863374

s1470 - 2045 (05) 70101 - 7

未来II研究小组

人乳头瘤病毒四价疫苗预防宫颈高级病变

N英语J医学 2007 05 10 356 19 1915 27

10.1056 / NEJMoa061741

17494925

356/19/1915

Elam-Evans

妍吉

单例

晶澳

4格

马科维茨

勒

威廉姆斯

Fredua

麦克纳马拉

现实世界

年代

国家、地区、州和选定的地方13-17岁青少年的疫苗接种覆盖率-美国，2019年

MMWR Morb凡人Wkly代表 2020 08 21 69 33 1109 1116

10.15585 / mmwr.mm6933a1

32817598

PMC7439984

疾病预防控制中心建议青少年只注射两次HPV疫苗

疾病控制和预防中心 2016

2021-06-17

http://www.cdc.gov/media/releases/2016/p1020-hpv-shots.html

Muhwezi

Banura

Turiho

正义与发展党

Mirembe

在乌干达，父母的知识、风险认识和允许年轻男性接种人乳头瘤病毒疫苗的意愿

《公共科学图书馆•综合》 2014 9 9 e106686

10.1371 / journal.pone.0106686

25203053

玉米饼- d - 14 - 16887

PMC4159277

布鲁尔

法泽卡斯

HPV疫苗可接受性的预测因素:一项基于理论的系统综述

Prev地中海 2007 45 2 - 3 107 14

10.1016 / j.ypmed.2007.05.013

17628649

s0091 - 7435 (07) 00237 - x

纽曼

巴勒斯坦权力机构

假珠宝饰物

Doukas

仓叶

HPV疫苗在男性中的可接受性:系统回顾和荟萃分析

性传播感染 2013 11 89 7 568 74

10.1136 / sextrans - 2012 - 050980

23828943

sextrans - 2012 - 050980

PMC3812849

拉森

沪江

威尔逊

汉利

年代

一部分

一个

帕特森

追踪疫苗情绪的全球传播:全球对日本暂停HPV疫苗推荐的反应

Hum Vaccin Immunother 2014 10 9 2543 50

10.4161 / 21645515.2014.969618

25483472

PMC4977439

20.

邓普西

房颤

Zimet

戴维斯

Koutsky

与父母接受人乳头瘤病毒疫苗相关的因素:一项关于HPV书面信息的随机干预研究

儿科 2006 05 117 5 1486 93

10.1542 / peds.2005 - 1381

16651301

117/5/1486

耆那教徒的

欧拉

Shefer

一个

陆

妍吉

马科维茨

美国妇女对人乳头瘤病毒(HPV)的认识和开始接种疫苗，2007年国家免疫调查-成人

Prev地中海 2009 05 48 5 426 31

10.1016 / j.ypmed.2008.11.010

19100762

s0091 - 7435 (08) 00626 - 9

帕斯克

海尔哥哥

罗林斯

圣

男性参与预防人类乳头瘤病毒(HPV)行为的意图:测试风险感知态度框架

健康Commun 2016 31 2 139 49

10.1080 / 10410236.2014.940670

26098812

乔利

道格拉斯

公里

反疫苗阴谋论对疫苗接种意图的影响

《公共科学图书馆•综合》 2014 9 2 e89177

10.1371 / journal.pone.0089177

24586574

玉米饼- d - 13 - 38770

PMC3930676

南

马登

博客圈中的HPV疫苗信息:正面和负面博客如何影响与疫苗相关的风险认知、态度和行为意图

健康Commun 2012 11 27 8 829 36

10.1080 / 10410236.2012.661348

22452582

Zimet

罗斯伯格

费雪

佤邦

佩雷斯

年代

Stupiansky

西北

信念，行为和HPV疫苗:纠正神话和错误信息

Prev地中海 2013 11 57 5 414 8

10.1016 / j.ypmed.2013.05.013

23732252

s0091 - 7435 (13) 00176 - x

布鲁尔

查普曼

吉本斯

外汇

杰拉德

米

无干扰

温斯坦

风险感知与健康行为之间关系的元分析:以接种疫苗为例

健康Psychol 2007 03 26 2 136 45

10.1037 / 0278 - 6133.26.2.136

17385964

2007-03487-002

梅休

一个

马林斯

TLK

丁

罗森塔尔

Zimet

明天

卡恩

晶澳

青少年HPV疫苗接种后的风险认知和随后的性行为

儿科 2014 03 133 3. 404 11

10.1542 / peds.2013 - 2822

24488747

peds.2013 - 2822

PMC3934341

van der Pligt

风险感知和自我保护行为

欧洲的心理学家 1996 01 1 1 34 43

10.1027 / 1016 - 9040.1.1.34

温斯坦

Kwitel

一个

无干扰

Magnan

再保险

杰拉德

米

吉本斯

外汇

风险认知:评估及其与流感疫苗接种的关系

健康心理学 2007 26 2 146 151

10.1037 / 0278 - 6133.26.2.146

30.

Betsch

Renkewitz

Betsch

Ulshofer

科瑞娜

疫苗关键网站对感知疫苗接种风险的影响

健康心理杂志 2010 04 15 3. 446 55

10.1177 / 1359105309353647

20348365

15/3/446

Reagan-Steiner

年代

妍吉

Jeyarajah

Elam-Evans

单例

晶澳

柯蒂斯

麦克尼尔

马科维茨

勒

现实世界

年代

国家、地区、州和选定地方13-17岁青少年的疫苗接种覆盖率——美国，2014年

MMWR Morb凡人Wkly代表 2015 07 31 64 29 784 92

10.15585 / mmwr.mm6429a3

26225476

mm6429a3

PMC4584833

斯坦

类风湿性关节炎

反疫苗阴谋的黄金时代

细菌 2017 12 7 4 168 170

10.18683 / germs.2017.1122

29264353

germs.2017.1122

PMC5734925

Covolo

Ceretti

Passeri

Boletti

米

Gelatti

在意大利的YouTube视频中，关于疫苗接种的争论是什么?内容分析

Hum Vaccin Immunother 2017 07 03 13 7 1693 1699

10.1080 / 21645515.2017.1306159

28362544

PMC5512771

张

Gotsis

米

Jordan-Marsh

米

社交媒体微博作为HPV疫苗接种论坛

Hum Vaccin Immunother 2013 11 9 11 2483 9

10.4161 / hv.25599

23842072

25599

PMC3981860

康

Ewing-Nelson

老

麦基

Schlitt

Marathe

一个

阿巴斯

公里

Swarup

年代

网络社交媒体中疫苗情绪的语义网络分析

疫苗 2017 06 22 35 29 3621 3638

10.1016 / j.vaccine.2017.05.052

28554500

s0264 - 410 x (17) 30688 - 6

PMC5548132

奥尔

Baram-Tsabari

一个

同胞

社交媒体作为健康相关公共辩论和讨论的平台:Facebook上的脊髓灰质炎疫苗

Isr J卫生政策决议 2016 5 34

10.1186 / s13584 - 016 - 0093 - 4

27843544

PMC5103590

Salathe

马塞尔

口

年代

利用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响

PLoS计算生物学 2011 10 7 10 e1002199

10.1371 / journal.pcbi.1002199

22022249

pcompbiol - d - 11 - 00652

PMC3192813

阿基诺

Donzelli

德弗朗哥

Privitera

Lopalco

性格外向

一个

意大利对MMR疫苗接种的网络和公众信心

疫苗 2017 08 16 35 35pt B 4494 4498

10.1016 / j.vaccine.2017.07.029

28736200

s0264 - 410 x (17) 30937 - 4

邓恩

AG)

Leask

周

Mandl

Coiera

在社交媒体上接触人乳头瘤病毒疫苗和表达对疫苗的负面意见之间的关联:一项观察性研究

J医疗互联网服务 2015 06 10 17 6 e144

10.2196 / jmir.4343

26063290

v17i6e144

PMC4526932

Keim-Malpass

米切尔

新兴市场

太阳

肯尼迪

使用twitter了解公众对#HPV疫苗的看法:公共卫生护士参与社会营销的机会

公共健康护士 2017 03 06 34 4 316 323

10.1111 / phn.12318

Surian

阮

肯尼迪

约翰逊

米

Coiera

邓恩

AG)

使用主题建模和社区检测来描述关于HPV疫苗的twitter讨论

J医疗互联网服务 2016 18 8 e232

10.2196 / jmir.6045

27573910

v18i8e232

梅西

点

领袖

一个

Yom-Tov

布登兹

一个

费雪

克拉森

交流

应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播

J医疗互联网服务 2016 12 05 18 12 e318

10.2196 / jmir.6670

27919863

v18i12e318

PMC5168526

Bahk

Cumming

米

Paushter

马多夫

信用证

汤姆森

一个

布朗斯坦

公开可用的在线工具有助于实时监测疫苗对话和情绪

卫生助理(米尔伍德) 2016 02 35 2 341 7

10.1377 / hlthaff.2015.1092

26858390

35/2/341

杜

徐

首歌

道

利用基于机器学习的方法，利用推特数据评估人乳头瘤病毒疫苗接种情绪趋势

BMC Med通知Decis Mak 2017 07 05 17 增刊2 69

10.1186 / s12911 - 017 - 0469 - 6

28699569

10.1186 / s12911 - 017 - 0469 - 6

PMC5506590

Bessi

一个

Coletto

米

Davidescu

遗传算法

Scala

一个

Caldarelli

Quattrociocchi

科学vs阴谋:虚假信息时代的集体叙事

《公共科学图书馆•综合》 2015 2 23 10 2 e0118093

10.1371 / journal.pone.0118093

25706981

玉米饼- d - 14 - 35774

PMC4338055

Vosoughi

年代

罗伊

咸海

年代

网上真假新闻的传播

科学 2018 03 09 359 6380 1146 1151

10.1126 / science.aap9559

29590045

359/6380/1146

阿西莫格鲁

Ozdaglar

一个

ParandehGheibi

一个

虚假信息在社交网络上的传播

arXiv 2009

2021-06-17

http://arxiv.org/abs/0906.5007

Lewandowsky

年代

埃克

英国

烹饪

超越错误信息:理解和应对“后真相”时代

记忆与认知应用研究杂志 2017 12 6 4 353 369

10.1016 / j.jarmac.2017.07.008

Bessi

一个

Caldarelli

德尔Vicario

米

Scala

一个

Quattrociocchi

(错误)信息时代内容选择的社会决定因素

2014

社会信息学国际会议

2014年11月

西班牙巴塞罗那

259 268

10.1007 / 978 - 3 - 319 - 13734 - 6 _18

Allcott

根茨科

米

2016年大选中的社交媒体和假新闻

国家经济研究局 2017

2021-06-17

http://www.nber.org/papers/w23089

Dechene

爱丽丝

斯特尔

汉森

万科

米凯拉

关于真相的真相:真相效应的元分析综述

Pers Soc Psychol Rev 2010 05 14 2 238 57

10.1177 / 1088868309352251

20023210

1088868309352251

Unkelbach

罗

重复诱导真值效应的参考理论

认知 2017 03 160 110 126

10.1016 / j.cognition.2016.12.016

施瓦兹

米

语句的重复和真值评定

美国心理学杂志 1982 95 3. 393 407

10.2307 / 1422132

Habel

妈

Liddon

Stryker

我

HPV疫苗:在线新闻故事的内容分析

妇女健康(Larchmt) 2009 03 18 3. 401 7

10.1089 / jwh.2008.0920

19281323

Eysenbach

鲍威尔

与库

在万维网上为消费者评估健康信息质量的经验研究:系统回顾

《美国医学会杂志》 2002 287 20. 2691 700

12020305

jrv10005

克莱因

海恩斯

公里

在互联网上寻求消费者健康信息:最先进的状态

健康教育决议 2001 12 16 6 671 92

11780707

学习

Hazlett

德

哈里森

卡罗尔

欧文

一个

霍文

医疗保健的一个新维度:对社交媒体用于健康传播的用途、好处和局限性的系统回顾

J医疗互联网服务 2013 04 23 15 4 e85燃料

10.2196 / jmir.1933

23615206

v15i4e85

PMC3636326

Dhoju

年代

主要

阶层

Ashad

公里

哈桑

可靠和不可靠媒体的卫生新闻差异

2019

2019年万维网大会配套论文集

2019年5月13-17日

旧金山

981 987

10.1145/3308560.3316741

Suarez-Lledo

Alvarez-Galvez

社交媒体上健康错误信息的流行:系统审查

J医疗互联网服务 2021 01 20. 23 1 e17187

10.2196/17187

33470931

v23i1e17187

PMC7857950

Tomeny

Vargo

El-Toukhy

年代

2009- 2015年推特上与自闭症相关的反疫苗信念的地理和人口统计学相关性

社会科学与医学 2017 10 191 168 175

10.1016 / j.socscimed.2017.08.041

28926775

s0277 - 9536 (17) 30522 - 1

PMC5623105

黄

史密斯

米

保罗

米

里兹科夫

奎因

年代

Broniatowski

Dredze

米

研究社交媒体上的流感疫苗接种模式

2017

AAAI研讨会

2017年2月4日至5日

旧金山

侯

Perez-Rosas

勒布

年代

Mihalcea

对在线医疗视频中的错误信息进行自动检测

2019

多式联运国际会议

2019年10月

中国苏州,

235 243

10.1145/3340555.3353763

王

阴

郭进隆译

利用多模态深度学习检测社交媒体上的医疗错误信息

IEEE J.生物医学。健康告知 2021 6 25 6 2193 2203

10.1109 / jbhi.2020.3037027

程

郭

蜀

刘

对假新闻传播的因果理解

arXiv 2020

2021-06-17

https://arxiv.org/abs/2010.10580

Ruchansky

搜索引擎优化

年代

刘

CSI:假新闻检测的混合深度模型

2017

ACM信息与知识管理会议

2017年11月6日至10日

纽约

797 806

10.1145/3132847.3132877

蜀

崔

王

年代

李

刘

防御:可解释的假新闻检测

2019

第25届ACM SIGKDD知识发现与数据挖掘国际会议

2019年8月4日至8日

纽约

395 405

10.1145/3292500.3330935

亨特

百分之一致，皮尔森的相关性，和kappa作为测量之间的考官的可靠性

J登特保留区 1986 02 65 2 128 30.

10.1177 / 00220345860650020701

3455967

Bojanowski

坟墓

Joulin

一个

Mikolov

用子词信息丰富词向量

TACL 2017 12 5 135 146

10.1162 / tacl_a_00051

Joulin

一个

坟墓

Bojanowski

Mikolov

高效文本分类的技巧包

2017

第十五届计算语言学协会欧洲分会会议

2017年4月3日至7日

瓦伦西亚,西班牙

427 431

10.18653 / v1 / e17 - 2068

金

用于句子分类的卷积神经网络

2014

2014自然语言处理经验方法会议(EMNLP)

2014年10月24日至29日

卡塔尔多哈

计算语言学协会

1746 1751

10.3115 / v1 / d14 - 1181

Liaw

梁

Nishihara

莫里茨

冈萨雷斯

斯托伊卡

我

Tune:分布式模型选择和训练的研究平台

arXiv 2018

2021-06-17

https://arxiv.org/abs/1807.05118

Kayesh

伊斯兰教

米

王

基于上下文词扩展和神经网络的推文事件因果关系检测

2019

第20届并行和分布式计算、应用和技术国际会议(PDCAT)

2019年12月5日至7日

澳大利亚黄金海岸

352 357

10.1109 / pdcat46702.2019.00070

香港

施耐德

Swayamdipta

年代

巴蒂亚

一个

戴尔

史密斯

tweet的依赖项解析器

2014

自然语言处理经验方法会议论文集

2014年10月25日至29日

卡塔尔多哈

1001 1012

10.3115 / v1 / d14 - 1108

翟

拉弗蒂

应用于特殊信息检索的语言模型平滑方法研究

2017

ACM SIGIR论坛

2017年7月

纽约

268 276

10.1145/3130348.3130377

伯马

搭配提取中的标准化互信息(逐点)

2009

GSCL论文集

2009年9月30日

德国波茨坦

31 40

狼

首次亮相

山

Chaumond

Delangue

莫伊

一个

Cistac

Rault

Louf

Funtowicz

米

HuggingFace的变形金刚:最先进的自然语言处理

arXiv 2019

2021-06-17

https://arxiv.org/abs/1910.03771

Devlin

常

米

李

Toutanova

BERT:深度双向转换器的预训练，用于语言理解

arXiv 2018

2021-06-17

https://arxiv.org/abs/1810.04805

舒伯特

砂光机

酯

米

Kriegel

徐

DBSCAN重访，重访:为什么以及应该(仍然)使用DBSCAN

ACM反式。数据库系统 2017 08 24 42 3. 1 21

10.1145 / 3068335

Ankerst

米

Breunig

米

Kriegel

砂光机

光学:排序点来识别聚类结构

SIGMOD矩形 1999 06 28 2 49 60

10.1145/304182.304187

麦克因尼斯

希利

Astels

年代

hdbscan:基于层次密度的聚类

神 2017 03 2 11 205

10.21105 / joss.00205

下巴

刘

施瓦兹

一个

建立患者驱动的人乳头瘤病毒(HPV)疫苗风险词典

2018

医疗决策学会第四十届年会

2018年10月13日至17日

加拿大蒙特利尔

10.5005 / jp /书/ 10027 _10

史密斯

Stavri

刘易斯

Eysenbach

Kukafka

Stavri

Jimison

消费者健康词汇

消费者健康信息学:告知消费者和改善医疗保健 2005

纽约州纽约

施普林格

122 128

曾

谢霆锋

探索和发展消费者健康词汇

美国医学信息协会 2006 13 1 24 9

10.1197 / jamia.M1761

16221948

M1761

PMC1380193

徐

我不理解你，但我相信你:使用计算机辅助文本分析来检查医学术语的使用和疫苗在线文章的参与度

卫生保健传播杂志 2020 05 21 14 1 61 67

10.1080 / 17538068.2020.1755137

孟

彭

棕褐色

刘

程

英国宇航系统公司

一个

传播规模和结构病毒式传播:信息和网络特征对推特上传播健康信息的影响

计算人类行为 2018 12 89 111 120

10.1016 / j.chb.2018.07.039

32288177

s0747 - 5632 (18) 30361 - 3

PMC7127591

Gerend

妈

牧羊人

我

使用信息框架促进接受人乳头瘤病毒疫苗

健康Psychol 2007 11 26 6 745 52

10.1037 / 0278 - 6133.26.6.745

18020847

2007-16656-013

奥基夫

南

促进疫苗接种的得失框架信息的相对说服力:一项荟萃分析综述

健康Commun 2012 27 8 776 83

10.1080 / 10410236.2011.640974

22292904

Weissenbacher

衬衣

一个

保罗

米

Gonzalez-Hernandez

第三种社交媒体健康挖掘(SMM4H)共享任务概述

计算语言学协会 2018

2018 EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会&共享任务

2018年10月

比利时布鲁塞尔

10.18653 / v1 / w18 - 5904

Ghenai

一个

Mejova

假的治疗

Proc. ACM hum .-计算。交互 2018 11

美国计算机学会人机交互论文集

2018

纽约

1 20.

10.1145 / 3274327

金

曹

张

罗

利用微博上矛盾的社会观点进行新闻验证

2016

AAAI人工智能会议论文集

2016年2月12日至17日

亚利桑那州菲尼克斯

王

杨

妈

徐

钟

邓

问

高

基于强化学习的假新闻检测监管不力

AAAI 2020 04 03

2020年AAAI人工智能会议记录

2月7

纽约

516 523

10.1609 / aaai.v34i01.5389

陆

李

GCAN:用于社交媒体上可解释假新闻检测的图形感知共同关注网络

2020

计算语言学协会第58届年会论文集

2020年7月6日至8日

在线

505 514

10.18653 / v1/2020.acl-main.48

Joshi

一个

戴

卡里

年代

火花

巴黎

麦金太尔

注射与否:NLP方法用于疫苗接种行为检测的比较

2018

2018年EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会和共享任务

2018年10月31日

比利时布鲁塞尔

10.18653 / v1 / w18 - 5911

阴

萤石

余

米

Schutze

自然语言处理中CNN与RNN的比较研究

arXiv 2017

2021-06-17

https://arxiv.org/abs/1702.01923

Joskowicz

Ksiezyck

Grishman

语篇分析的深层域模型

1989

政府人工智能系统年度会议

1989年3月27日至31日

华盛顿特区

195

10.1109 / aisig.1989.47325

卡普兰

Berry-Rogghe

基于知识的文本因果关系习得

知识获取 1991 9 3. 3. 317 337

10.1016 / 1042 - 8143 (91) 90009 - c

Girju

自动检测因果关系的问题回答

2003

ACL多语言总结和问答研讨会

2003年7月

日本札幌

76 83

10.3115/1119312.1119322

Hassanzadeh

Bhattacharjya

Feblowitz

米

斯

Perrone

米

Sohrabi

年代

卡茨

米

通过大规模文本挖掘回答二元因果问题:使用人类专家的因果对进行评估

第28届人工智能国际联合会议论文集(IJCAI-19) 2019 5003 5009

10.24963 / ijcai.2019/695

郭

Pleiss

太阳

温伯格

论现代神经网络的标定

2017

第34届国际机器学习会议

2017年8月6日至11日

澳大利亚悉尼

1321 1330

One hundred.

吴

Morstatter

Carley

公里

刘

社交媒体中的错误信息:定义、操纵和检测

SIGKDD空洞。Newsl 2019 11 26 21 2 80 90

10.1145/3373464.3373475

101

Acker

一个

数据处理:对社交媒体元数据的操作

数据与社会研究所 2018

2021-06-16

https://datasociety.net/wp-content/uploads/2018/11/DS_Data_Craft_Manipulation_of_Social_Media_Metadata.pdf