医学互联网研究杂志-台湾假新闻对新冠肺炎疫苗接种的流行及影响:数字媒体回顾性研究

原始论文

¹国立台湾大学生物医学电子与生物资讯研究所，台湾台北

²台北市国立台湾大学医院急诊科

^3.台湾AI实验室，台北，台湾

⁴国立台湾大学计算机科学与信息工程系，台湾台北

这些作者的贡献相同

通讯作者:

陈云农博士

计算机科学与信息工程系

国立台湾大学

罗斯福道第四段1号

台北,106年

台湾

电话:886 2 3366 3366

电子邮件:yvchen@csie.ntu.edu.tw

背景:疫苗接种是预防重大疾病发生和传播的重要干预措施。包括从互联网上获得的信息在内的许多因素都会影响个人接种疫苗的决定。错误信息是一个关键问题，很难被发现，尽管它可以改变人们的想法、观点和决定。错误信息对公共卫生和疫苗接种犹豫不决的影响有充分的文献记载，但对受错误信息影响的人口规模与该人口作出的疫苗接种决定之间的关系进行的研究很少。网络上有许多事实核查服务，包括Islander新闻分析系统，这是一个免费的网络服务，为个人提供对网络新闻的实时判断。在这项研究中，我们使用这些服务来估计可用的假新闻数量，并使用谷歌趋势水平来模拟假新闻的传播。我们使用台湾COVID-19疫苗接种的官方公开数据量化了这种关系。

摘要目的:在本研究中，我们旨在量化假新闻传播对疫苗接种决策的影响程度。

方法:我们从台湾官方网站收集了有关COVID-19感染和疫苗接种的公开数据，并估计了使用谷歌趋势的搜索热度。我们使用Islander系统的新闻数据库，从26个数字媒体来源间接收集新闻。该系统实时抓取互联网，分析新闻并存储。利用岛民系统的煽动和怀疑分数来客观判断新闻，并产生假新闻百分比变量。我们使用多变量线性回归、卡方检验和Johnson-Neyman程序来分析这种关系，使用每周数据。

结果:在2021年的43周内，共获得了791183条新闻。在公众接种阶段，26家媒体中有11家的假新闻比例明显增加。回归模型校正系数为正(β=0.98;P= 0.002)，负调整系数(β= -3.21，P=.04)，交互项对假新闻百分比的影响与Google趋势水平一致。交互项调整效应的Johnson-Neiman图显示，当假新闻比例超过39.3%时，谷歌趋势水平对下一周的疫苗接种剂量有显著的负调节作用。

结论:人们接触到的假新闻的数量与接种疫苗的剂量之间存在显著的关系。减少假新闻的数量，提高公众对错误信息的免疫力，对于在互联网时代维护公众健康至关重要。

[J] .中国医学信息学报，2016;24(4):563 - 563

doi: 10.2196/36830

关键字

错误信息；疫苗犹豫；疫苗接种； infodemic； infodemiology；新型冠状病毒肺炎；公共的免疫力；社交媒体；假新闻

选择蓝色药丸还是红色药丸:我们每天都在做决定。正如1999年的电影《黑客帝国》中所表达的那样，“你吃下蓝色药丸——故事结束了，你在床上醒来，相信你想相信的一切。”你吃下红色药丸——你就留在仙境，我让你看看兔子洞有多深。”[1]．每一个决定都可能对我们的未来产生重大或微不足道的影响，也可能受到环境的影响。关于是否接受或拒绝接种疫苗的决定可能受到多种因素的影响[2-6包括个人生活方式、疾病严重程度、疫苗有效性、副作用、同伴决策和互联网信息。在过去的几十年里，互联网把每个人都聚集在一起，互联网上的错误信息可以像瘟疫一样传播，影响公共立场[7-13]，甚至鼓励个人做出可能自我伤害的健康决定[14，15]．

2019冠状病毒病大流行大约从2020年年中开始在全球蔓延，疫苗于2021年初获批紧急使用[16]．位于东亚的台湾，人口2300万(人口密度为646人/平方公里)，于2021年3月3日接收了第一批新冠肺炎疫苗，并于2021年3月22日开始接种疫苗[17]．考虑到最初可用的疫苗剂量有限，以及优先为卫生保健工作者接种疫苗的政策，2021年6月12日开始了公共疫苗接种[17]．在疫苗接种期间，台湾经历了第一波大规模社区感染，互联网上充斥着关于COVID-19和疫苗的新闻(图1)。大量研究表明，关于疾病和疫苗潜在副作用的错误信息对疫苗接种率有不利影响[15，18，19]．一些研究人员设计了基于问卷的研究来调查这种联系[20.-22]．其中一项研究量化了大流行期间反疫苗推文数量的增加[23]，还有几项研究调查了影响错误信息传播的因素[24，25]．基于之前的研究，我们假设错误信息的高流行率可能对疫苗接种决策产生更大的不利影响。

图1所示。台湾地区新冠肺炎感染病例、总疫苗剂量、疫苗摄取(接种剂量)、新冠肺炎新闻百分比等数据。数据涵盖的时间范围为2021年3月至2021年12月，橙色虚线代表台湾的疫苗接种情况，周末和节假日缺失数值。如绿色背景所示，公众疫苗接种阶段始于2021年6月12日。

从互联网大数据中发现错误信息或假新闻是一项挑战。13]．在这十年中，自然语言处理(NLP)的深度学习已经被开发出来，以帮助解决这个问题，并且许多新闻分析服务已经在网络上可用[26]．这些服务使用机器学习算法或人工检测方法提供涵盖多个主题的在线事实检查[26，27]．然而，由于语言差异，这些服务在本研究中难以使用。本研究以台湾数位媒体新闻为研究对象，使用Islander新闻分析系统[28]，它使用一种创新的语言模型来自动筛选和评分网络新闻。

假新闻没有统一的定义;它的鉴定很复杂，有时很难确定[12，27，29-31]．假新闻的定义可以广泛到不恰当的信息或故事[18，27，32]，或狭窄到媒体故意发表的可证实的虚假文章[11，12，27]，以及介于两者之间的任何东西[13，33]．专家或群众的智慧可以人工发现虚假信息[27，34]，但如果在做出判决之前，消息可能已经传播开来，那么效率就会成为一个问题。自动检测方法可能涉及知识库检索系统[27]，但突破性的知识可能被认为是错误的信息。内容风格分析是另一种自动化方法，它基于有意新闻中存在某种模式的假设[31，35-37]，但出口可能会通过操纵写作风格来逃避检测[27]．在这项研究中，我们采用了一种基于风格的方法来检测假新闻。一般来说，假新闻的典型特征与写作风格、主观语言的数量、情感词汇或煽动性话语有关[26，27，31，35-37]．我们采用了Islander新闻分析系统提供的怀疑和煽动分数[28]其中一个语言模型RoBERTa [38]，使用监督学习方法进行训练，以分析和评分新闻(图2)。这个新闻分析语言模型是在中文价唤醒文本数据集(CVAT)上进行训练的[39]，以及2019年中期的198条随机新闻，由两位新闻专家标注。这两位专家标记了标题和客观陈述或主观主张的偏见，并交叉验证了它们。CVAT包含720个带有情感词标记的文本，并根据效价和唤醒对每个句子进行评分，用于训练Islander系统的激励判断。这种可量化的领域知识，结合写作风格和煽动性评分，构成了岛民制度的假新闻鉴别器。

个人通过被动接受来自网络服务的推送或主动搜索特定术语来获取互联网信息。搜索结果反映用户兴趣[40，41]，许多网络新闻服务采用了一种推荐系统，通过收集个人上网行为或搜索历史的数据，将信息推送给潜在感兴趣的人[13，42-44]．一些研究表明，搜索趋势可以反映信息的传播量[45，46]．我们使用谷歌趋势作为衡量网络新闻传播信息量的指标，因为它的市场份额高达85%。6，47]．

很少有研究调查错误信息的数量、信息传播及其对决策的影响之间的相互作用[13]．在本研究中，我们回顾性分析了接种接受度与台湾数字新闻传播之间的关系，旨在量化假新闻传播对COVID-19疫苗接种决策的影响(图3)。

图2。岛民新闻分析系统。该系统由三个部分组成:实时采集网络新闻的网络爬虫，客观判断新闻的新闻分析模型，以及提供用户界面的网站。

图3。本研究的图形总结。台湾官方公开发布新冠肺炎和疫苗接种信息，媒体在互联网上发布相关消息。公众可以通过搜索或从推荐服务中推送获取相关信息。这些信息将有助于个人做出接种疫苗的决定。在这项研究中，我们调查了新闻质量、传播和疫苗接种决策之间的关系。

研究设计与设置

研究人群为台湾人口。我们使用从2021年3月1日至2021年12月25日的公开数据进行了回顾性研究，从台湾首次获得疫苗开始。政府公开发布有关COVID-19、疫苗和接种人数的信息，我们从台湾卫生福利部收集了有关COVID-19大流行的信息[17]和我们的数据世界[48)的网站。总共使用了5个变量，包括COVID-19感染病例数、COVID-19死亡人数、可用疫苗总剂量、总疫苗接种量和接种疫苗的人数。我们收集的网络新闻来自Islander系统新闻数据库，其中的新闻被抓取并实时存储。每条新闻包括标题、内容、来源、发布时间、怀疑分、煽动分。我们通过Google trends新闻子组在日期范围内搜索台湾的“”(疫苗)获得了每日趋势的数据。

为了研究网络新闻与公众疫苗接种接受程度之间的关系，我们根据公众接种疫苗的时间，将分析区间设置为2021年6月13日至2021年12月25日。我们将时间间隔分为训练和验证两个部分，比例为70比30。2021年10月30日之前的数据单独分析，其他数据用于验证(图4)。

图4。在这项研究中收集的新闻。根据新冠肺炎和疫苗新闻的关键词，共纳入并过滤2018278条新闻，留下791183条新闻供研究。2021年6月13日至2021年12月25日的研究间隔用于调查公众对疫苗接种的决定。我们使用2021年10月31日至2021年12月25日的数据进行验证。

变量和结果

我们对每日至每周的数据进行重新抽样，并获得以下信息:可用疫苗剂量数，计算为可用疫苗剂量数与接种次数之间的差值;每周新发COVID-19病例数;每周新增COVID-19死亡人数;每周接种新疫苗的次数;每周新接种疫苗的人数;以及每周谷歌趋势的平均得分。个人会对问题感兴趣并进行搜索，并提供相关信息;因此，我们选择COVID-19和疫苗关键词来过滤新闻数据集。我们过滤新闻相关COVID-19和疫苗接种使用以下关键词限于中国的新闻:“破口,”“病例,”“聚合酶链反应(PCR),”“放寬,”“疫”,“隔離,”“確診,”“COVID”,“新冠,”“新型冠狀病毒,”“肺炎,”“疾管,”“疫苗,”“BioNTech (BNT),”“阿斯利康(AZ),”“高端,”“默德納,”“现代化”,“疫苗”“接種,”“接种疫苗”,“接种疫苗”。多媒体附录1给出了中文搜索关键词的含义和英文翻译。具有不同关键词子集的数字新闻子组也被用于研究它们与疫苗接种剂量的关系。我们统计了每周的新闻数量和假新闻的百分比。在这项研究中，假新闻被设定为怀疑得分大于零的新闻。怀疑得分从0到1000分不等;得分越低表明客观性越强，数据中以零分为主，呈泊松分布。我们还选择了每周平均激励得分作为变量。激励分数范围从0到1000，呈高斯分布;分数越低，表示受刺激程度越低(多媒体附录2)。

这项研究的结果是接下来一周新接种疫苗的剂量和新接种疫苗的人数。我们使用以下可用变量调查影响疫苗接种决策的因素:疫苗剂量、新冠肺炎病例、谷歌趋势平均得分、假新闻百分比、平均煽动得分以及谷歌趋势平均得分与假新闻百分比的交互项。

统计分析

我们使用卡方检验对假新闻百分比进行分析，并使用多元线性回归与逐步方法进行变量选择。方差膨胀因子用于检测变量之间的多重共线性，并去除变量可能的线性组合。采用Johnson-Neyman程序生成95% ci的相互作用效应图。利用验证数据对最终模型进行验证。

将数据归一化，然后使用R(版本4.1.1;R Core Team)、统计包交互(1.1.5版本)、R commander(2.7-1版本)和RStudio(1.3.1093版本)。所有P本研究的值为双侧，当小于0.05时认为具有统计学意义。

使用上述设置，从26个互联网新闻媒体来源收集了791183条COVID-19和疫苗新闻。假新闻比例更高(193,188/512,435,37.7%;95% CI 37.6% ~ 37.8%)在公共接种阶段发现，而在非公共接种阶段发现(99,791/278,748,35.8%;95% ci 35.6%-36.0%);26家新闻媒体中，有11家在公众接种阶段的假新闻比例显著增加(图5)。本研究涉及28周的数据进行回归分析(变量和结果的详细信息见表1)。台湾每周提供约300万剂疫苗，向公众提供约100万剂疫苗。

表1。对研究中使用的变量进行汇总统计。

		意思是(SD)	最低	中位数	最大
变量
	可用疫苗剂量	3129315年。5(1684054。2)	351662年	3291468年	6263838年
	新发COVID-19病例	148 (238)	28	65.5	1150
	COVID-19新增死亡病例	15.7 (30.4)	0	2	127
	煽动得分	488.7 (2.4)	483.9	488.5	492.4
	假新闻(%)	37.4 (1.9)	33.7	37.6	41.3
	谷歌趋势	22.4 (14.9)	4.3	19	54
结果
	接下来一周的疫苗接种剂量	1194379年。4 (632178 6)	308400年	1090186年。5	2764054年
	接下来的一周新接种疫苗的人	633134。8(490868。2)	52519年	460499年。5	1590232年

多变量分析显示，接种疫苗剂量数量与可用疫苗剂量数量之间存在统计学显著关系，假新闻百分比与谷歌趋势水平之间存在交互项。即使与验证数据(表2)。这些系数表明，可用的疫苗剂量数与下一周接种的疫苗剂量数之间可能存在正相关关系，并且刺激评分可能对下一周的疫苗剂量产生不利影响。由于交互项的反向符号，假新闻百分比和谷歌趋势水平之间似乎也存在交互作用。

在多元回归中，假新闻百分比与Google Trends水平的交互效应显示，随着假新闻百分比的增加，Google Trends水平的斜率由正向负移动(图6)。约翰逊-内曼程序表明，当假新闻百分比超过39.3%时，谷歌趋势水平对接下来一周的疫苗接种剂量有显著的负调节作用(图7)。

表2。与接下来一周的疫苗接种剂量相关因素的多变量线性回归模型。各因子的方差膨胀因子(VIF)均小于10。

			2021年6月13日至10月30日^一个									2021年6月13日至12月25日^b
			估计		SE		P价值		VIF		估计			SE		P价值		VIF
系数
	拦截	-0.1482		0.4805		.76		- - - - - -^c		-0.0450			0.3721		.90		- - - - - -
	可用疫苗剂量	0.9799		0.2637		.002^d		1.96		0.4510			0.1774		02^d		1．43
	煽动得分	-0.4725		0.2953		13。		3.31		-0.5222			0.2279		03^d		2.40
	假新闻(%)	3.8286		1.9884		07		4.72		1.6420			1.1771		只要		2.53
	谷歌趋势	0.8257		0.5208		.14点		8.14		1.0382			0.3970		02^d		6.64
	假新闻:谷歌趋势	-3.2121		1.3796		.04点^d		9.95		-2.5846			0.9058		.009^d		5.23

^一个多个R²= 0.647,调整R²F = 0.521,_5、14= 5.133;P= .007。

^b多个R²= 0.507,调整R²F = 0.395,_5日22= 7.714;P<措施。

^c不适用。

^d表示重要的值。

图6。交互作用图，95%置信带。该图显示了接下来一周的疫苗接种剂量与谷歌趋势水平的相互作用，这些水平高于和低于假新闻百分比的平均值1个标准差。

图7。Johnson-Neyman图，95%置信带。这张图显示了针对不同假新闻百分比调整后的谷歌趋势水平系数。NS:不重要。

主要研究结果

本研究采用多元线性回归与交互作用分析，量化台湾地区假新闻比例、假新闻传播与疫苗接种决策之间的关系。互联网上关于COVID-19和疫苗的假新闻比例更高，搜索量也更大，这预示着未来一周接种疫苗的剂量会受到更大的负面影响。在研究区间内，假新闻百分比阈值为37.4%，为Google Trends水平的过零系数，当达到39.3%时具有统计学意义。这个数字可能随研究间隔而变化，但即使在未见过的验证数据中也存在这种趋势。人群接触到超过特定数量的关于疾病和疫苗的假新闻会对公共卫生产生负面影响。预防接种公共卫生工作应加强公众对虚假新闻的免疫力，鼓励新闻媒体之间的平衡和客观。

在公众接种疫苗阶段，假新闻的总体百分比上升了2个百分点。这一增长的一个原因可能是2021年5月15日官方宣布新冠肺炎在台湾社区传播，尽管在接下来的两周内，假新闻百分比没有特别显著的增加(26,447/73,669,35.9%;95% ci 35.6%-36.3%)。这一比例在2021年6月的前10天显著增加(19,969/52,276,38.2%;95% ci 37.8%-38.6%)。与此同时，台湾正面临第二次感染高峰，并接受了日本捐赠的第一批疫苗。感染人数随后有所下降，但在公众接种阶段，一些媒体似乎仍反应过度(多媒体附录3)。新闻媒体根据他们的文化有不同的新闻风格，这可能与不同程度的怀疑和煽动有关。图5显示了每种媒体形式的假新闻百分比的不同，其中一些在两个阶段都保持一致的风格，但有些在第二阶段显著增加。排名第一的是1.7倍，排名第二的是34%。Lazer等[13]表明，互联网加速了新闻媒体向有偏见和情感报道的方向发展。互联网新闻媒体是商业性的，点击率反映了收入，有时也反映了股价。使用吸引人的话语和煽情的标题将是一些媒体公司的偏好，有时内容是主观的，缺乏事实核查。在追求点击率的过程中改变风格可能是合理的，但这种方法可能会损害媒体的可信度和公众的信任。

可获得的疫苗剂量数量对下一周接种的疫苗剂量数量具有积极的调整作用。对于大多数在台湾寻求接种疫苗的人来说，有必要预约接种日，然后再去。就像预订航班一样，飞机上的座位数量决定了可预订的数量。虽然没有人来，但在疫苗接种方面，过度销售是被禁止的，因为有限的资源可能导致疫苗接种的“银行挤兑”现象，特别是在群众恐慌的情况下。2021年8月，每周提供的疫苗剂量不足40万剂，而且在没有“疫苗运行”效应的情况下，疫苗接种率缓慢(图1)。当月，假新闻的百分比上升了1个点，达到38.5% (95% CI 38.2%-38.8%)，超过了阈值，但没有达到显著水平，这可能是一个减速因素。

在回归模型分析中，我们剔除了感染和死亡病例，因为在分析的区间内，COVID-19逐渐得到控制，死亡人数与感染人数相关。我们发现感染人数与假新闻百分比、谷歌趋势水平及其相互作用项之间存在多重共线性。感染病例的值可能几乎是这些因素的线性组合，这可能会破坏模型的可靠性。这些因素的系数分别为1.0、-0.7和2.9 (R²= 0.896;P<措施)。

在这项研究中，我们使用谷歌趋势水平来表示COVID-19和疫苗新闻传播的程度。我们认为这种方法是合理的，因为谷歌在搜索市场的主导地位使其成为整体数据的良好代理。在研究区间内，搜索量下降的趋势可能与新冠病毒感染的减少和公众的注意力转移到其他问题有关。这些趋势可能反映了信息传播与谷歌趋势之间的联系。需要注意的是，谷歌趋势工具并没有提供一致的结果;具体来说，Google Trends的级别根据所选择的时间间隔而变化，并且是相对于时间的，而不是固定的分数。在回归分析中，使用归一化来抵消数据中的这种变化。还分析了COVID-19亚组和疫苗新闻对疫苗接种的影响，但只有整个亚组的结果具有统计学意义。当人们搜索有关疫苗的信息时，相关信息将通过相关链接、搜索引擎或推荐系统提供给公众。每个人都面临着互联网上大量的信息，很少有人会阅读每一条新闻，有时人们会浏览它们。 Also, attention may shift to another related topic rather than the original one during a search [49]．当使用仅包含COVID-19或疫苗的新闻亚组时，这些噪声源可能导致缺乏统计显著性。

假新闻百分比与Google Trends水平之间的交互作用是本次回归分析的重要因素，没有交互作用，各变量之间没有统计学意义。这一观察可能表明，无论媒体提供什么，如果没有人的接触，它都无法影响公众舆论。然而，除非互联网崩溃，否则这种缺乏访问是不可能的。在本研究中，我们发现存在一个阈值，超过这个阈值，假新闻百分比就会产生负面影响，这个阈值可以被视为公众对错误信息的抵抗力被克服的点。随着越来越多的媒体采用吸引人的新闻风格和更具煽动性的话语，加强我们的抵抗而不是限制媒体的言论自由可能是可行的，但媒体应该反思和考虑回归新闻的本质。

与前期作品比较

Lazer等[13指出，人们对错误信息的普遍程度及其传播和影响的规模知之甚少。据我们所知，迄今为止的研究还没有明确地解决这些差距。Loomba等[22]设计了一项前瞻性研究，以检查接触错误信息前后的疫苗意图，并证实错误信息对疫苗接种率有不利影响。问卷调查研究已经证明了错误信息对疫苗犹豫的影响[20.-22]，但这种方法并没有量化需要多少错误信息才能改变公众的观点。王与王[24回顾性地收集了4200万条推文，发现含有错误信息或情绪化内容的信息传播得很快。涉及社交媒体数据的信息学术研究很常见[23，24]，有关用户交互的信息可用于分析信息的传播。错误信息的数量可以从公开发帖中估计出来，但这种方法可能会导致对错误信息程度的低估，因为数据不包括来自社交媒体上的私人社区或团体的信息。

本研究采用大新闻数据，研究对象为台湾地区人口。研究结果与之前的研究结果一致[20.-22该研究发现，错误信息会降低疫苗的意图。我们进一步量化了不同数量的假新闻对公众疫苗接种率的影响。通过访问台湾几乎所有的新闻媒体，我们使用基于风格的自动检测方法来估计假新闻的流行程度。虽然我们采用了广义的假新闻定义，但本研究的结果提供了台湾假新闻程度的估计。然而，直接估计错误信息传播的最佳方法仍然是一个挑战。

影响

互联网连接了世界，通过信息的快速传递缩短了人与人之间的距离。电脑已经缩小到手掌大小，在信息社会，大多数人可以随时随地上网。在过去的几十年里，许多经济活动和创业公司都得益于互联网而蓬勃发展。这些组织免费或非常便宜地提供我们所能想象到的尽可能多的信息。许多知识和信息都是开源的，它们可以增强我们的能力，也可以根据我们使用它的方式干扰我们的决策。随着越来越多设计良好的开源生成语言模型的出现，大量未经验证的信息可能很快就会被机器人打包成网络上吸引人的新闻。有时机器人是为特定问题设计的[13并且可能有恶意。新闻中有偏见的、故意的或极端主义的公众舆论的增长有时很难察觉，但它可能会影响我们的思维[25，26]．在海量信息泛滥的互联网时代，理解潜在的媒体框架是一项至关重要的个人能力。

有一些网上资源可供查核事实[26]，为公众提供媒介素养。虽然Islander系统不能直接检测虚假信息，但它可以实时监控媒体并提供客观评分。这些分数帮助我们批判性地思考;识别媒体的观点、角色和目标;并确定一项信息是否可信。新闻分析系统就像减毒疫苗，减少恶意信息的毒性，提高我们对错误信息的免疫力，防止假新闻的传播。未来在这个问题上的工作应该集中在提供一个逐渐更强大的信息判断系统，即使在对抗性攻击下，也可以与假新闻生成器一起成长。

限制

本研究的一个局限性是缺乏关于疫苗接种接受者的详细人口统计信息，因此我们无法进一步调查影响疫苗接种决策的因素。该研究的范围是调查数字新闻与疫苗接种决定之间的关系，以及可能与访问网络新闻相关的一些人口统计学特征。由于缺乏如此详细的信息，探索消费者与数字媒体的互动具有挑战性。另一个限制是，本研究是在亚洲社会进行的，新闻判断系统只适用于中国新闻，这使得研究结果和网络应用难以适应另一个地区或社会。然而，近年来，数字新闻中的怀疑已成为一个重要的全球问题，本研究的结果揭示了其对亚洲社会疫苗接种的影响。在未来的工作中，可以在不同地区建立这样的新闻分析系统，帮助提高公众的媒介素养，同时收集不同地区的新闻数据，进行扩展分析。

结论

在这项研究中，我们回顾性分析了一个拥有2300万人口的亚洲社会，使用深度学习NLP方法分析了半年时间内的70万条数字新闻，并确定了假数字新闻的百分比与COVID-19疫苗接种剂量之间的相关性。假新闻的流行程度越高，对疫苗接种决策的不利影响就越大。提高疫苗接种覆盖率的公共卫生政策努力可能侧重于减少假新闻对公众的影响，新闻分析系统的使用可能有助于提高公众的媒体素养。

致谢

我们要感谢日本、美国、波兰、立陶宛、斯洛伐克和捷克共和国向台湾捐赠疫苗。我们也要感谢台湾科技部对这项研究的财政支持(资助MOST 110-2634-F-002 -046和MOST 110-2634-F-002 -034)。

利益冲突

岛民新闻分析系统是台湾人工智能实验室提供的免费网络服务。

‎

多媒体附录1

搜索关键词的含义和英文翻译，以及数字媒体资源信息。

PDF档案(adobepdf档案)，195kb

‎

多媒体附录2

分数分布。左侧为怀疑分值分布;虚线表示泊松分布。右边是激励得分分布;虚线表示高斯分布。

PNG文件，51kb

‎

多媒体附录3

某些媒体来源可疑新闻的百分比趋势。

PNG文件，107kb

《黑客帝国》(1999)。IMDb。URL:https://www.imdb.com/title/tt0133093/[2022-04-13]访问
李建军，李建军，李建军，李建军。访问人智儿童福利中心的家长影响疫苗接种决策的因素:焦点小组研究。广告预防医学2012;2012:175694 [j]免费全文] [CrossRef] [Medline］
Hoogink J, Verelst F, Kessels R, van Hoek AJ, Timen A, Willem L，等。在荷兰，为自己或孩子接种疫苗决策的偏好差异:一个离散选择实验。中华卫生杂志，2010;20(1):828 [j]免费全文] [CrossRef] [Medline］
论不确定性对个人疫苗接种决策的影响。SSRN:1-12预印本于2021年4月20日在线发布。［CrossRef］
Fridman A, Gershon R, Gneezy A. COVID-19和疫苗犹豫:一项纵向研究。PLoS One 2021;16(4):e0250123 [j]免费全文] [CrossRef] [Medline］
COVID-19时期的疫苗犹豫和反疫苗接种:谷歌趋势分析。疫苗2021四月01;39(14):1877-1881 [j]免费全文] [CrossRef] [Medline］
波特E，伍德TJ，巴哈多B.总统在气候变化问题上的错误信息能被纠正吗?来自网络和电话实验的证据。Res Politics 2019 Aug 07;6(3)。［CrossRef］
波拉克M.金融市场中的错误信息效应:行为金融学中的一个新问题。金融互联网季刊2012;8(3):55-61 [j]免费全文］
Cook J, Ecker U, Lewandowsky S.错误信息及其纠正方法。Wiley在线图书馆2015年5月15日:e2015-e2017。［CrossRef］
互联网用户更多地关注Facebook上虚假的健康信息，而不是虚假的帖子。Palgrave comm 2020年4月28日;6(1):71。［CrossRef］
对抗互联网时代的信息攻击:认知工程的新挑战。人工智能学报，2018,30(8):1081-1094。［CrossRef] [Medline］
舒凯，Sliva A，王生，唐杰，刘宏。基于数据挖掘的社交媒体假新闻检测。2017年9月19日(1):22-36。［CrossRef］
Lazer DMJ, Baum MA, Benkler Y, Berinsky AJ, Greenhill KM, Menczer F，等。假新闻的科学。Science 2018 Dec 09;359(6380):1094-1096。［CrossRef] [Medline］
Ghenai A.搜索和社交媒体中的卫生错误信息。2017年国际数字健康会议论文集，呈现于:DH '17;7月2 - 5;纽约，第235-236页。［CrossRef］
麦克唐纳NE。假新闻和科学否认对疫苗的攻击。你能做什么?Can common Dis Rep 2020 Nov 05;46(1112):432-435 [j]免费全文] [CrossRef] [Medline］
世界卫生组织。URL:https://www.who.int/[2022-04-13]访问
卫生和劳动部。URL:https://www.mohw.gov.tw/mp-1.html[2022-04-13]访问
传播反疫苗的错误信息应该被定罪吗?中国医学杂志2009年2月17日;372:n272 [j]免费全文] [CrossRef] [Medline］
网上错误信息和疫苗犹豫。中华医学杂志，2011,12 (12):2194-2199 [j]免费全文] [CrossRef] [Medline］
Roozenbeek J, Schneider CR, Dryhurst S, Kerr J, Freeman ALJ, Recchia G，等。世界各地对COVID-19错误信息的易感性。社会科学进展[j]; 2010; 27 (5): 391 - 391 [j]免费全文] [CrossRef] [Medline］
Montagni I, Ouazzani-Touhami K, Mebarki A, Texier N, sch ck S, Tzourio C, CONFINS组。接受Covid-19疫苗与发现假新闻和卫生素养的能力有关。J公共卫生(Oxf) 2021 Dec 10;43(4):695-702 [J]免费全文] [CrossRef] [Medline］
刘建军，张建军，张建军，张建军。衡量COVID-19疫苗错误信息对英国和美国疫苗接种意图的影响。学报，2021,05;5(3):337-348。［CrossRef] [Medline］
Bonnevie E, Gallegos-Jeffrey A, Goldbarg J, Byrd B, Smyser J.量化新冠肺炎大流行期间Twitter上反对疫苗的兴起。中华卫生杂志2020 Dec 15;14(1):12-19。［CrossRef］
金KK，王b。危机事件中真实信息与错误信息的传播:大数据驱动方法。[J]信息管理，2021(7):102390。［CrossRef］
Saling LL, Mallal D, Scholer F, Skelton R, Spina D.没有人对错误信息免疫:对事实核查通讯订阅者分享错误信息的调查。《科学通报》，2010;16(8):0255702 [j]免费全文] [CrossRef] [Medline］
张欣，Ghorbani AA。网络假新闻概述:特征、检测和讨论。生物医学工程学报，2013;33(2):1088 - 1088。［CrossRef］
周欣，Zafarani R.假新闻:基本理论、检测方法与机会。ACM计算机调查2020 Oct 15;53(5):1-40。［CrossRef］
岛民。URL:https://islander.cc/about[2020-01-01]访问
Zafarani R，周霞，舒凯，刘宏。假新闻研究:理论、检测策略与开放性问题。参见:第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2019提交于:KDD '19;2019年8月4日至8日;安克雷奇，AK页3207-3208。［CrossRef］
Collins B, Hoang DT, Nguyen NT, Hwang D.社交媒体打击假新闻的趋势——一项调查。[J] .信息系统通信，2020,11(2):247-266。［CrossRef］
周霞，贾恩A，法哈v .，扎法拉尼R.假新闻早期检测。DTRAP 2020 Jun 30;1(2):1-25。［CrossRef］
Bermes a .信息超载和假新闻分享:交易压力视角探讨消费者抗疫能力在COVID-19期间的缓解作用。[J] .中国零售与消费杂志，2011;31(1):1 - 5。［CrossRef］
假新闻与COVID-19:社交媒体用户分享假新闻的预测因素建模Telemat Inform 2021 Jan;56:10 . 1475 [免费全文] [CrossRef] [Medline］
Allen J, Arechar AA, Pennycook G, Rand DG。利用群体智慧扩大事实核查。Sci Adv 2021 Sep 03;7(36):eabf4393 [j]免费全文] [CrossRef] [Medline］
维埃拉L, Jeronimo C, Campelo C, Marinho L.假新闻片段主体性水平分析。参见:巴西多媒体与网络研讨会论文集。2020提交于:WebMedia '20;2020年11月30日- 12月4日;s o Luís，巴西，第233-240页。［CrossRef］
杰罗尼莫C，马里尼奥L，坎佩洛C，维罗索A，达科斯塔梅洛CMA。基于主观语言的假新闻分类。第21届信息集成与基于web的应用与服务国际会议论文集。2019发表于:iiWAS2019;12月2 - 4;慕尼黑，德国，第15-24页。［CrossRef］
张杰，胡达斯。基于语言模型的推特可疑与可信新闻分类。2017年发表于:计算语言学协会第55届年会论文集(第2卷:短篇论文);2017年7月;加拿大温哥华，第647-653页。［CrossRef］
刘宇，Ott M, Goyal N，杜杰，Joshi M, Chen D. RoBERTa:一种鲁棒优化的bert预训练方法。arXiv预印本2019年7月19日在线发布[免费全文］
于丽，李丽，郝生，王静，何莹，胡静。基于价效觉醒维度的汉语情感资源构建。2016年发表于:计算语言学协会北美分会2016年会议记录:人类语言技术;2016年6月;圣地亚哥，加州第540-545页。［CrossRef］
邱峰，赵军。基于用户兴趣的个性化搜索自动识别。第15届国际互联网会议论文集。2006提交于:WWW '06;5月23日;爱丁堡，苏格兰第727-736页。［CrossRef］
Harb H, Khalifa A, Ishkewy H.基于用户兴趣和修改页面排名的个人搜索引擎。2009年发表于:2009国际计算机工程与系统会议;12月14 - 16;开罗,埃及。［CrossRef］
冯c, Khan M, Rahman AU, Ahmad A.新闻推荐系统的成就、挑战和未来发展方向。IEEE Access 2020;8:16702-16725。［CrossRef］
朱忠，李东，梁军，刘刚，余华。基于bap用户分析方法的动态个性化新闻推荐系统。IEEE Access 2018;6: 4068 -41078。［CrossRef］
刘松，董勇，柴静。基于混合协同过滤算法的个性化新闻推荐系统研究。2016年发表于:第二届IEEE计算机与通信国际会议(ICCC);10月14日至17日;成都,中国。［CrossRef］
Jamnadass E, Aboumarzouk O, Kallidonis P, Emiliani E, Tailly T, hrruby S，等。社交媒体和互联网搜索引擎在肾结石患者信息提供和传播中的作用:来自欧洲泌尿科医师协会年轻学术泌尿科医师的系统综述生物化学学报，2018;32(8):673-684。［CrossRef] [Medline］
Nuti SV, Wayda B, Ranasinghe I, Wang S, Dreyer RP，陈思，等。谷歌趋势在医疗保健研究中的应用:系统回顾。PLoS One 2014;9(10):e109583 [j]免费全文] [CrossRef] [Medline］
从2010年1月到2022年1月全球主要搜索引擎的桌面市场份额。Statista. 2022年3月https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/[2022-04-13]访问
我们的数据世界。URL:https://ourworldindata.org/[2022-01-01]访问
蒋杰，何东，艾伦。搜索会话中的搜索、浏览和点击:用户行为随任务和时间的变化。参见:第37届国际ACM SIGIR信息检索研究与发展会议论文集，2014，发表于:SIGIR '14;7月6尺11寸;澳大利亚昆士兰州黄金海岸。［CrossRef］

‎

CVAT:中文价觉文本数据集

NLP:自然语言处理

吉索尼编辑;提交27.01.22;周X，张a, W Ceron同行评议;对作者17.02.22的评论;收到修订版本02.03.22;接受04.04.22;发表26.04.22

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

假新闻在台湾的流行及对新冠肺炎疫苗接种的影响:数字媒体的回顾性研究