这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
2011年3月11日,日本福岛第一核电站事故发生后,社交媒体上出现了大量正面和负面评论。
这项研究的目的是阐明推特上发布的推文数量的趋势特征,并估计公众对事故的关注持续了多长时间。我们调查了与辐射暴露相关的第一项发生的衰减期,作为关注持续时间的替代终点。
我们从2011年3月11日至2012年3月10日的推特数据中检索了18891284条推文,其中包含143个日文变量。我们选取辐射、放射性、西弗特(Sv)、贝克勒尔(Bq)、灰色(Gy)作为关键词,估算公众对辐射暴露的关注衰减期。这些数据被格式化为逗号分隔的值,转移到统计分析系统(SAS)数据集中进行分析,并使用SAS LIFETEST程序遵循生存分析方法。本研究由北海道大学机构审查委员会批准,并放弃知情同意。
使用Kaplan-Meier曲线来显示事故发生后Twitter用户发布包含一个或多个关键词的消息的比例。“Sv”一词出现在第一条推文一年后的推文中。在研究的推特用户中,75.32%(880108 / 1168,542)发布了“放射性”一词,9.20%(107,522/1,168,542)发布了“Sv”一词。第一次减少发生在2011年3月11日之后的前7天内。从2011年3月11日第一条推文开始,辐射持续时间的均值和标准误差(SE)分别为31.9天(SE 0.096)和300.6天(SE 0.181)。在研究结束时,这些关键词仍在使用。放射性的平均衰减期为一个月,辐射和辐射单位的平均衰减期约为一年。关键词平均持续时间的差异主要是由于大众媒介的影响。定期发布的信息,如每日辐射剂量报告,从其时间和格式内容来看,相对容易发现。生存估计表明,公众对核电站事故的关注在一年后仍然存在。
虽然推文数量的简单图表没有显示出明确的结果,但我们估计关键字放射性的平均衰减期约为一个月,并发现在研究期结束时,这些关键字仍在帖子中使用。还需要进一步的研究来量化社交媒体数据中其他短语的影响。这一探索性研究的结果将推动在影响和量化风险沟通方面取得进展。
2011年3月11日日本福岛核电站事故发生时,人们开始担心核辐射。持续的焦虑被认为会影响人们的身心健康,而对事故的恐惧或焦虑的持续时间仍然未知。准确估计关注的持续时间将导致有关公共卫生行动的建议。迄今为止,公众关注的持续时间一直难以衡量,因为数据可以根据不同的主题和时间尺度进行多尺度。脸书和推特等社交媒体上出现了许多关于福岛核事故的评论。很明显,社交媒体平台鼓励人们分享他们对日常生活中辐射暴露的担忧;一个人的关注点与交流的数量和长度高度相关。
斯洛维奇调查了普通人和专家对核电等30种活动的风险认知,并将81种风险用坐标轴画在图表上,进行了因子分析
Mehta和Simpson-Housley报告了一个线性公式,该公式由特征焦虑得分、性别和人们是否有孩子等因素组成[
通过探索Twitter数据,我们的目标是就Twitter用户对福岛第一核电站事故的兴趣产生一个假设。以推特用户为研究对象,我们调查了之前关于用户如何表达他们对辐射暴露或核电站事故的担忧的研究,发现心理学文献中只有少数文章[
之前的研究已经探索了社交媒体对推特用户认知影响的证据。荷兰12岁及以上的人口中约90%使用互联网,其中70%活跃于社交媒体,特别是Facebook和Twitter(即Web 2.0) [
Twitter于2006年首次作为护理领域的教育支持工具引入[
的概念
这些工具是通过开源共享开发的。这个项目还存在两个主要问题。首先,大数据涉及大量数据,需要强大的计算能力来处理,而专业的医疗人员可能需要实时访问数据。Laney提出通过抽样来选择数据[
其次,很难确定在社交媒体上发表评论的个人,现有的统计方法也很难使用,因为可能不清楚观察结果是否独立。定义a的问题
我们集中讨论了公众对核电站事故风险的关注以及对辐射对人体的负面影响的关注。公众的关注受到媒体(如电视、广播或互联网)的影响,使得这项研究从信息学的角度来看是独一无二的。在这项研究的过程中,我们观察到一种尚未量化的普遍担忧。一些与辐射有关的短语(例如,
到目前为止,公众关注的持续时间很难衡量,因为数据可以根据不同的主题和时间尺度进行多种缩放。探索Twitter数据需要假设Twitter用户对福岛第一核电站事故的兴趣。
这项研究的目的是阐明推特上发布的推文数量的趋势特征,并估计公众对事故的关注持续了多长时间。我们首次调查了辐射暴露相关术语的衰减期,作为关注持续时间的替代终点。
我们检索了2011年3月11日至2012年3月10日日本的Twitter数据,作为Twitter, Incorporated的社交网络服务数据。
我们还使用编程语言Java (jre1.8.0_25)和Eclipse Luna 4.4.0(集成开发环境)进行数据处理。使用SAS 9.4和JMP 11 pro(均为SAS Institute Inc., Cary, NC)统计包来估计生存曲线。我们使用惠普Z420工作站(惠普公司)3.7千兆赫中央处理器和64g内存。
我们打算量化公众对福岛第一核电站事故辐射暴露的担忧。尽管我们将推文数量视为公众关注程度的衡量标准,但推特用户的关注程度和推文数量之间似乎存在差距。因此,我们通过绘制空气剂量率数据与推文计数的关系来证明代孕的证据。市民可于东京电力公司的网页[
本研究已获北海道大学健康科学学院机构评审委员会批准。我们放弃了知情同意,因为所有记录都是匿名的,而且我们对数据进行了回顾性调查。
显示数据构造的流程图。
关键词选择在本研究中起着至关重要的作用。在检测对辐射风险的关注时,选择敏感的关键词是很重要的。
当Twitter用户第一次发布包含其中一个关键字的推文时,我们认为这是一个错误
主要终点的识别流程图。
生存分析技术是处理和评估时间序列数据的有效方法。在生物统计学领域,该分析中的事件表示受试者的死亡,生存时间是指没有事件的一段时间(因此被解释为,例如,无病生存或无进展生存)。许多与生存分析相关的教科书已经出版[
当我们进行生存分析时,我们无法确定观察的开始时间点,因为在社交媒体上发布该事件的个人无法被作者关注;这个问题强调了大数据分析与其他类型的研究(如临床试验)之间的一个重要区别。我们假设观测开始于2011年3月11日。尽管Twitter数据中存在一些模糊性是不可避免的,但数据量可以减少这种影响[
这里,i表示ith2011年3月11日之后的第二天。日期和时间被保存为SAS中的连续变量。我们以秒为单位估算了关注的持续时间。关注的持续时间可以随着时间的推移而缩短;我们用S(t)来估计平均衰减期本土知识).
2011年3月11日至2012年3月10日Twitter上的推文和Twitter id的特征。
|
微博 | Twitter id |
总计 | 18891284年 | 1168543年 |
平均/天,n (95% CI) | 51616年(48044 - 55187) | 23626年(21695 - 25557) |
标准偏差 | 34747年 | 18786年 |
偏态 | 5.85 | 5.04 |
峰度 | 43.15 | 32.07 |
最小/天,n | 25769年 | 9421 |
25th百分位/天,n | 38766年 | 15621年 |
平均每天,n | 43345年 | 18994年 |
75th百分位/天,n | 51703年 | 23448年 |
最大/天,n | 388984年 | 187291年 |
空气剂量率随风向和气候条件有一定变化。MPs每隔10分钟输出空气剂量率的数据。我们下载了公开的数据,并选择了8个MPs来显示空气剂量率。
归一化MPs和归一化tweet计数之间差异的平方和。MP-5和MP-6的归一化空气剂量率与归一化推文计数图拟合良好。
与推文数比较 | |
监控岗位 | 差的平方和 |
MP-1 | 28.72 |
MP-2 | 62.51 |
mp - 3 | 14.35 |
MP-4 | 11.59 |
MP-5 | 4.66 |
MP-6 | 8.24 |
MP-7 | 20.93 |
MP-8 | 25.40 |
推文数从2011年3月11日到2012年3月10日的时间序列图推特频率最高达到每天388,984条。
2011年3月11日- 2012年3月10日归一化推文数时间序列图
图中的关键词辐射和放射性,包括按月平均的比例为每周的每一天。
我们对包含这些关键词的推文进行了生存分析。
从Twitter数据获得的事件数和估计衰减期。
关键字(日语) | 推特ID计数 | 事件 | 审查 | %审查 | 的意思是,天 | 95%控制下限 | 95%控制上限 |
放射性(放射能) | 1168542年 | 880108年 | 288434年 | 24.68 | 31.9 | 31.7 | 32.1 |
辐射(放射線) | 1168542年 | 710924年 | 457618年 | 39.16 | 63.4 | 63.1 | 63.7 |
Sv | 1168542年 | 107522年 | 1061020年 | 90.8 | 300.6 | 300.2 | 301.0 |
Bq | 1168542年 | 53034年 | 1115508年 | 95.46 | 330.3 | 330.0 | 330.6 |
孔侑 | 1168542年 | 17111年 | 1151431年 | 98.54 | 354.6 | 354.4 | 354.8 |
我们观察到,在2011年3月11日之后的头7天里,不使用twitter的比例急剧下降(
包含辐射或放射性关键词的推文的推文率的Kaplan-Meier曲线。
包含关键词Bq、Gy、Sv的推文的推文率的Kaplan-Meier曲线。
一天内发布关键字的Twitter id的最大数量约为18.7万个。Twitter id的最小数量为每天9421个(约为最大值的5%),而中位数为每天18994个(约为最大值的10%)。然而,75th百分比(23,448 id /day)与中位数(
虽然Twitter id的数量并没有直接表明用户的数量,但只有1.00%的Twitter用户看起来是机器人(
每个Twitter ID的推文计数百分比(N=1,168,542)。
水平 | 百分位 | 数量(n) |
最大 | 100% | 71793年 |
|
99% | 243 |
|
95% | 42 |
|
90% | 18 |
3.理查德·道金斯四分位数 | 75% | 6 |
中位数 | 50% | 2 |
1圣四分位数 | 25% | 1 |
|
10% | 1 |
|
5% | 1 |
|
1% | 1 |
最低 | 0% | 1 |
推文时间序列图(
当我们研究2011年9月10日推文激增相关事件时(
时间序列图
我们观察到,第一个推文计数在数量上不同,与
平均值和中值之间的差异似乎还有另一个原因:一些id在观察期间没有发布任何消息。因此,假定平均数已大大降低,但需要进行灵敏度分析以澄清这一问题。为了预测趋势在一段时间内的变化,需要从另一个领域,如时间序列分析,来减少循环变化的方法。
我们无法从Kaplan-Meier图中估计中位衰减期。然而,我们估计了2011年3月11日之后365天的非第一次推文率(存活率)。观察到该用户ID的第一条推文(包含关键字),并且在前7天内非术语推文率有所下降。在这个时间点上的减少高度依赖于我们确定为机器人的用户。我们在研究中没有排除这些,因为这导致了对不推特率的高估偏见。
我们使用推特数据来检测公众对辐射暴露的担忧;然而,在我们的研究中出现了一些歧义。如果我们在流行病学研究中遵循监测技术,我们应该确定研究中的每个参与者,并对他们进行时间序列跟踪。我们有Twitter用户id,这些可以被一个自动化程序共享或检查。我们假设这一事实在流行病学领域不被接受,尽管我们想强调这种方法在早期预测和量化公众对社会事件的关注方面的有效性。
此外,我们跟踪了与辐射相关的关键字,但我们没有考虑使用它们的上下文。应该将推文的积极或消极因素添加到分析中,这样在分析数据时就可以获得更高的精度。
我们选择了很少的关键词进行分析,对Twitter用户兴趣的估计也有一定的局限性。自然语言处理可以作为一项工程任务用于内容分析。同样,直接的情绪(如担忧或恐惧)在医疗保健领域也具有挑战性。在目前的研究中,低剂量辐射照射的影响尚不清楚。除了对人类健康的生物效应外,我们还想量化这些情绪的影响。使用生存分析仍然存在问题,因为发病的定义不明确,这可能难以作为流行病学领域的观察性研究。需要进一步研究以适应目前的方法。
虽然推文计数的简单图没有显示出明确的结果,但我们估计关键字的平均衰减周期大约是一个月
美国统计协会
贝克勒尔
逗号分隔值
频率
灰色的
识别
监控岗位
统计分析系统
标准错误
西韦特
作者非常感谢匿名推荐人富有洞察力的评论和反馈。这项工作得到了具有挑战性的探索性研究资助(26670293)的部分支持。
没有宣布。