卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

JMIR公共卫生监测

JMIR公共卫生和监视

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v2i2e168

27888168

10.2196 / publichealth.5384

原始论文

从推特上辐射暴露相关词汇的出现估计福岛第一核电站事故后公众关注的持续时间:回顾性数据分析

Eysenbach

冈瑟

赵

康

沃恩

蒂莫西

奥肯

莎莉

Nishimoto

Naoki

博士学位 1

http://orcid.org/0000-0002-7638-8967

在线旅行社

水木

MSc 2

http://orcid.org/0000-0001-7383-3669

Yagahara

若

博士学位 3.

http://orcid.org/0000-0003-3364-7719

小笠原群岛

Katsuhiko

工商管理硕士,博士 4

北海道大学健康科学学院

Kita 12 zyou Nishi 5 chome

Kita-ku

札幌,060 - 0812

日本 81 11 706 3409 81 11 706 3409 oga@hs.hokudai.ac.jp

http://orcid.org/0000-0001-5474-7861

¹ 香川大学医院临床研究支持中心

Kita-gun

日本 ² 北海道大学健康科学研究生院“，

札幌

日本 ^3. 健康科学学院放射技术系北海道理科大学

札幌

日本 ⁴ 北海道大学健康科学学院

札幌

日本

通讯作者:Katsuhiko Ogasawara oga@hs.hokudai.ac.jp

Jul-Dec 2016

25 11 2016

2 2

e168

27 11 2015 24 1 2016 26 9 2016 23 10 2016

©西本直树，太田水树，矢原绫子，小笠原克彦。原载于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2016年11月25日。

2016

这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

2011年3月11日，日本福岛第一核电站事故发生后，社交媒体上出现了大量正面和负面评论。

客观的

这项研究的目的是阐明推特上发布的推文数量的趋势特征，并估计公众对事故的关注持续了多长时间。我们调查了与辐射暴露相关的第一项发生的衰减期，作为关注持续时间的替代终点。

方法

我们从2011年3月11日至2012年3月10日的推特数据中检索了18891284条推文，其中包含143个日文变量。我们选取辐射、放射性、西弗特(Sv)、贝克勒尔(Bq)、灰色(Gy)作为关键词，估算公众对辐射暴露的关注衰减期。这些数据被格式化为逗号分隔的值，转移到统计分析系统(SAS)数据集中进行分析，并使用SAS LIFETEST程序遵循生存分析方法。本研究由北海道大学机构审查委员会批准，并放弃知情同意。

结果

使用Kaplan-Meier曲线来显示事故发生后Twitter用户发布包含一个或多个关键词的消息的比例。“Sv”一词出现在第一条推文一年后的推文中。在研究的推特用户中，75.32%(880108 / 1168,542)发布了“放射性”一词，9.20%(107,522/1,168,542)发布了“Sv”一词。第一次减少发生在2011年3月11日之后的前7天内。从2011年3月11日第一条推文开始，辐射持续时间的均值和标准误差(SE)分别为31.9天(SE 0.096)和300.6天(SE 0.181)。在研究结束时，这些关键词仍在使用。放射性的平均衰减期为一个月，辐射和辐射单位的平均衰减期约为一年。关键词平均持续时间的差异主要是由于大众媒介的影响。定期发布的信息，如每日辐射剂量报告，从其时间和格式内容来看，相对容易发现。生存估计表明，公众对核电站事故的关注在一年后仍然存在。

结论

虽然推文数量的简单图表没有显示出明确的结果，但我们估计关键字放射性的平均衰减期约为一个月，并发现在研究期结束时，这些关键字仍在帖子中使用。还需要进一步的研究来量化社交媒体数据中其他短语的影响。这一探索性研究的结果将推动在影响和量化风险沟通方面取得进展。

推特社交媒体公众的关注核电站生存分析 kaplan meier估计 infodemiology 辐射

简介对辐射暴露的担忧蔓延:社交媒体和日本福岛第一核电站事故

2011年3月11日日本福岛核电站事故发生时，人们开始担心核辐射。持续的焦虑被认为会影响人们的身心健康，而对事故的恐惧或焦虑的持续时间仍然未知。准确估计关注的持续时间将导致有关公共卫生行动的建议。迄今为止，公众关注的持续时间一直难以衡量，因为数据可以根据不同的主题和时间尺度进行多尺度。脸书和推特等社交媒体上出现了许多关于福岛核事故的评论。很明显，社交媒体平台鼓励人们分享他们对日常生活中辐射暴露的担忧;一个人的关注点与交流的数量和长度高度相关。 1］．因此，我们的主要兴趣是量化与辐射暴露这一特定主题相关的交流量。量化公众焦虑在公共干预中发挥着重要作用[ 2］．

斯洛维奇调查了普通人和专家对核电等30种活动的风险认知，并将81种风险用坐标轴画在图表上，进行了因子分析害怕风险和未知的风险［ 3.］．这个概念诊断x射线显示出低恐惧风险值，而核反应堆事故，核武器沉降物, 放射性废物恐惧风险值高，未知风险值中等[ 3.］．Slovic提到了三里岛核事故，并得出结论，认为风险的感知与估计的社会成本无关[ 3.］．

Mehta和Simpson-Housley报告了一个线性公式，该公式由特征焦虑得分、性别和人们是否有孩子等因素组成[ 4］．这项研究表明，对未来核电站灾难的预期与性格焦虑得分高、女性以及家中是否有孩子呈正相关。 4］．直到最近，还不可能确定社交媒体在引发公众对核电站事故和放射性废物辐射暴露的焦虑方面的作用。然而，我们还没有找到任何关于术语特征的先前研究，以捕捉关于核电站事故的书面关注。

通过探索Twitter数据，我们的目标是就Twitter用户对福岛第一核电站事故的兴趣产生一个假设。以推特用户为研究对象，我们调查了之前关于用户如何表达他们对辐射暴露或核电站事故的担忧的研究，发现心理学文献中只有少数文章[ 5］．随着社交媒体的出现，推特用户在健康和卫生保健过程中发挥了核心作用，不仅是卫生服务的接受者，而且还是积极的个人健康行动的发起者。用户还将患者社区聚集在一起(例如，patientslikeme，其成员为自己和他人管理以家庭为基础的护理)，并作为公民参与协作实践(即，促进适当的卫生处理和清洁空气)，以确保其社区的健康[ 6， 7］．

医疗保健研究中的社交媒体

之前的研究已经探索了社交媒体对推特用户认知影响的证据。荷兰12岁及以上的人口中约90%使用互联网，其中70%活跃于社交媒体，特别是Facebook和Twitter(即Web 2.0) [ 8］．根据日本总务省的资料 2015年通讯使用趋势调查，日本的互联网使用率呈上升趋势，约82.2%的人口使用互联网，62.6%的人口使用智能手机[ 9］．

Twitter于2006年首次作为护理领域的教育支持工具引入[ 10- 13］．的新词 infoveillance(信息+监控)由Eysenbach提出[ 14， 15］．信息监视的新方法正在变得可用，例如实时挖掘、聚合和分析在线文本数据。研究表明，来自Twitter的流感类疾病的大流行预测或估计准确地跟踪了报告的疾病水平[ 16- 18］．Chew和Eysenbach使用Twitter数据和流行病学数据，报告了H1N1流感爆发的大流行预测，使用双图分析证明，与H1N1相关的推文绝对数量的急剧增加与重大H1N1新闻事件相吻合[ 18］．这一发现证明了信息流行病学技术对大流行预测的有用性。Zhao等人在2014年的研究中报告了一种从推特数据中识别有影响力用户的方法[ 19］．目前有几个社交媒体平台可用，比如Twitter、Facebook和LinkedIn。由于Twitter的流行，我们在这项研究中关注了Twitter。

基于社交媒体的大数据在医疗保健中的问题

的概念大数据由Douglas Laney介绍给公众，他从数据量、速度和多样性的角度讨论了大数据的问题[ 20.］．兰尼写这篇文章的时候，大数据第一次在电子商务领域广泛应用;它随后渗透到了医疗保健领域。目前大数据的定义还包括一个进一步的术语:准确性[ 21］．大数据被认为是大规模、结构化和非结构化数据的结合，社会基础设施或社交媒体的数字记录也被认为是其中的一部分。美国联邦政府宣布了大数据的挑战及其大数据计划的使命，其中包括由国家医学图书馆开发的“整合生物学和床边的信息学”，目的是创建50多种工具和方法，以促进卫生保健和生物医学研究的信息副产品的整合和交换。

这些工具是通过开源共享开发的。这个项目还存在两个主要问题。首先，大数据涉及大量数据，需要强大的计算能力来处理，而专业的医疗人员可能需要实时访问数据。Laney提出通过抽样来选择数据[ 20.］．美国统计协会(ASA)发布了他们的政策，题为“发现与数据:利用统计与计算机科学来改变科学和社会”，以解决这些问题[ 21］．为了处理大量数据，ASA审查了技术，并从数据可视化开始。统计界在开发数据可视化技术方面有着悠久的历史，不仅仅是直方图和散点图，还有网格图和动态图等技术。ASA还引入了现代可视化技术，如树图和其他可视化网络数据的技术;这些方法将会有很大的需求，并且需要开发具有特定属性的复杂数据可视化的新方法[ 22］．因果推断也包含在ASA的政策中，使用图表总结数据在估计因果推断中发挥着重要作用。数据挖掘中使用的技术似乎不是用传统的统计方法综合起来的;ASA建议将数据挖掘技术与可视化结合起来，并声称这种方法有可能超过任何一个单独领域的力量。

其次，很难确定在社交媒体上发表评论的个人，现有的统计方法也很难使用，因为可能不清楚观察结果是否独立。定义a的问题研究人群仍在社交媒体研究中，因为有些人使用多个用户的用户身份(ID)发表评论，或者使用自动推文程序的用户ID。推特的用户数量不断增长，而且本质上是开放的，这使得它成为自动推特程序开发的理想目标机器人．就像网络聊天室、博客和在线游戏等其他网络应用程序中的机器人一样，机器人在Twitter平台上也很常见。 23- 25］．

动机

我们集中讨论了公众对核电站事故风险的关注以及对辐射对人体的负面影响的关注。公众的关注受到媒体(如电视、广播或互联网)的影响，使得这项研究从信息学的角度来看是独一无二的。在这项研究的过程中，我们观察到一种尚未量化的普遍担忧。一些与辐射有关的短语(例如，空气剂量率或无辐射粒子扩散)，可能被用来推断地理上不同地区特定条件的状态和安全。然而，目前还不清楚这些词是什么时候出现的，也不清楚Twitter用户的公众关注会持续多久。

目的

到目前为止，公众关注的持续时间很难衡量，因为数据可以根据不同的主题和时间尺度进行多种缩放。探索Twitter数据需要假设Twitter用户对福岛第一核电站事故的兴趣。

这项研究的目的是阐明推特上发布的推文数量的趋势特征，并估计公众对事故的关注持续了多长时间。我们首次调查了辐射暴露相关术语的衰减期，作为关注持续时间的替代终点。

方法推特数据和工具

我们检索了2011年3月11日至2012年3月10日日本的Twitter数据，作为Twitter, Incorporated的社交网络服务数据。 26］．Twitter创建于2006年3月，该服务迅速在全球范围内受到欢迎;到2012年，超过1亿用户每天发布3.4亿条推文[ 27］．每条推文都包含一个推文ID、一个文本部分(限制为140个字符)以及推文的日期和时间。我们获得了18,891,284条推文和143个变量，包括推文的日期和时间、推文文本、用户ID和用户名。文件大小总计为17.2 gb。数据为逗号分隔值(CSV)格式。

我们还使用编程语言Java (jre1.8.0_25)和Eclipse Luna 4.4.0(集成开发环境)进行数据处理。使用SAS 9.4和JMP 11 pro(均为SAS Institute Inc.， Cary, NC)统计包来估计生存曲线。我们使用惠普Z420工作站(惠普公司)3.7千兆赫中央处理器和64g内存。

图1描述数据集构造的流程图。我们以CSV格式获取Twitter数据，并使用原始Java程序将信息划分为10个子集，因为在转换为SAS数据集时很容易发现错误。为了使用SAS处理Twitter数据，我们将变量名格式化为字母数字。我们使用频率(FREQ)程序(SAS分析程序)进行计数和分类数据，并获得每天推文计数的时间序列数据。

我们打算量化公众对福岛第一核电站事故辐射暴露的担忧。尽管我们将推文数量视为公众关注程度的衡量标准，但推特用户的关注程度和推文数量之间似乎存在差距。因此，我们通过绘制空气剂量率数据与推文计数的关系来证明代孕的证据。市民可于东京电力公司的网页[ 28]，截至2015年6月，这些数据仅以日文更新。东京电力公司设立了8个监测站(MPs)来估计核电站区域内的空气剂量率。

本研究已获北海道大学健康科学学院机构评审委员会批准。我们放弃了知情同意，因为所有记录都是匿名的，而且我们对数据进行了回顾性调查。

图1

显示数据构造的流程图。

选择与辐射暴露有关的关键词

关键词选择在本研究中起着至关重要的作用。在检测对辐射风险的关注时，选择敏感的关键词是很重要的。图2显示使用字典的事件检测。当大众传媒广播有关辐射暴露的信息时，文字辐射或放射性和辐射装置一起经常使用吗西韦特（ Sv)，灰色的（孔侑), 贝克勒尔（ Bq)．我们选择辐射，放射性， Sv， Bq, 孔侑作为关键字来估计衰减周期。关键字辐射和放射性日文，辐射单位以正常格式使用。自然语言处理技术经常用于放射学中的文本分析，或识别患者的吸烟状况;然而，在Twitter数据集中，很难将两个不同的单词合并为一个概念，因为Twitter数据的自由文本部分被限制在140个字符，在这种情况下，几乎没有上下文信息可用[ 29， 30.］．因此，我们在使用多个概念名的关键字选择的基础上保持了再现性。使用关键字，我们将概念名称与Twitter数据集中的自由文本部分中的术语进行匹配。包含关键字的推文的平均比例辐射或放射性是以每小时为单位绘制的。

当Twitter用户第一次发布包含其中一个关键字的推文时，我们认为这是一个错误事件,并使用SAS LIFETEST程序进行分析。使用SAS FREQ程序绘制日平均计数等背景特征作为时间序列图。这种分析通常会显示大量经过删减的数据，所以我们在Kaplan-Meier曲线上抑制了删减图。

图2

主要终点的识别流程图。

使用生存分析估计公众关注

生存分析技术是处理和评估时间序列数据的有效方法。在生物统计学领域，该分析中的事件表示受试者的死亡，生存时间是指没有事件的一段时间(因此被解释为，例如，无病生存或无进展生存)。许多与生存分析相关的教科书已经出版[ 31， 32]，但在目前的研究中使用这种方法与在生物统计学中的使用有很大的不同。

当我们进行生存分析时，我们无法确定观察的开始时间点，因为在社交媒体上发布该事件的个人无法被作者关注;这个问题强调了大数据分析与其他类型的研究(如临床试验)之间的一个重要区别。我们假设观测开始于2011年3月11日。尽管Twitter数据中存在一些模糊性是不可避免的，但数据量可以减少这种影响[ 21］．我们假设一条推文的开始，并将事件定义为当k^th关键字第一次从给定用户ID出现在推文的自由文本部分。因此，生存函数计算如下:

这里，i表示i^th2011年3月11日之后的第二天。日期和时间被保存为SAS中的连续变量。我们以秒为单位估算了关注的持续时间。关注的持续时间可以随着时间的推移而缩短;我们用S(t)来估计平均衰减期_本土知识)．

结果推特数据特征

表1显示了从2011年3月11日到2012年3月10日的推文和推特id的特征。推文数量的中位数为43,345条/天，范围从25,769到388,984条/天。直方图右偏，偏度为5.85。数据包括1,168,543个用户ID(16.2条推文/用户ID)。可用的用户名有879,210个，但有125,363个用户名缺少数据。我们计算出每天的平均ID数为23626.23，每个ID每天发布2.19条推文。每天的推文数量在2011年3月11日之后出现了变化，在2011年9月和10月的时间序列图中出现峰值( 图3)．在18,891,284条推文中，9,673,756条(51.21%)是原始消息的转发。

表1

2011年3月11日至2012年3月10日Twitter上的推文和Twitter id的特征。

	微博	Twitter id
总计	18891284年	1168543年
平均/天，n (95% CI)	51616年(48044 - 55187)	23626年(21695 - 25557)
标准偏差	34747年	18786年
偏态	5.85	5.04
峰度	43.15	32.07
最小/天,n	25769年	9421
25^th百分位/天,n	38766年	15621年
平均每天,n	43345年	18994年
75^th百分位/天,n	51703年	23448年
最大/天,n	388984年	187291年

空气剂量率随风向和气候条件有一定变化。MPs每隔10分钟输出空气剂量率的数据。我们下载了公开的数据，并选择了8个MPs来显示空气剂量率。图3显示每周每天的推文平均小时频率。推特的频率从凌晨4点到5点下降，然后在中午12点达到峰值。晚上8点又增加了一次。我们观察到，无论一周中的哪一天，每天的总体模式几乎是不变的。

图4和表2显示每日推文计数和平均MP空气剂量率的相似性。图4显示了从2011年3月11日到2012年3月10日整段时间内的归一化推文计数的时间序列图，以及在福岛第一核电站内测量的空气剂量辐射率。在2011年3月11日之后出现了一个峰值，9月和10月出现了一个相对较小的峰值;每天也有一些变化。以每隔10分钟获得的数据为基础，计算每天在MP下观测到的空气剂量值的平均值。在空气剂量率和推文数量之间观察到相似性。

图5显示关键字的曲线图，包括按月平均的每周每天的比例。比例图包括辐射在上午7时左右和晚上9时左右，出现了一些正峰值和负峰值( 图5一个);的情节放射性似乎是相反的辐射（图5B)。

表2

归一化MPs和归一化tweet计数之间差异的平方和。MP-5和MP-6的归一化空气剂量率与归一化推文计数图拟合良好。

与推文数比较
监控岗位	差的平方和
MP-1	28.72
MP-2	62.51
mp - 3	14.35
MP-4	11.59
MP-5	4.66
MP-6	8.24
MP-7	20.93
MP-8	25.40

图3

推文数从2011年3月11日到2012年3月10日的时间序列图推特频率最高达到每天388,984条。

图4

2011年3月11日- 2012年3月10日归一化推文数时间序列图

图5

图中的关键词辐射和放射性，包括按月平均的比例为每周的每一天。

推特事件的生存分析:关键字衰减期的估计

我们对包含这些关键词的推文进行了生存分析。图6显示了包含关键词的推文首推率的Kaplan-Meier曲线辐射或放射性．的曲线放射性低于辐射．人们继续在推特上发布这个词放射性在第一条推文发布一年后，在1168542个用户id中，有880108个(75.32%)发布了推文放射性（图6)．平均衰减时间为63.4天(标准误差[SE] 0.152)，平均衰减时间为31.9天(SE 0.096) 辐射和放射性，分别( 表3)．这些关键字的平均衰减周期比辐射单元关键字短得多。的事件数 Sv是两倍吗 Bq是的五倍孔侑（表3)．我们对剩下的数据进行了审查。

表3

从Twitter数据获得的事件数和估计衰减期。

关键字(日语)	推特ID计数	事件	审查	%审查	的意思是,天	95%控制下限	95%控制上限
放射性(放射能)	1168542年	880108年	288434年	24.68	31.9	31.7	32.1
辐射(放射線)	1168542年	710924年	457618年	39.16	63.4	63.1	63.7
Sv	1168542年	107522年	1061020年	90.8	300.6	300.2	301.0
Bq	1168542年	53034年	1115508年	95.46	330.3	330.0	330.6
孔侑	1168542年	17111年	1151431年	98.54	354.6	354.4	354.8

图7显示了包含关键字的推文的首推率的Kaplan-Meier曲线 Sv， Gy,和 Bq．用户继续在推特上发布消息，内容包括 Sv在第一条推文发布一年后。在1168,542个用户id中，107,522个(9.20%)发布了推文 Sv．我们无法获得2011年3月11日至2012年3月10日之间的首条推文率的中位数，因为事件率在一年内下降到约0.8。

我们观察到，在2011年3月11日之后的头7天里，不使用twitter的比例急剧下降( 图6)．这一发现表明机器人会自动发推文。机器人发布的推文可以从内容中识别出来;但是，由于自然语言处理在这种情况下是非常困难的，因此我们没有对这些用户id进行具体的数据处理，并且我们认为机器人识别超出了本研究的范围。引用辐射单位的推文的非推文率逐渐下降，在( 图7)．表3显示事件和经过审查的数据的计数。

图6

包含辐射或放射性关键词的推文的推文率的Kaplan-Meier曲线。

图7

包含关键词Bq、Gy、Sv的推文的推文率的Kaplan-Meier曲线。

讨论推特和推特ID趋势在计数图中变得稳定

一天内发布关键字的Twitter id的最大数量约为18.7万个。Twitter id的最小数量为每天9421个(约为最大值的5%)，而中位数为每天18994个(约为最大值的10%)。然而，75^th百分比(23,448 id /day)与中位数( 表1)．我们观察到，每天的最大id数量是一个异常值。

虽然Twitter id的数量并没有直接表明用户的数量，但只有1.00%的Twitter用户看起来是机器人( 表4)．机器人的影响是可以估计的，我们决定不对可疑机器人的推文进行特定的数据处理。我们无法在人群中建立社交媒体的Twitter份额;然而，据估计，2011年日本有79.1%的人口是互联网用户[ 33］．因此，我们可以得出结论，来自Twitter的调查显示了一种与整个人口有关的趋势。

表4

每个Twitter ID的推文计数百分比(N=1,168,542)。

水平	百分位	数量(n)
最大	100％	71793年
	99％	243
	95％	42
	90％	18
3.^{理查德·道金斯}四分位数	75％	6
中位数	50％	2
1^圣四分位数	25％	1
	10％	1
	5%	1
	1%	1
最低	0％	1

时间序列图及与其他流行病学资料的结合

推文时间序列图( 图3)在2011年3月11日之后出现了激增，然后开始下降，直到2011年5月，此后推文数量似乎趋于稳定。在2011年9 - 11月有两个峰值。我们假设推文的数量倾向于跟随辐射剂量的减少( 图4）;然而，很难估计大众传媒的影响。我们认为公众的担忧很快就消失了，尽管事实上辐射暴露的风险仍然存在。推文数量的减少可能是因为推特用户并不住在福岛第一核电站附近，但还需要进一步的研究来确定用户的位置。

当我们研究2011年9月10日推文激增相关事件时( 图3)，我们发现日本经济产业省大臣在接受采访时对福岛第一核电站事故做出了负面评价，日本大众媒体也播出了这一声明。当时的推特数据内容显示，许多推文提到或转发了这条新闻。2011年10月13日，我们发现推特的数量增加了，因为在东京的一所房子下面发现了一个密封的放射源，大众媒体播放了这个消息。然而，这一事件与福岛第一核电站事故没有直接关系，尽管推特用户仍然将其解读为辐射暴露的新闻。

时间序列图图3表明推特趋势有些模糊，因为它与有多少用户真正关心辐射暴露有关。从另一个角度来看，我们观察到一个简单的推文计数图表明，公众的关注度起初很高，然后下降并趋于稳定。

估计衰减期

我们观察到，第一个推文计数在数量上不同，与 Sv被提及最多的，其次是 Bq和孔侑．这些数据表明，推特用户使用辐射装置观察大众媒体 Sv,这与辐射暴露对人体的影响有关。大约1.00%的Twitter用户id发布了大量与我们的关键字相关的推文(全年超过200条);我们检查了这些消息的内容，并确定它们具有自动发布消息的特征，例如每日辐射报告。为了估计这些索引的活动，仍然存在非人类用户id的问题。一些研究人员报告了基于推文内容的自然语言处理技术;然而，识别非人类用户仍然很困难。 24， 25］．

平均值和中值之间的差异似乎还有另一个原因:一些id在观察期间没有发布任何消息。因此，假定平均数已大大降低，但需要进行灵敏度分析以澄清这一问题。为了预测趋势在一段时间内的变化，需要从另一个领域，如时间序列分析，来减少循环变化的方法。

我们无法从Kaplan-Meier图中估计中位衰减期。然而，我们估计了2011年3月11日之后365天的非第一次推文率(存活率)。观察到该用户ID的第一条推文(包含关键字)，并且在前7天内非术语推文率有所下降。在这个时间点上的减少高度依赖于我们确定为机器人的用户。我们在研究中没有排除这些，因为这导致了对不推特率的高估偏见。图6和图7表明非推特率随时间逐渐下降。在参考时间序列图中图3，在图中只显示了少量的推文，趋势在前7天出现了一个陡峭的峰值，之后趋于稳定。当我们专注于Kaplan-Meier图时( 图6和图7)，我们清楚地观察到，这条第一次提到关键词的推文连续发布了一年。

图6和图7显示，在福岛第一核电站事故发生一年后，用户id发布关键字的比例有所增加。简单的时间序列图图3显示事故发生后立即达到峰值，随后推文数量下降，表明公众关注趋于稳定。然而，推特用户对核暴露有恐惧或担忧，如事件概率图( 图6和图7)．当我们绘制推文数量的时间序列图时，与公众关注相关的信息被隐藏了。我们必须考虑到，并非每一条推文都表达了对辐射暴露的负面态度，尽管公众的担忧可能是对辐射暴露的否认。福岛核事故发生后，日本各地的核电站都停止了运作，我们认为这一事实支持了反映对核能消极态度的推文内容。因此，根据时间序列使用事件概率图是实现这一目的的强大技术。

限制

我们使用推特数据来检测公众对辐射暴露的担忧;然而，在我们的研究中出现了一些歧义。如果我们在流行病学研究中遵循监测技术，我们应该确定研究中的每个参与者，并对他们进行时间序列跟踪。我们有Twitter用户id，这些可以被一个自动化程序共享或检查。我们假设这一事实在流行病学领域不被接受，尽管我们想强调这种方法在早期预测和量化公众对社会事件的关注方面的有效性。

此外，我们跟踪了与辐射相关的关键字，但我们没有考虑使用它们的上下文。应该将推文的积极或消极因素添加到分析中，这样在分析数据时就可以获得更高的精度。

未来的工作

我们选择了很少的关键词进行分析，对Twitter用户兴趣的估计也有一定的局限性。自然语言处理可以作为一项工程任务用于内容分析。同样，直接的情绪(如担忧或恐惧)在医疗保健领域也具有挑战性。在目前的研究中，低剂量辐射照射的影响尚不清楚。除了对人类健康的生物效应外，我们还想量化这些情绪的影响。使用生存分析仍然存在问题，因为发病的定义不明确，这可能难以作为流行病学领域的观察性研究。需要进一步研究以适应目前的方法。

结论

虽然推文计数的简单图没有显示出明确的结果，但我们估计关键字的平均衰减周期大约是一个月放射性,并发现这个关键词在调查期结束时仍在使用。还需要进一步的研究来量化社交媒体数据中其他短语的影响。这一探索性研究的结果将推动在影响和量化风险沟通方面取得进展。

缩写

亚撒

美国统计协会

贝克勒尔

CSV

逗号分隔值

频率

孔侑

灰色的

识别

国会议员

监控岗位

情景应用程序

统计分析系统

标准错误

西韦特

作者非常感谢匿名推荐人富有洞察力的评论和反馈。这项工作得到了具有挑战性的探索性研究资助(26670293)的部分支持。

没有宣布。

Jungherr

一个

用数字追踪数据分析政治传播:推特信息在社会科学研究中的作用

2015 6 25

德国海德堡

施普林格

铃木

基于辐射知识真假测试的人群焦虑因素分析

JJSC 2014 6 15 3. 16 [日语文章]

Slovic

风险感知

科学 1987 04 17 236 4799 280 5

3563507

梅塔

医学博士

Simpson-Housley

特质焦虑和对潜在核电站灾难的感知

Psychol代表 1994 02 74 1 291 5

10.2466 / pr0.1994.74.1.291

8153221

常

提单

弗里德曼

Kukafka

Eysenbach

哈里森

刘易斯

卡普兰

Jimison

乙肝

勋伯格

刘易斯

Eysenbach

Kukafka

Stavri

Jimison

消费者健康信息:告知消费者并改善医疗保健 2005

纽约

施普林格

霜

奥肯

年代

沃恩

海伍德

威克斯

患者报告的结果作为超说明书处方的证据来源:来自PatientsLikeMe的数据分析

J医疗互联网服务 2011 01 21 13 1 e6

10.2196 / jmir.1643

21252034

v13i1e6

PMC3221356

施罗德

海尔哥哥

德赛

Schmittdiel

晶澳

Paolino

基于“增大化现实”技术

施耐德

莱托

古德里奇

门将

劳伦斯

牛顿

公里

尼克尔斯

遗传算法

奥康纳

Fitz-Randolph

米

施泰纳

摩根富林明

为研究提供信息的创新方法:从在线患者社区收集糖尿病护理挑战的观点

Interact J medical Res 2015 06 30. 4 2 e13

10.2196 / ijmr.3856

26126421

v4i2e13

PMC4526969

中央统计局

70%的互联网用户活跃在社交媒体上 2013 04 10

2016-11-07

http://www.cbs.nl/en-GB/menu/themas/vrije-tijd-cultuur/publicaties/artikelen/archief/2013/2013-3907-wm.htm

内政和通信部

信息与通信统计数据库 2013

2016-11-07

http://www.soumu.go.jp/johotsusintokei/statistics/statistics05b1.html

Skiba

护理教育2.0:推特和推特。你能在140个字符以内发布一个宝贵的知识吗?

Nurs教育展望 2008 29 2 110 2

18459627

泰晤士河

Twitter是一种教育工具

儿童青少年精神科护士 2009 11 22 4 235

10.1111 / j.1744-6171.2009.00208.x

19930305

JCAP208

布里斯托尔

推特:考虑继续护理教育的可能性

J控制教育护士 2010 05 41 5 199 200

10.3928 / 00220124-20100423-09

20481418

Mistry

重症监护培训:使用Twitter作为教学工具

Br J Nurs 2011 20. 20. 1292 6

10.12968 / bjon.2011.20.20.1292

22068003

Eysenbach

信息流行病学:追踪网络上与流感相关的搜索，以进行症状监测

AMIA年度诉讼程序 2006 244 8

17238340

86095

PMC1839505

Eysenbach

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为

J医疗互联网服务 2009 03 27 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

圣路易斯

Zorlu

Twitter能预测疾病爆发吗?

BMJ 2012 05 17 344 e2353

22597352

杰苏阿尔多

Stilo

阿格里科拉

Gonfiantini

Pandolfi

Velardi

Tozzi

通过自动学习naïve语言在Twitter上监测流感样疾病

《公共科学图书馆•综合》 2013 8 12 e82489

10.1371 / journal.pone.0082489

24324799

玉米饼- d - 13 - 24070

PMC3853203

咀嚼

Eysenbach

推特时代的流行病:2009年H1N1爆发期间推特的内容分析

《公共科学图书馆•综合》 2010 11 29 5 11 e14118

10.1371 / journal.pone.0014118

21124761

PMC2993925

赵

日元

格里尔

邱

密特拉

口感

寻找在线健康社区有影响力的用户:基于情绪影响的新指标

美国医学信息协会 2014 10 21 e2 e212 8

10.1136 / amiajnl - 2013 - 002282

24449805

amiajnl - 2013 - 002282

PMC4173171

20.

兰妮

3D数据管理:控制数据量、速度和种类。元组 2001

2016-11-07

http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

鲁丁

Dunson

伊

霁

标签

韭菜

麦考密克

玫瑰

年代

谢弗

范德朗

米

沃瑟曼

雪

数据发现:利用统计学和计算机科学来改变科学和社会 2014

2016-11-07

http://www.amstat.org/ASA/Science-Policy-and-Advocacy/home.aspx

Shneiderman

Plaisant

用于层次结构空间受限可视化的树图，包括马里兰大学树图研究的历史 2014

2016-11-16

http://www.cs.umd.edu/hcil/treemap-history/

Gianvecchio

年代

吴

谢

米

王

僵尸之战:在网络游戏中与人类观察证明的机器人战斗

第16届ACM计算机与通信安全会议论文集 2009 11 09

第16届ACM计算机和通信安全会议，ACM:芝加哥，伊利诺伊州，美国

11月09日至13日

256 68

Gianvecchio

年代

谢

米

吴

王

网络聊天中人类和机器人的测量和分类

第十七届安全专题讨论会论文集 2008 07 28

第十七届安全研讨会。USENIX协会;圣何塞，加利福尼亚州

7月28日至8月1日

155 69

Stone-Gross

一家名为

米

Cavallaro

吉尔伯特

Szydlowski

米

Kemmerer

你的僵尸网络就是我的僵尸网络:僵尸网络接管分析

第16届ACM计算机与通信安全会议论文集 2009 11 09

第16届ACM计算机和通信安全会议

11月09日至13日

美国伊利诺伊州芝加哥市

1653738

ACM

635 47

Twitter Inc .)

Twitter Inc .) 2016

2016-11-16

https://twitter.com

诺瓦克

一个

El-Burki

定义身份与数字时代文化范围的变化 2016

宾夕法尼亚州

IGI全球

东京电力公司

福岛第一核电站内监控站状态测量 2016

2016-11-07

http://www.tepco.co.jp/nu/fukushima-np/f1/index-j.html

Uzuner

戈尔茨坦

我

罗

小羽

我

从医疗出院记录中识别患者吸烟状况

美国医学信息协会 2008 15 1 14 24

10.1197 / jamia.M2408

17947624

M2408

PMC2274873

30.

卡雷尔

Miglioretti

Smith-Bindman

使用癌症文本信息提取系统(caTIES)对免费文本放射报告进行编码

AMIA年度诉讼程序 2007 10 11 889

18693990

Kalbfleisch

普伦蒂斯

故障时间数据的统计分析 2002

新泽西州霍博肯,

威利

阿米蒂奇

浆果

马修斯

医学研究中的统计方法 2002

马马登,

布莱克韦尔科学

内政和通信部

2011年通讯使用趋势调查 2012

2016-11-17

http://www.soumu.go.jp/johotsusintokei/tsusin_riyou/data/eng_tsusin_riyou02_2011.pdf