这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在2007年和2008年,香港的啤酒和葡萄酒税减半,然后取消,导致酒精消费增加。互联网的普及和青少年和成年人的高博客率为通过信息流行病学研究饮酒模式提供了独特的机会。
评估及解释2005-2010年香港人(以香港中文博客网站的博客作者为代表)在网上使用与酒精相关的中文关键词的情况,并验证博客搜索可作为一种资讯监察方法,以调查香港人饮酒模式(如酒精种类)的变化。
博客搜索是使用博客搜索引擎谷歌博客搜索完成的,在香港博客服务提供商MySinaBlog的档案中,从2005年到2010年。使用了三组中文关键词,每组代表一个与酒精相关的特定概念:(1)“酒精”(即控制概念),(2)“啤酒或葡萄酒”,以及(3)“烈酒”。使用信息流行病学指标和相关系数对产生的博客文章进行定量分析,并通过人工工作进行定性分析。信息流行病学指标为(1)表观流行率,(2)实际流行率,(3)流行率,(4)流行比。Pearson和Spearman相关性计算了患病率和与人均酒精消费量的比率。手工分析主要集中在(1)博客作者特征(如作者、性别、年龄)和(2)博客内容(如关键词出现频率、对某一段饮酒事件的描述、饮酒量和类型)。
2008年和2008-2009年,“酒精”和“烈酒”等与酒精相关的概念在网上的使用率显著上升,但“啤酒或葡萄酒”等相关概念的使用率逐年下降。信息流行病学和流行病学数据之间的相关性仅对“酒精”患病率有显著意义。大多数博客都是由单个作者管理的。性别分布均匀,以18岁及以上为主。并不是所有的中文关键词都被找到了。许多博客文章并没有描述一个单独的饮酒事件,而是被归类为个人日记、观点或情感发泄。其余的缺乏饮酒量的信息,这阻碍了对酗酒的评估。
与酒精相关的中文关键词在网上的流行归因于许多不同的因素,包括垃圾邮件,因此不能具体反映当地的饮酒模式。信息流行病学数据(以酒精相关概念的患病率和比例表示)与流行病学数据(以人均酒精消费量表示)之间的相关性较差。许多博客文章本质上是情感的,而不是信息的。如果有足够的专业知识和资源,建议对博客内容进行语义分析。
酒精是一种人类致癌物,尽管经常被忽视。
不过,香港特别行政区政府已于2007年将酒度不超过30%的啤酒及葡萄酒的关税减半[
信息流行病学是信息和流行病学的合成词,根据Eysenbach的说法,信息流行病学是"研究电子媒介,特别是因特网或人群中信息的分布和决定因素的科学,其最终目的是为公共卫生和公共政策提供信息" [
在过去的十年里,人们努力克服了从网上数据库中收集和分析大量非结构化信息的困难。[
在线社交网络在不断发展。利用适当的挖掘和分析技术[
与其他社交网站一样,博客以其时间戳、消费者生成的内容和可扩展的数据库为特色,这使得它们在纵向数据检索和分析方面具有潜在的用处[
在香港,互联网的使用无处不在。根据香港特别行政区政府的一项调查,本港人口的互联网普及率持续上升,由2005年的56.9%上升至2012年的72.8%。近70%的网民是10-44岁的青少年和成年人[
博客分析有不同的方法。有些(如时间序列扫描,语义分析)需要特殊的软件和大量的时间和计算资源的投资[
目前,使用博客搜索和中文关键字进行的地方公共卫生研究很少。如果博客搜索数据与当地流行病学数据相关联,临床医生(和政策制定者)可以很容易地用实时、廉价、快速的博客搜索来取代传统的监测方法来跟踪公共健康。即使没有相关性,像这样的解释性研究通过展示中文博客搜索在英语主导的研究环境中的挑战,仍然有助于健康信息学的发展。由于零啤酒和葡萄酒税,香港的酒精消费量明显上升,这为博客搜索数据可以根据本地流行病学进行验证提供了一个合理的框架。
本研究利用现有的搜索工具及网络资源,旨在:(1)评估及解释与酒精相关的中文关键词在网上的使用情况;(2)验证博客搜索作为一种资讯监测方法,以调查2007- 08年啤酒及葡萄酒税变更后香港人(以香港中文博客服务供应商的博客作者为代表)饮酒模式(如酒精种类)的变化。
本研究假设如下:
(H1) 2007- 2008年之后,随着啤酒或葡萄酒税收政策的变化,中国博客中与酒精相关的概念,尤其是“啤酒或葡萄酒”的网络流行度有所上升。
(H2)信息流行病学数据(以酒精相关概念的患病率和比例表示)与当地流行病学数据(以人均酒精消费量表示)显著相关。
据我们所知,这是香港首次使用博客搜索来研究与公共健康有关的课题。选择饮酒问题是因为其公共健康利益和税收政策变化的明显影响。博客是数据提取的目标,因为选择本地排名和访问者最高的博客服务提供商可以最大限度地提高区域利益,而不像Twitter或Facebook等其他社交网站往往覆盖广泛的地理区域。
本研究主要有两组数据:(1)信息流行病学和(2)流行病学。信息流行病学数据来自特定搜索引擎索引的现有博客,而流行病学数据来自涉及公共卫生问题的政府文件。为了减少专业知识和技术投资,本研究使用免费的基于网络的博客搜索引擎谷歌博客搜索,从香港博客服务提供商MySinaBlog的档案中提取2005-2010年的数据。研究人员使用了三组中文关键词,每组代表一个特定的与酒精相关的概念。它们是(1)“酒精”(即控制概念),(2)“啤酒或葡萄酒”,以及(3)“烈酒”。使用信息流行病学指标和相关系数对产生的博客文章进行定量分析,并通过人工工作进行定性分析。信息流行病学指标为(1)表观流行率,(2)实际流行率,(3)流行率,(4)流行比。Pearson和Spearman相关性计算了患病率和与同期人均酒精消费量的比率。人工分析包括:(1)博客作者特征(如作者、性别、年龄),(2)博客内容(如关键词出现频率、对某段饮酒事件的描述、饮酒量、类型)。采用流行率和比例来评估酒精相关概念的网络流行程度,而通过相关分析和人工分析来验证博客搜索数据是否可以作为人口调查的信息监测方法。
博客服务提供商的在线数据库支持搜索任务和信息病学数据的收集。入选标准为(1)免费,(2)目前正在使用,(3)最近一次更新是在2010年或之后。因此,共有19家博客网站从852.com [
Alexa在香港的流量排名,来自香港的每日访客百分比,以及主要国家一个(截至2013年4月12日)。
URL | 香港Alexa流量排名 | 每日从香港来港旅客的百分比 | 主要的国家 |
blogcity.me | 1145 | 74.2 | 香港 |
blog.mingpao.com | 94b | 56.8b | 香港 |
blog.yahoo.com/explorer/hk | 4b | 0.8b | 美国 |
hk.xanga.com | 571 | 5.4 | 美国 |
lifestream.aol.com | 资料不可用 | 资料不可用 | 美国 |
mysinablog.com | 201 | 50.8 | 香港 |
qooza.hk | 417 | 35.7 | 香港 |
showhappy.net | 资料不可用 | 资料不可用 | 美国 |
spaces.live.com | 资料不可用 | 资料不可用 | 伊朗 |
space.gogo.la | 1352b | 67.0b | 香港 |
space.uwants.com/html/blog.html | 22b | 57.4b | 香港 |
wordpress.com | 资料不可用 | 资料不可用 | 美国 |
www.blogger.com | 资料不可用 | 资料不可用 | 印度 |
www.ezhk.net | 资料不可用 | 资料不可用 | 香港 |
www.hkflash.com/diary | 7012b | 25.6b | 韩国 |
www.livejournal.com | 资料不可用 | 资料不可用 | 俄罗斯 |
www.mocasting.com | 16435年 | 51.8 | 中国 |
www.myspace.com | 资料不可用 | 资料不可用 | 美国 |
www6.mobichai.com/blog | 资料不可用 | 资料不可用 | 香港 |
一个或者服务器位置,如果主要国家不知道。
b表示来自其非博客域服务器的唯一可用数据。
Thelwall的一项研究比较了11个博客搜索引擎的能力和局限性。
在每个搜索查询中,包括:(1)与酒精相关的中文关键字,由布尔运算符“OR”连接,以及(2)博客服务提供商的URL,表示为“site:mysinablog.com”。为了获得博客文章的总数,将关键字替换为空格。日期指定为2005-2010年每年的1月1日至12月31日。时间框架是这样决定的,因为MySinaBlog在2005年开始运行他们的服务。
在这项研究中,与酒精相关的特定关键词组形成了博客搜索的基础。每个组对应一个概念,由多个由布尔运算符“OR”连接的关键字组成(这将返回包含任何搜索词的博客文章),以探索同一概念,正如Eysenbach在他的信息流行病学和信息监视框架中所建议的[
英文单词“alcohol”(酒精)用林语堂的《汉英现代用法词典》(网上版)翻译成中文[
属于"啤酒或葡萄酒"及"烈酒"概念的关键词取自香港特别行政区政府海关发出的一份文件[
将与酒精相关的概念及其对应的中文关键词输入搜索栏。
Eysenbach主张使用相对指标,例如比率,来代替绝对数字来代表信息普及,因为网站的数量是不断变化的[
2005-2010年香港酒类总消费量及人均消费量(根据香港特别行政区政府卫生署资料改编)。
一年 | 纯酒精总消耗量(升) | 年龄≥15岁的人口 | 人均酒精消费量(升) | ||
啤酒和葡萄酒 | 精神 | 啤酒和葡萄酒 | 精神 | ||
2005 | 9382633年 | 5376813年 | 5844300年 | 1.61 | 0.92 |
2006 | 9442114年 | 5586247年 | 5918000年 | 1.60 | 0.94 |
2007 | 9878382年 | 5927246年 | 6004700年 | 1.65 | 0.99 |
2008 | 12309905年 | 5946634年 | 6075400年 | 2.03 | 0.98 |
2009 | 11973446年 | 4244254年 | 6130300年 | 1.95 | 0.69 |
2010 | 11252645年 | 5156867年 | 6209800年 | 1.81 | 0.83 |
信息流行病学指标的定义/公式。
通过相关分析来验证信息流行病学数据在调查当地人口饮酒模式时的使用,如图所示
博客搜索完成后,博客文章被保存在。html文件中,以供后续分析,以避免由于时间延迟造成的差异。手工分析主要集中在(1)博客作者特征(即作者、性别和年龄)和(2)博客内容(即关键词出现频率、对某一段饮酒事件的描述、饮酒量和类型)。他们将为流行病学调查中使用博客搜索数据的有效性提供进一步的信息。它们的子类别和标准列于
以“酒精”为关键词的博客文章不包括在人工分析中,因为其中很大一部分预计会与包含“啤酒或葡萄酒”和“烈酒”关键词的博客文章重叠。它们在分析人群的饮酒模式(如酒精的选择)时可能没有特别的帮助。
值得注意的是,大多数免费文本分析工具不支持中文,也无法识别关键字在博客中的位置(例如,页眉、正文、边栏、页脚和评论)。目前可用的中文索引并不太方便使用,因为它们缺乏外部编码器/解码器、上下文关键字(KWIC)格式,或用于语义分析或意见挖掘的内置字典[
信息流行病学和流行病学数据的相关性。
Infodemiological数据 | 流行病学数据 |
“酒精”流行率 | 所有酒类的人均消费量 |
“啤酒或葡萄酒”的流行率 | 啤酒和葡萄酒的人均消费量 |
“精神”患病率 | 人均烈酒消费量 |
"啤酒或葡萄酒" / "酒精"流行率 | 啤酒和葡萄酒的人均消费量 |
"烈酒" / "酒精"流行率 | 人均烈酒消费量 |
2005-2010年myinablog中包含“啤酒或葡萄酒”和“烈酒”关键词的博客文章的类别、子类别和手动分析标准。
类别 | 子分类 |
作者 | (1)单个作者,或(2)多个作者 |
性 | (1)女性,(2)男性,或(3)未知 |
年龄 | (1)未满18周岁,(2)年满18周岁,(3)不明 |
关键词出现频率 | 不适用 |
对一次饮酒事件的描述 | (1)是,或(2)不是 |
饮用量 | (1)酗酒,(2)非酗酒,(3)不确定 |
类型 | (1)不属于酒精的地方/人物/实体名称,如歌词,(2)食谱/菜肴名称,(3)外部来源的新闻/复制文章,(4)故事叙述/电影简介,(5)健康/教育信息,(6)无主见的特色文章,(7)个人日记/观点/情感宣泄,或(8)以上一项以上 |
博客搜索是在2013年4月12日完成的,人工分析是由研究员KL Chan在随后的一周完成的。结果如下所述。
“酒精”的明显流行度始终高于“啤酒或葡萄酒”和“烈酒”,这是有道理的,因为“酒精”是控制概念。然而,2005年,"酒精"的明显流行率仅为3%,而"啤酒或葡萄酒"的流行率为5%。这可能是由于翻译困难,“酒精”的中文字符没有涵盖“啤酒或葡萄酒”和“烈酒”等所有关键词。另一方面,2005-2007年和2010年,“啤酒或葡萄酒”的明显流行度高于“烈酒”。然而,在2008年,两者不相上下。2009年,“烈酒”的明显流行度超过了“啤酒或葡萄酒”,相差17个百分点。
在这三个概念中,当它们的值增大时,表观患病率和实际患病率之间的差异变得更加明显。例如,2005年"酒精"的表观流行率为3,与实际流行率相同;但在2006年,随着前者增加到26个,两者相差了12个。到2010年“酒精”的表观流行度达到1390时,“酒精”的实际流行度仅为195,相差1195。特别值得注意的是,由于博客中的垃圾邮件,2008年和2009年“烈酒”的实际流行度分别为12和13,远低于表面流行度(分别为73和115)。“酒精”和“啤酒或葡萄酒”的表观流行率和实际流行率的趋势基本对称,但在2010年,“啤酒或葡萄酒”的实际流行率达到峰值,而不是下降。
从2005年到2010年,在我的博客中,与酒精相关的概念的博客文章总数、表面和实际流行率。
一年 | 博客文章总数 | 表观患病率(实际患病率) | ||
“酒精” | “啤酒还是葡萄酒” | “精神” | ||
2005 | 394 | 3 (3) | 5 (5) | 0 (0) |
2006 | 1810 | 26日(14) | 16 (15) | 3 (3) |
2007 | 5620 | 120 (59) | 27日(15) | 5 (5) |
2008 | 11500年 | 1180 (150一个) | 73 (28) | 73 (12a、b) |
2009 | 16000年 | 1290 (190一个) | 98 (25) | 115 (13a、b) |
2010 | 20400年 | 1390 (195) | 70 (41c) | 3 (3) |
一个最终的数据包括那些最初被隐藏并由博客搜索引擎提示的博客文章。
b在排除了实际上不包含关键词的垃圾博客之后。
c在排除了一篇由于安全原因无法访问的博客文章之后。
“酒精”的患病率一直高于“啤酒或葡萄酒”和“烈酒”,2005年“酒精”的患病率仅为0.76%,而“啤酒或葡萄酒”的患病率为1.27%。这可能是前面说过的翻译困难造成的。在2005-2007年和2010年,“精神”的使用率是三个概念中最低的。然而,在2008年,它的流行率与“啤酒或葡萄酒”持平,而在2009年,它的流行率完全超过了它。
人均饮酒量与“酒精”患病率有很强的相关性(Pearson相关性=0.81,
“啤酒或葡萄酒”/“酒精”的患病率与啤酒和葡萄酒的人均消费量呈强负相关(Pearson相关系数=-0.65,
2005-2010年在我的博客中与酒精相关概念的流行率,以及与香港同类型酒精的人均消费量比较的相关系数。
|
|
患病率(%) | ||
|
|
“酒精” | “啤酒还是葡萄酒” | “精神” |
|
|
|
|
|
|
2005 | 0.76 | 1.27 | 0 |
|
2006 | 1.44 | 0.88 | 0.17 |
|
|
|
|
|
|
2007 | 2.14 | 0.48 | 0.09 |
|
2008 | 10.26 | 0.63 | 0.63 |
|
2009 | 8.06 | 0.61 | 0.72 |
|
|
|
|
|
|
2010 | 6.81 | 0.34 | 0.01 |
|
|
|
|
|
|
皮尔森 | 0.81(0。) | -0.48(点) | -0.40(点) |
|
斯皮尔曼 | 1.00(<措施) | -0.43(收) | -0.09(.87点) |
2005-2010年,我的博客中与酒精相关概念的流行率,以及与香港同类型酒精的人均消费量的相关系数。
|
|
流行率(%) | |
|
|
"啤酒或葡萄酒" / "酒精" | "烈酒" / "酒精" |
|
|
|
|
|
2005 | 1.67 | 0 |
2006 | 0.62 | 0.12 | |
2007 | 0.23 | 0.04 | |
2008 | 0.06 | 0.06 | |
2009 | 0.08 | 0.09 | |
2010 | 0.05 | 0.00 | |
|
|
|
|
|
皮尔森 | -0.65 (16) | -0.10(新) |
|
斯皮尔曼 | -0.77 (07) | -0.03(.96点) |
如
如
从2005年到2010年,MySinaBlog中使用酒精相关关键词的博客的实际流行度根据作者分类(公司或组织的博客被算作多个作者;同一注册用户在同一年内发布的不同博客被视为一个博客)。
从2005年到2010年,MySinaBlog中使用酒精相关关键词的博客的实际流行率根据单身作者的性别进行分类。
2005-2010年我的博客中与酒精相关的关键词的实际流行度根据单身作者的年龄进行分类。
2005-2010年MySinaBlog博客文章主体中“beer or wine”关键词的点频
2005-2010年MySinaBlog博客文章主体中“精神”关键词的点频
2005-2010年在我的博客中使用酒精相关关键词的博客文章的实际流行率根据对饮酒的描述进行分类(用于烹饪的酒精被排除在外)。
2005-2010年,在我的博客中,使用酒精相关关键词的博客文章的实际流行率,以及对一次饮酒事件的描述,根据饮酒模式进行分类(酗酒定义为在几个小时内连续喝5杯酒)。
2005-2010年,在我的博客中,有与酒精相关的关键词,但没有对饮酒事件进行描述的博客文章的实际流行程度按类型分类。
与酒精相关的概念在网络上的流行程度最能体现为其流行率和比例,这两项指标标准化了博客总数变化的影响[
2008-2009年“精神”关键词在网上流行的一个可能原因是同期垃圾邮件的存在。这在表观患病率中被掩盖了,这是用来计算患病率和比率的。的确,剔除2008-2009年的数据后,“精神”概念的流行率和比例相对稳定在一个较低的水平。“spirit”在线流行度的虚假上升可能也解释了“alcohol”在2008年的流行率峰值,尽管后者的幅度要大得多,但“alcohol”(酒精)而非“啤酒或葡萄酒”或“spirit”的关键词仍有可能出现真正的上升。“啤酒还是葡萄酒”在网上的流行程度下降,可能是博主们对这个话题兴趣下降的真实反映。然而,它与当地饮酒模式的关系仍然存疑,因为许多博客文章实际上并没有描述一个单独的饮酒事件。"烈酒"和"酒精"这两个概念也是如此。
博客搜索数据的验证依赖于相关性分析和对博客作者特征和内容的人工分析。“酒精”的流行率是唯一与人均酒精消费量具有显著非线性和极显著线性相关的参数。其他相关性都不显著,尽管其中许多表现出中等至强的相关性。信息流行病学数据与当地流行病学数据显著相关的假设仅适用于“酒精”患病率。其他信息流行病学指标在统计上的不显著性可能可以用博客文章相对于人口的数量较少来解释。这可以归结为以下原因:
选择关键字。“啤酒或葡萄酒”和“烈酒”的关键词列表永远不可能详尽无遗,因为它们的类型很多,博主的表达也非常多变。在香港人的网上交流中,混杂中文和英文字母的密码并不少见。他们中的一些人实际上会输入粤语(越族方言)而不是标准中文[
香港人消极写博客的行为。香港特别行政区政府在2011年2月至4月进行的一项调查显示,53.4%的互联网用户在过去12个月内曾浏览论坛或博客的内容,但同期只有约15.8%的互联网用户编辑或创建网页或博客[
从手工分析来看,大多数博客都是由单个作者管理的,这意味着博客的数量可以用来表示人口调查中个体参与者的数量。单身博客作者的性别分布与当地人口接近,但年龄范围略倾向于18岁及以上[
许多博客文章都不是关于饮酒的个别事件,而是个人日记、观点或情感宣泄。这并不奇怪,因为新的博客类型不断出现。
使用博客作为信息来源有几个固有的局限性。例如,个人博主的性别、年龄、种族等人口统计数据可能存在缺陷或被掩盖;博客作者倾向于分享与一般人不同的共同兴趣和背景;而且获取诸如饮酒模式等精确数据通常很困难。为了及时有效地构建一个更大的框架,信息学研究人员经常不得不通过使用特定的信息学指标来牺牲每个博主的个性。此外,博主的语言使用往往比较复杂,不容易通过一些预先确定的关键字的频率来解码。在提供足够技术支持的情况下,通过对博客文章的语义分析来探究博主对饮酒的看法是可行的。可以对个别博客作者进行面对面访谈和问卷调查,以阐述他们的观点,最好是那些在特定博客圈内具有最大影响力的人(使用社交网络分析工具)。
没有一个博客搜索引擎索引了所有的博客[
使用中文搜索博客的一个挑战是,由于地理差异和与英语的翻译,它往往有广泛的表达。此外,只有有限数量的博客分析工具支持中文。最理想的是自行设计的研究项目,其中包含了丰富的博客搜索算法和分析功能,尤其是针对中国博客,这在很大程度上取决于专业知识和资源的可用性。
利用香港中文博客服务提供商的博客搜索数据,我们得出以下结论:(1)与酒精相关的中文关键词在网上的流行程度是由包括垃圾邮件在内的许多不同因素造成的,因此不能具体反映当地的饮酒模式;(2)资讯病学数据(以酒精相关概念的患病率和比例表示)与流行病学数据(以人均酒精消费量表示)之间的相关性较差;(3)许多博客文章本质上是情感性的,而不是信息性的。虽然使用预定义的中文关键词进行博客搜索可能不是调查酒精消费量等流行病学数据的理想方法,但如果有足够的专业知识和资源,对博客内容进行语义分析将提供有关公众对健康相关政策反应的宝贵信息。
香港特别行政区
我们感谢香港大学公共卫生学院何志明博士提供统计方面的意见。
没有宣布。