JMIR J医疗互联网服务 医学互联网研究杂志 14388871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v16i2e65 24568936 10.2196 / jmir.2664 原始论文 原始论文 通过匿名搜索日志寻找关于骑行情绪障碍的见解 Eysenbach 冈瑟 Smalheiser 尼尔。 公园 金合欢 穆勒 亨宁 Antani Sameer Yom-Tov 兰德 博士学位 1
微软研究院 申卡尔街13号 Herzeliya 46875 以色列 972 747111359 972 747111359 eladyt@yahoo.com
白色 Ryen W 博士学位 2 霍维茨 埃里克 医学博士 2
1 微软研究院 Herzeliya 以色列 2 微软研究院 雷蒙德,佤邦 美国 通讯作者:Elad Yom-Tov eladyt@yahoo.com 02 2014 25 02 2014 16 2 e65 10 04 2013 15 06 2013 30. 09 2013 10 01 2014 ©Elad Yom-Tov, Ryen W White, Eric Horvitz。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年2月25日。 2014

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

情绪障碍影响了很大一部分普通人群。周期性情绪障碍的特征是疾病的间歇性发作(或事件)。

客观的

使用匿名的网络搜索日志,我们确定了对情绪稳定药物(MSD)有显著兴趣的人群,并在这一人群中寻找情绪波动的证据。

方法

我们提取了20046名网络搜索者在6个月时间里对微软必应搜索引擎的查询,利用大量外部用户面板的数据分别探索了搜索者的人口统计数据,并通过调查从情绪障碍患者那里寻求支持信息。我们分析了相对于在MSD上搜索的信息需求随时间的变化。

结果

对MSD的查询集中在副作用及其与疾病的关系。我们发现搜索行为和兴趣发生重大变化的证据与MSD查询的天数一致。其中包括营养信息、商业信息和成人资料的获取大幅增加(>100%)。一项对被诊断患有情绪障碍的患者的调查提供了证据,表明反复询问MSD可能会加剧情绪障碍。在观察到此类查询前一天预测查询发生的分类器获得了较强的性能(AUC=0.78)。

结论

观察到的搜索行为模式与已知行为和受访者强调的行为一致。这些观察结果表明,对MSD表现出强烈兴趣的搜索者可能是服用过这些药物的患者。考虑到行为动力学,我们推测MSD查询的日期可能与躁狂或抑郁的开始相一致。虽然我们没有情绪变化的数据,也没有用户是否被诊断为双相情感障碍,但我们在对MSD感兴趣的人身上看到了循环的证据,进一步表明我们可以预测行为和兴趣即将发生的变化。

信息检索 情绪障碍 双相情感障碍 机器学习
简介

在美国和其他发达国家,人们花大量时间上网。 1].这些活动的匿名记录为公共卫生研究提供了前所未有的机会,也为以私人方式为个人服务、帮助他们监测和改善其生活质量的应用提供了机会。最近的一项调查显示81%的美国人使用互联网。 2].当他们寻求医疗信息时,59%的人会在网上搜索。网络搜索引擎在向健康消费者提供医疗信息方面发挥着重要作用,特别是由于在线搜索的匿名性[ 3.,让人们可以轻松地查找和查看敏感信息。

由商业搜索引擎(如谷歌、Bing和Yahoo!能够对用户的搜索行为进行隐私敏感的分析。使用在线资源进行综合征监测已被称为 infodemiology 4].利用互联网信号的可能性出现在大规模使用Web搜索来获取健康信息。先前的研究研究了医学背景下长期搜索行为的多个方面[ 5],例如,以确定流感爆发[ 6],改善医学检索[ 7],以及了解病人的资料需要[ 8].更一般地说,搜索日志数据被用来研究人们如何进行搜索[ 9],以预测他们的下一个网上行动[ 10 11],以预测他们未来的利益[ 8],以改善搜寻引擎[ 12 13],以及从长期日志中了解内部活动[ 5 14

我们在这里分析了人们对情绪稳定药物(MSD)表现出强烈兴趣的在线行为,MSD是用于帮助情绪障碍患者的药物。我们发现证据表明,观察到的行为可能与情绪波动的发作有关,并表明异常在线行为的非典型时期可以通过观察过去的行为并将其与当前观察到的行为进行比较来检测和预测。

情绪障碍(MD)被定义为精神疾病诊断与统计手册(DSM IV)分类系统中与一个人的情感状态变化有关的一组诊断。情绪障碍影响了相当大比例的人口,尽管报告的发病率范围各不相同(9.3%-23.3%)[ 15 16].这些诊断的共同点是情绪障碍是主要的潜在特征。周期性情绪障碍的特点是疾病的间歇性发作。双相情感障碍(BD)的特征是在一系列情感中间歇性的情绪变化,包括躁狂或轻躁狂时期。这类事件降低了患者的生活质量。治疗和药物被用来限制情绪波动发作。药物包括抗抑郁药、抗精神病药和情绪稳定剂。

以往工作[ 8]的研究表明,寻求特定健康信息(例如特定疾病名称)的用户主要是患者和卫生保健专业人员。因此,我们假定许多寻找MD药物的人是那些可能患有MD的人,我们在本文后面给出的结果中为这一猜想提供了支持证据。我们分析这些搜索者的在线行为,并试图预测情绪明显波动的发作和持续时间。我们通过寻找对特定情绪稳定药物(MSDs)有高度兴趣的用户来确定候选队列。在确定了这些用户并注意到他们搜索行为的关键方面之后,我们分析了一项由被诊断患有情绪障碍的人进行的调查。这项调查的数据提供了证据,表明搜索者更有可能是患有情绪障碍的人,而不是寻求患者护理信息的卫生保健专业人员。该调查还提供了在线(数据集1)用户对特定主题(如成人材料消费)的兴趣的变化与躁狂发作相关的证据。最后,我们展示了这些用户的信息需求的变化可能预示着即将到来的情绪波动。这项工作强调了构建应用程序的可能性,这些应用程序可以在患者自己的计算系统的隐私中运行,并提供关于即将发作的可能性的预测。这样的预测有一天可能会被用于指导发作前的准备工作,或者用于对抗或最小化与情绪波动相关的虚弱程度的干预措施。

方法

我们提取了2011年12月至2012年5月(含)六个月期间美国用户提交给微软必应搜索引擎的所有英语查询。我们将此数据集称为数据集1。对于每个查询,我们提取了查询文本、时间和日期、用户查询结果所访问的页面列表以及匿名用户标识符。生成匿名用户标识符(字符串散列)并存储在用户机器上的Web浏览器cookie中,支持记录Bing搜索查询和随着时间的推移对计算机搜索结果的单击。通过这种方法没有其他数据可用。我们注意到研究中使用的数据有两个内在的局限性:(1)我们无法区分同一台机器上的多个用户;(2)如果一个搜索者在多台设备上使用搜索服务,他们将以单独的标识符出现在日志中,每台设备一个标识符。

为了保护用户隐私,在调查人员访问数据之前,首先通过哈希对数据进行匿名化。在分析之前,这些数据被汇总,实验者没有检查个人层面的用户数据。微软研究伦理咨询委员会审查并批准了研究方法和结果,并对研究进行了深入的讨论和指导。

我们将情绪稳定药物的查询(MSD查询)定义为包含以下特定药物名称的查询:Eskalith, Lithobid, Lithonate, Lithotabs,丙戊酸,Divalproex,丙戊酸,Depakote,或Depakene,以及专门提到术语“情绪稳定”(及其衍生物)或锂(除非该术语与术语“电池”,“离子”和类似术语一起使用)。

在研究期间,共有127,803名用户进行了此类查询。我们注意到,在数据期内,Bing的市场份额据报道约为16%(参见,例如,[ 17]),因此查询药物的用户数量只是服用MSD的总人数的一个样本。

为了关注可能使用MSD的人,我们在研究期间使用了5个MSD查询的阈值(类似于[ 8]),以识别对MSD有高度兴趣的用户。我们确定了20046个这样的用户,并提取了这些用户在研究期间发布的所有查询。平均而言,后者的每个用户每周提交34个关于所有主题的查询。

我们使用了微软必应团队开发的专有分类器,将每个查询分配到63个类别中,例如,包括商业、旅游、视频游戏、天气相关和成人主题的查询。Bing使用该分类器来确定是否显示特殊结果,如即时答案。查询可以分为多个类别(例如,购买机票可以分为旅游和商业两类)。

为了验证从必应搜索中获得的数据分析结果,我们对从互联网分析公司comScore招募的选择加入消费者小组收集的行为数据进行了相同的分析。数以百万计的小组成员明确允许comScore使用安装在他们电脑上的监控软件被动地测量他们所有的在线活动。作为加入该小组的交换条件,参与者将获得各种福利,包括计算机安全软件、互联网数据存储、病毒扫描,以及赢得现金或奖品的机会。除了记录的搜索行为,comScore的数据还为我们提供了小组成员的性别和年龄(大多数以5年为单位)。总体而言,小组成员中女性占53.04%(45,707/86,168),最常见的年龄范围是25-34岁。我们将comScore数据称为数据集2。

除了对在线日志的研究,我们还对272名自认为服用上述药物的人进行了调查。受访者是通过在线调查网站“Instant.ly”招募的。该调查包括11个多项选择题和9个自由文本问题。调查提供在 多媒体附件1.我们将调查数据称为数据集3。

结果 搜索行为

第一组结果是在数据集1上通过分析来自计算机的搜索生成的,其中观察到MSD查询的阈值为5个或更多。我们发现,所观察到的搜索模式在发布MSD查询时发生了显著变化。我们提供的证据表明,这种观察到的行为变化与情绪波动发作的发生有关。在提供了MSD查询可以用作此类事件开始的标签的证据之后,我们提出了关于预测即将发生事件的可行性的第二组结果。

通过MSD查询识别的用户可能患有情绪障碍吗?

一些用户陈述了他们查询的目的,例如,使用“我有严重的抑郁症”这样的查询。我们统计了提到情绪障碍(使用术语或使用术语“抑郁症”、“躁狂/躁狂”或“双相情感障碍”之一)的独特查询的数量,以及它们是否与情绪障碍指的人(“我”或“我的妻子/丈夫/配偶/儿子/女儿/男朋友/女朋友”)一起出现。第一个人提到情绪障碍的可能性是提到其他人情绪的6.5倍(659比102)(有统计学意义)。 P<。001,卡方检验)。我们以此作为证据,即不涉及自我或他人的情绪障碍问题往往涉及搜索者。

上述一些药物也被开给患有癫痫或偏头痛的人。我们发现,提到与情绪障碍相关的术语(术语本身或“抑郁症”、“躁狂/躁狂”或“双相情感障碍”)并查询MSD的人数与提到偏头痛或癫痫发作并查询MSD药物的人数与提到阈值数字的术语的人数之比为2.23。通过分析治疗情绪障碍的处方药物,这证实了我们对情绪障碍患者的关注。

MSD查询前后的在线行为

平均而言,搜索者每13天在MSD上输入一次查询(SD 11)。虽然大多数用户很少发布这样的查询,但在我们的研究期间,有相当数量的搜索者多次发布MSD查询,而且是在大量的日子里。在发布MSD查询的日子里,进行MSD查询的用户平均每天进行17.6次查询,而在没有发布MSD查询的日子里,平均每天进行8.7次查询(两者均为SD 16)(具有统计学意义)。 P<。001,符号测试)。

在提到特定药物名称的MSD查询中,有98.42%(14,410/14,641)提到了单一药物。在研究期间,70.31%(5010/7126)提到特定药物名称的使用者查询了一种药物。即使在发布了10个或更多包含MSD名称的查询的用户中,97.9%(860/878)提到了单一药物名称。因此,用户的兴趣主要集中在一种药物上,即使对药物的兴趣很高。

图1显示了按一天中的时间和一周中的一天进行查询的分布,并根据数据集1中的MSD查询和用户进行的所有其他查询进行了划分。如图所示,在上午和工作日(相对于周末),MSD查询略有增加(具有统计学意义,双样本Kolmogorov-Smirnov, P<措施)。这与已知的MD模式一致,最严重的症状通常发生在早上[ 18]以及日常生活习惯的改变会诱发情绪发作[ 19].

使用[ 14],我们将用户的查询流同步到他们发布MSD查询的每一天,并对每一天测量在每个查询类中发布查询的概率,与所有查询进行比较。对于研究的人群,类别 营养、商业、而且 成人显示与所有其他查询类别相比,查询概率增加了一倍以上。 图2显示这些类别中查询可能性的变化。营养查询的查询概率最高为3.30,商业查询为2.29,成人查询为2.24。稍后我们将展示,那些自我报告患有情绪障碍的人在经历情绪波动时,相关话题的数量也有类似的增加。比较MSD查询时间前后的行为(标记为时间0),我们注意到,所有三个类别在MSD查询后的第二天都显示出较大的可能性增加。这在成人查询中尤其明显,它显示出一个每日循环的行为,直到MSD查询后的第四天。有趣的是,这些查询的高峰出现在上午(上午8点至9点),与MSD查询的日活动高峰相对应。

与所有其他查询相比,发布MSD查询的概率是一天中的时间(上面)和一周中的一天(下面)的函数。该图显示,MSD查询在工作日的上午更常见。

查询类别可能性随时间变化的函数。0表示MSD查询的时间。所代表的类别是(从上到下):营养、商业和成人材料。时间序列用移动平均5小时长度平滑。

描述MSD(情绪稳定药物)查询

在MSD查询中最常见的术语,不包括停止词和药品名称本身,由我们手动划分为四个相互排斥的类别(在括号内的类别中提到术语的用户百分比;看到 表1

人们输入MSD查询最常见的问题之一是药物副作用。当观察在研究期间至少5天内发布MSD查询的人时,这是最明显的。对于这些使用者来说,药物不良反应是一个持续关注的问题,最常见的术语是“副作用”(无论是作为术语对还是单独的每个词)。

常用MSD查询术语。

搜索词类别 提到术语的用户百分比(n = 20046)n (%) 条款
副作用 5391例(26.89%) 情绪,效果,侧面,副作用,重量,效果
与毒品有关 1847例(9.21%) Mg,长,服用,剂量,剂量,通用,释放,相互作用,增益
疾病相关 1516 (7.56%) 原因,躁郁症,抑郁症,高,低,治疗,焦虑,症状
其他 2467例(12.31%) 药物,血液,水平,孩子,使用,sod,药物,代码,洒,用过,服用,损失,时间,列表,正常,测试,工作,帮助,肝脏,病人,疼痛,实验室,一起
描述点击页面

人们查询用于指代MSD的术语的信息目标可能是模糊的。例如,对“lithium”的查询可以指药物或金属。为了解决这种模棱两可的问题,我们分析了用户在研究期间使用必应搜索引擎的点击日志(数据集1)点击的搜索结果。点击相关链接后的查询不太可能是模棱两可的,这些链接带有标题和文本片段。

使用MSD查询,我们计算指向每个Web域(如drugs.com)的用户和点击数量。我们通过只分析每个查询的第一次结果点击来去除多次点击的影响(例如,这可能反映了用户在会话期间的学习)。为了从点击数据中去除噪音,我们只关注在登陆页面上停留了很长时间(30秒或更长时间)的点击。在先前对信息寻求行为的研究中,长时间居住已被证明与满意度相关[ 20.]. 表2列出前10个最受欢迎的域名,按用户数量降序排列。

结果显示,除了由参考信息和社会问题回答数据组成的wikipedia.org、answers.yahoo.com和wiki.answers.com之外,点击最多的10个域名都与健康相关。我们注意到,每个用户的平均点击次数(考虑每次会话一次点击)大于1,这表明人们多次访问这些网站。我们注意到,一些网站(在列表中较低的位置)与MSD无关,并且链接到“锂”的其他含义(例如,卫星广播的频道,Nirvana的一首歌,健身培训网站,电池和采矿公司)。考虑到“lithium”这个词的普遍性和模糊性,我们在后面的分析中删除或隔离了只查询这个词的用户。

MD药物查询后点击的前10个url。

点击域 不。的用户 不。的点击 平均。点击量/用户
drugs.com 5688 9989 1.756
en.wikipedia.org 4711 7136 1.515
ehow.com 2493 3252 1.304
wiki.answers.com 2270 3607 1.589
answers.yahoo.com 2199 3024 1.375
bipolar-disorder.emedtv.com 1786 2159 1.209
webmd.com 1529 1853 1.212
ncbi.nlm.nih.gov 1326 1827 1.378
healthcentral.com 1294 1540 1.190
bipolar.about.com 1237 1489 1.204
搜索者人口

接下来,我们分析了从comScore购买的搜索日志(数据集2),包括comScore小组成员在12个月的时间跨度内的用户搜索行为,这些时间跨度与数据集1的时间段重叠。与数据集1不同,comScore日志提供了关于搜索者的人口统计信息。comScore的数据包括所有主要网络搜索引擎(谷歌、Bing和Yahoo!)的搜索结果,提供了比数据集1中的Bing用户更广泛的用户样本。我们还检查了至少查询了上面提到的一种特定药物名称的用户。在这些数据中,用户是使用连接到每个小组成员的匿名标识符跟踪的,而不是像数据集1中那样使用基于机器的标识符跟踪的,这不允许我们在一台机器的多个用户之间进行区分。

除了从潜在的多用户机器到个人搜索,comScore的数据还提供了搜索者的年龄范围和性别。我们试图了解搜索者的分布是否与已知MSD患者的分布相匹配。该数据集包括1116名查询MSD药物的用户。图中显示了随机选择的10万名小组成员的年龄和性别的对照组的龙卷风图 图3.中显示的另一个龙卷风图 图4显示查询MSD药物使用者的年龄和性别分布。在对比测试组和对照组时,我们可以看到女性比男性更有可能查询MSD药物(对照组:53.04%,45,707/86,168,女性vs MD用户:57.06%,586/1027,女性,有统计学意义,双比例 z测试中, P= .005)。虽然双相情感障碍的患病率在性别中是相似的,但这种差异可能反映了这样一个事实,即女性比男性更有可能经历更严重的影响和双相情感障碍。 21].我们还注意到,在25-34岁年龄段的男性和女性中,MSD的查询量激增,男性的查询量更高(有统计学意义,卡方检验, P<措施)。这与情绪障碍的研究很吻合,这些研究表明,情绪障碍发展的中位年龄是30岁[ 22].这些结果提供了证据,表明在网上搜索MSD药物的用户组可能在人口统计学上与已知受情绪障碍影响的人群子集相似。

年龄和性别分布在10万名用户的对照组中。

搜索情绪障碍药物的用户的年龄/性别分布,减去只搜索锂的用户。MSD图叠加在对照图上 图3.当控制值较大时,控制条(颜色较浅)可见。当MSD值较大时,MSD条会遮挡控件,并在MSD条中用线条标记。

调查数据

为了更充分地理解在数据集1和2的日志中观察到的搜索行为,我们对272人进行了补充调查,这些人自认为是上述列出的MSD之一(数据集3)。调查队列中的人的中位年龄为36岁(最小:18岁,最大:77岁),25.4%,56/220,为男性,平均服用MSD 3.2年。受访者表示,他们平均每年发作10.5次,平均持续5.5小时。约97.7%(256/262)的受访者接受了常规剂量的药物处方,71.7%(188/262)每天服用,17.9%(47/262)每天超过一次,其余少于一天剂量),83.6%(214/256)报告他们遵守了处方。

只有18.3%(48/262)的受访者从未在互联网上搜索自己的MSD信息;30.9%(81/262)受访者表示在过去6个月内搜寻1次,44.6%(117/262)受访者表示在过去6个月内搜寻2 - 10次,6.1%(16/262)受访者表示搜寻10次以上。因此,约51.9%(133/262)的受访者反复询问他们的药物。最常见的搜索诱因是第一次开处方时(71.8%,188/262)、出现副作用时(42.7%,112/262)、感觉药物不起作用时(32.4%,85/262)、与朋友或家人讨论后(29.4%,77/262)和发作开始时(25.2%,66/262)。

受访者寻求的信息包括副作用(82.1%,215/262)、疗效(62.2%,163/262)、剂量(40.5%,106/262)和购买药物的零售地点(13.0%,34/262)。他们在维基百科(55.3%,145/262)、面向消费者的网站(47.3%,124/262)、社交媒体(40.6%,106/262)和药品制造商发布的信息(38.2%,100/262)等参考网站上找到了信息。这些发现,特别是在副作用和剂量信息的搜索频率以及所选择的资源类型方面,与数据集1上进行的日志分析吻合良好。

多次搜索信息的人报告说,他们这样做是因为他们需要更多的信息(42.7%,79/185),想要确保药物是适合他们的(27.6%,51/185),需要与以前不同的信息(18.9%,35/185),或者因为他们忘记了他们曾经知道的信息(10.2%,19/185)。

大约一半(48.6%,70/144)的受访者报告说,他们在经历躁狂(“高”)状态时改变了他们的在线搜索和浏览行为,类似比例(55.9%,79/179)的受访者报告说,他们在抑郁(“低”)期间改变了行为。在提供输入的受访者中,8.5%(41/144)提到在躁狂状态下进行不必要的网上购物,22.2%(32/144)报告在网上研究新的主题,13.9%(20/144)寻找使他们快乐的信息(包括他们的爱好),13.9%(20/144)报告在一般情况下在网上更活跃,8.3%(12/144)搜索健康信息,6.2%(9/144)报告对搜索含有色情内容的网站更感兴趣。

受访者表示,在抑郁期间,他们通常不上网(68.2%,122/179),这一发现与De Choudhury等人的研究结果一致[ 23].其他人则表示,他们会寻找令人沮丧的话题(15.1%,27/179)或购物,从而感觉糟糕(2.8%,5/179),这与他们的抑郁症产生了共鸣。其他人则寻找健康信息(7.3%,13/179)或能让他们快乐的网站(6.1%,11/179)。

通过用户的查询流预测查询

我们假设大多数发布高于阈值率的MSD查询的搜索者是实际服用MSD的患者,并且MSD信息搜索可能在MD事件开始附近执行,可能是躁狂发作的开始。前者可以从与此类帖子相关的时间模式(即,一周的天数和一天的时间)、大多数用户对单一药物感兴趣的事实以及搜索者的人口统计数据中得到证明。后者从MSD查询发布前后几天相关的行为变化中可以明显看出。例如,我们看到与业务相关(如购物)的查询(参见 图2),在调查中,这项活动被认为与狂热有关。此外,四分之一的调查对象报告说,当他们感到发作开始时,他们会搜索MSD,这表明,有一部分经常性的MSD查询是由情绪波动开始触发的。我们认为,大多数MSD查询都与躁狂事件有关,因为正如调查中报告的那样,患有抑郁症的人倾向于不上网。

考虑到发布MSD查询的日期可能很重要,我们将重点预测将发布MSD查询的日期。我们调查了三种不同的用户群体:(1)反复服用MSD,(2)偶尔服用MSD,(3)只服用锂。重复使用MSD的用户包括在数据期间至少5天发布MSD查询的用户。在这个群体中有498个用户。偶尔的MSD是用户发布MSD查询,在查询中提到了特定的MSD药物,但这样做的时间不到5天。这个群体中有9633个用户。只使用锂的用户发布了一个查询,提到了锂,但没有具体的药物,而且查询时间不到5天。在这个群体中有9884个用户。

我们将用户的日常查询流表示为中详细描述的属性向量 表3.我们通过将用户的每日活动向量与过去14天的平均活动向量(即过去两天的平均值,过去三天的平均值等)相连接来增强用户的每日活动向量 表3,我们计算该属性(例如,类别中的查询数量)与该属性在所有非msd日之前的平均值之间的差值。这些属性代表了典型活动与当前活动之间的差异。最后,将星期几添加为属性。因此,总共有1981个属性(14个滞后+ 1个发散,乘以132个属性,以及一周中的一天属性)被用来表示每个用户的日常活动。

我们使用用户的特征表示来预测用户是否会在第二天发布至少一个MSD查询。为每个用户群体训练一个单独的分类器。为了获得人群之间的有效比较,我们选择了与复发性MSD人群相同大小的偶尔MSD和锂唯一人群的随机子集(以便提供类似大小的训练数据集),并报告这些子集的结果。

我们构建了一个决策树[ 24作为分类器。五重交叉验证[ 24]在搜索者的水平上(以避免在未来数据上训练的问题)用于训练和测试分类器;每个用户被随机分配到五个交叉验证折叠中的一个。分类器的性能是通过识别接受者工作特征曲线(AUC)下的面积来衡量的。

三个种群的AUC为 图5.重复MSD群体的AUC最高,仅锂群体的AUC最低。两种MSD人群之间的差异没有统计学意义,但仅锂人群与MSD人群之间的差异显著( P<措施)( 25].这些发现可以归因于每个用户的样本数量或阳性标签数量的差异,尽管没有发现统计学上显著的相关性。这些差异可能在某种程度上与用户群体之间的固有差异有关。

在决策树的50个最高级别中选择两次以上的属性列在 表4.首先,我们注意到为MSD群体选择的属性数量远远少于为仅锂群体选择的属性数量,这表明前两个群体比后一个群体更同质。其次,我们注意到在反复出现的MSD人群中与成人相关的查询的突出出现,这可能与中所示的活动有关 图2.我们还注意到,在MSD人群中出现的许多属性(在较小程度上,仅锂人群)与爱好有关,调查参与者报告的兴趣强调了这一事实。

鉴于在MSD查询之后观察到与成人相关的查询激增,我们评估了与成人相关的查询作为结果和标签的使用,并试图构建预测模型来预测搜索者是否会在第二天提出与成人相关的查询。我们集中研究了在研究期间至少5天内提出成人相关查询的人群(如重复性MSD人群)。有275名这样的使用者,其中5.8%(16/275)也出现在经常性MSD人群中,77.1%(212/275)出现在偶尔MSD人群中。该预测任务的AUC为0.71(与MSD查询的0.78相比),这表明成人材料是情绪稳定事件后行为变化的有力代理,之前的几项研究都注意到了这一效应[ 26 27].

三个用户群体的ROC (AUC)下的面积。

用于预测情绪稳定药物(MSD)查询发布天数的分类器属性。一个

属性 属性数量
每天查询总数 1
每天查询主题的总数,由查询分类器标识的类别表示。 1
每小时最大查询数 1
每天活动的小时数 1
在非正常时间(定义为当地时间晚上11点至凌晨4点)发布的查询数量和比例。 2
每个类别的查询数量(包括原始分数和阈值设置后) 126

一个这些属性是针对14个时间差以及与非msd活动的差异计算的,总共有1980个属性。

每一类用户最常选择的属性。

用户群体 特性
频繁的默沙东公司一个
成人查询次数
成人查询数量的差异
与车辆相关的查询数
与商业相关的查询数量
商业查询数量上的分歧
事件相关查询的个数
与航班状态相关的查询数量的差异
偶尔默沙东公司
星期几
与车辆相关的查询数
与图书相关的查询数量
商业查询数量上的分歧
名人相关查询数量的差异
与衣服和鞋子相关的查询数量
与商业相关的查询数量
商业查询数量上的分歧
只有锂
星期几
与车辆相关的查询数
与车辆相关的查询数量的差异
与图书相关的查询数量
与书籍相关的查询数量的差异
商业查询的数量
与衣服和鞋子相关的查询数量
商业查询数量上的分歧
消费者电子产品查询数量的分歧
事件相关查询的个数
与金融相关的查询数量的差异
与航班状态相关的查询数
与健康相关的查询数量
与健康相关的查询数量的差异

一个MSD:情绪稳定药物

讨论 主要研究结果

对搜索活动日志的分析显示,它有可能成为公共卫生领域的宝贵工具,也有可能成为代表用户工作的私人应用程序和服务。我们确定了对MSD表现出强烈兴趣的用户群体,并且在表达对药物感兴趣的前后,他们的在线搜索行为也发生了重大变化。我们表明,我们可以建立预测模型,可以用来预测以msd为中心的搜索查询的未来出现,这可能与双相情感障碍的发作有关。我们相信,通过在用户自己的计算设备中运行的应用程序来预测情绪波动发作的可能性,有一天可能会帮助患者和护理人员更好地理解和准备即将发生的情绪变化。

将调查结果与网上观察到的行为进行比较,我们发现了一些相似之处。首先,在调查中进行2到10次查询的人数和进行10次以上查询的人数与进行一次查询的人数之比分别为1.4和0.2,而在查询日志数据中为0.5和0.1。其次,受访者确定的搜索主题与MSD查询中经常出现的术语非常匹配。最后,受访者报告搜索与购物、爱好和健康信息相关的信息,以及对成人内容的高度搜索,这与我们对在线行为动态的观察相一致,与用户搜索MSD信息相一致。

出现对MSD的重复查询是一个有趣的现象。调查对象报告说,由于他们需要更多或不同的信息,或者因为他们需要保证处方药物是适合他们的,他们重新提交了对MSDs的询问。网络数据显示,后一种理由,以及对副作用的担忧,是重复搜索的主要原因。我们假设,情绪波动发作的发作会使患者对他们的疾病,特别是他们的药物(尤其是当他们不服药时)有更多的认识,从而触发MSD搜索。因此,这种触发行为可能不局限于情绪障碍,而是更广泛的一类疾病。

限制

我们研究的一个关键局限性是缺乏对结果的黄金标准。我们无法直接将我们群组中的用户与他们现实生活中的角色联系起来,因此无法知道他们实际上是否患有双相情感障碍。为了解决这个缺点,我们注意到以前的工作[ 8]的研究表明,寻求特定的健康信息主要是由患者和主要护理人员完成的。其次,在MSD查询前后观察到的在线行为变化提供了证据,证明用户在这段时间内的活动正在经历重大变化。第三,MSD查询的时间出现(在特定的时间和日期)和这些搜索者的人口统计资料与实际服用MSD的患者一致。最后,用户在一项调查中自我报告说,他们在网上行为上做出了类似的改变。在我们的预测模型中,最具歧视性的特征是那些量化了几个特定领域的行为变化的特征,包括健康和商业。这些主题领域被调查对象(在回答自由文本问题时)独立地确定为躁狂期间受到关注的主题。这些发现为我们将MSD查询与情绪波动事件联系起来提供了证据,并为我们正在观察经历这些事件的用户,特别是躁狂类型的用户提供了证据。

结论

虽然药物和行为治疗可以降低情绪障碍事件的发生率,但据估计,MSD处方的依从性低至35% [ 28].依从性低可能是基于这些药物的副作用[ 29].然而,不服从与更严重的躁狂事件相关[ 30.].在MD事件发生之前预测它们可以帮助人们更好地理解和准备情绪的变化。我们相信我们的研究为改善情绪障碍患者的健康和幸福奠定了基础。

未来的工作机会包括与患者合作,将在线活动与临床观察联系起来。这样的努力可以验证我们的结果,并确定早期预警的准确性,以及验证对即将发生的事件的及时预测是否可以以有益的方式加以利用。

多媒体附件1

服用msd的使用者调查。

缩写 AUC

接收机工作特性曲线下面积

医学博士

情绪障碍

默沙东公司

情绪稳定药

这三位作者都提出了这项研究的想法,并制定了执行该研究的方法。EYT提取并分析查询数据。读写网提取并分析了comScore的数据。所有作者设计了调查,EYT对其进行了分析。这三位作者都参与了手稿的最终分析和写作。

作者是微软研究院的员工。所有工作都是作为各自作者研究的一部分进行的,没有额外的或外部资金。

Sverdlov先生 G 弗雷斯特 2012 2014-02-12 了解美国在线消费者不断变化的需求 http://www.forrester.com/Understanding+The+Changing+Needs+Of+US+Online+Consumers+2012/fulltext/-/E-RES84361?docid=84361 6 nkp8yizv 狐狸 年代 达根 皮尤互联网和美国生活项目 2013 2014-02-12 健康在线 http://www.pewinternet.org/Reports/2013/Health-online.aspx 6 nkpie7c7 Pelleg D Yom-Tov E Maarek Y 你能相信一个匿名贡献者吗?关于雅虎的真实性!答案 2012 2012年ASE/IEEE隐私、安全、风险和信任国际会议 2012年9月3-5日 荷兰阿姆斯特丹 411 420 10.1109 / SocialCom-PASSAT.2012.13 Eysenbach G 信息流行病学和信息监测跟踪在线健康信息和网络行为的公共卫生 是J Prev Med吗 2011 05 40 5补充2 S154 8 10.1016 / j.amepre.2011.02.006 21521589 s0749 - 3797 (11) 00088 - 2 白色 RW 霍维茨 E 关于搜索日志中医疗问题的发生和持续的研究 2012 ACM SIGIR信息检索研究与发展会议 2012 波特兰,OR,美国 265 274 10.1145/2348283.2348322 Eysenbach G 信息流行病学:追踪网络上与流感相关的搜索,以进行症状监测 AMIA年度诉讼程序 2006 244 8 17238340 86095 PMC1839505 鲁宾 戴斯。莱纳姆: 弗兰德斯 一个 W 西迪基 公里 卡恩 CE 本体论辅助的Web查询分析,以确定放射科医生寻求的知识 J位成像 2011 02 24 1 160 4 10.1007 / s10278 - 010 - 9289 - 2 20354755 PMC3046796 的领导人 Y O Pelleg D JM Yom-Tov E 在互联网上寻找癌症信息的模式:对真实世界数据的分析 《公共科学图书馆•综合》 2012 7 9 e45921 10.1371 / journal.pone.0045921 23029317 玉米饼- d - 12 - 13355 PMC3448679 白色 RW 德鲁克 SM 调查网络搜索中的行为可变性 2007 万维网 2007 班夫 21 30. 10.1145/1242572.1242576 T 霍维茨 E 搜索模式:分析和建模web查询细化 1999 用户建模 1999 美国 119 128 唐尼 D 杜迈 年代 霍维茨 E 搜索和浏览的模型:语言、研究和应用 2007 人工智能国际联合会议 2007 海德拉巴 Dupret G Piwowarski N 用户浏览模型预测搜索引擎点击数据从过去的观察 2008 ACM SIGIR信息检索研究与发展会议 2008 新加坡 331 338 10.1145/1390334.1390392 约阿希姆 T 利用点击率数据优化搜索引擎 2002 ACM SIGKDD知识发现和数据挖掘国际会议 2002 埃德蒙顿 133 142 10.1145/775047.775067 理查森 通过长期查询日志了解世界 ACM反式。网络 2008 10 01 2 4 1 27 10.1145/1409220.1409224 房车 Ravelli 一个 范Zessen G 一般人群中精神疾病的患病率:荷兰心理健康调查和发病率研究的结果(NEMESIS) 精神病学流行病学 1998 12 33 12 587 95 9857791 格兰特 男朋友 史汀生 FS 道森 SP 杜福尔 MC 康普顿 W 皮克林 RP 卡普兰 K 物质使用障碍和独立情绪和焦虑障碍的患病率和共发:来自全国酒精和相关疾病流行病学调查的结果 精神病学Arch Gen Psychiatry 2004 08 61 8 807 16 10.1001 / archpsyc.61.8.807 15289279 61/8/807 comScore 2012年12月美国搜索引擎排名 2014-02-14 http://www.comscore.com/Insights/Press_Releases/2013/1/comScore_Releases_December_2012_U.S._Search_Engine_Rankings 6 nnrkktfk 麦克朗 CA 昼夜节律基因,节律和情绪障碍的生物学 杂志 2007 05 114 2 222 32 10.1016 / j.pharmthera.2007.02.003 17395264 s0163 - 7258 (07) 00036 - 8 PMC1925042 弗兰克 E 冈萨雷斯 JM Fagiolini 一个 日常生活对预防双相情感障碍复发的重要性 精神病学杂志 2006 06 163 6 981 5 10.1176 / appi.ajp.163.6.981 16741196 163/6/981 狐狸 年代 Karnawat K Mydland 杜迈 年代 白色 T 评估改进网络搜索的隐式措施 ACM反式。正系统。 2005 04 01 23 2 147 168 10.1145/1059981.1059982 凯特 助教 双相情感障碍的诊断特征、患病率和影响 临床精神病学 2010 06 71 6 e14灯头 10.4088 / JCP.8125tx11c 20573324 数字很重要:美国的精神障碍 2014-02-14 国家心理健康研究所 http://www.nimh.nih.gov/health/publications/the-numbers-count-mental-disorders-in-america/index.shtml 6 nnsbgfd1 De Choudhury Gamon 计数 年代 霍维茨 E 通过社交媒体预测抑郁症 2013 AAAI博客和社交媒体会议 2013 波士顿 杜达 罗依 哈特 体育 Strok DG 模式分类和场景分析第二版 模式分类 2001 纽约 约翰·威利父子 汉利 晶澳 麦克尼尔公司 BJ 受试者工作特征(ROC)曲线下面积的含义和用途 放射学 1982 04 143 1 29 36 7063747 Langstrom N 汉森 RK 一般人群中高发生率的性行为:相关因素和预测因素 拱形性行为 2006 02 35 1 37 52 10.1007 / s10508 - 006 - 8993 - y 16502152 斯坦 DJ 黑色的 DW Shapira NA 斯皮策 RL 性欲亢进,沉迷于网络色情 精神病学杂志 2001 10 158 10 1590 4 11578986 J 麦克白 JS Stimmel GL 加州医疗补助计划治疗双相情感障碍的费用 J情感失调 2002 09 71 1 - 3 131 9 12167509 S0165032701003949 斯科特 J 教皇 不坚持使用情绪稳定剂:患病率和预测因素 临床精神病学 2002 05 63 5 384 90 12019661 凯克 体育 麦克尔罗伊 SL Strakowski SM 斯坦顿 SP Kizer 戴斯。莱纳姆: Balistreri TM 班尼特 晶澳 Tugrul KC 西 SA 躁狂患者药物不依从性的相关因素 临床精神病学 1996 07 57 7 292 7 8666570
Baidu
map