这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
情绪障碍影响了很大一部分普通人群。周期性情绪障碍的特征是疾病的间歇性发作(或事件)。
使用匿名的网络搜索日志,我们确定了对情绪稳定药物(MSD)有显著兴趣的人群,并在这一人群中寻找情绪波动的证据。
我们提取了20046名网络搜索者在6个月时间里对微软必应搜索引擎的查询,利用大量外部用户面板的数据分别探索了搜索者的人口统计数据,并通过调查从情绪障碍患者那里寻求支持信息。我们分析了相对于在MSD上搜索的信息需求随时间的变化。
对MSD的查询集中在副作用及其与疾病的关系。我们发现搜索行为和兴趣发生重大变化的证据与MSD查询的天数一致。其中包括营养信息、商业信息和成人资料的获取大幅增加(>100%)。一项对被诊断患有情绪障碍的患者的调查提供了证据,表明反复询问MSD可能会加剧情绪障碍。在观察到此类查询前一天预测查询发生的分类器获得了较强的性能(AUC=0.78)。
观察到的搜索行为模式与已知行为和受访者强调的行为一致。这些观察结果表明,对MSD表现出强烈兴趣的搜索者可能是服用过这些药物的患者。考虑到行为动力学,我们推测MSD查询的日期可能与躁狂或抑郁的开始相一致。虽然我们没有情绪变化的数据,也没有用户是否被诊断为双相情感障碍,但我们在对MSD感兴趣的人身上看到了循环的证据,进一步表明我们可以预测行为和兴趣即将发生的变化。
在美国和其他发达国家,人们花大量时间上网。
由商业搜索引擎(如谷歌、Bing和Yahoo!能够对用户的搜索行为进行隐私敏感的分析。使用在线资源进行综合征监测已被称为
我们在这里分析了人们对情绪稳定药物(MSD)表现出强烈兴趣的在线行为,MSD是用于帮助情绪障碍患者的药物。我们发现证据表明,观察到的行为可能与情绪波动的发作有关,并表明异常在线行为的非典型时期可以通过观察过去的行为并将其与当前观察到的行为进行比较来检测和预测。
情绪障碍(MD)被定义为精神疾病诊断与统计手册(DSM IV)分类系统中与一个人的情感状态变化有关的一组诊断。情绪障碍影响了相当大比例的人口,尽管报告的发病率范围各不相同(9.3%-23.3%)[
以往工作[
我们提取了2011年12月至2012年5月(含)六个月期间美国用户提交给微软必应搜索引擎的所有英语查询。我们将此数据集称为数据集1。对于每个查询,我们提取了查询文本、时间和日期、用户查询结果所访问的页面列表以及匿名用户标识符。生成匿名用户标识符(字符串散列)并存储在用户机器上的Web浏览器cookie中,支持记录Bing搜索查询和随着时间的推移对计算机搜索结果的单击。通过这种方法没有其他数据可用。我们注意到研究中使用的数据有两个内在的局限性:(1)我们无法区分同一台机器上的多个用户;(2)如果一个搜索者在多台设备上使用搜索服务,他们将以单独的标识符出现在日志中,每台设备一个标识符。
为了保护用户隐私,在调查人员访问数据之前,首先通过哈希对数据进行匿名化。在分析之前,这些数据被汇总,实验者没有检查个人层面的用户数据。微软研究伦理咨询委员会审查并批准了研究方法和结果,并对研究进行了深入的讨论和指导。
我们将情绪稳定药物的查询(MSD查询)定义为包含以下特定药物名称的查询:Eskalith, Lithobid, Lithonate, Lithotabs,丙戊酸,Divalproex,丙戊酸,Depakote,或Depakene,以及专门提到术语“情绪稳定”(及其衍生物)或锂(除非该术语与术语“电池”,“离子”和类似术语一起使用)。
在研究期间,共有127,803名用户进行了此类查询。我们注意到,在数据期内,Bing的市场份额据报道约为16%(参见,例如,[
为了关注可能使用MSD的人,我们在研究期间使用了5个MSD查询的阈值(类似于[
我们使用了微软必应团队开发的专有分类器,将每个查询分配到63个类别中,例如,包括商业、旅游、视频游戏、天气相关和成人主题的查询。Bing使用该分类器来确定是否显示特殊结果,如即时答案。查询可以分为多个类别(例如,购买机票可以分为旅游和商业两类)。
为了验证从必应搜索中获得的数据分析结果,我们对从互联网分析公司comScore招募的选择加入消费者小组收集的行为数据进行了相同的分析。数以百万计的小组成员明确允许comScore使用安装在他们电脑上的监控软件被动地测量他们所有的在线活动。作为加入该小组的交换条件,参与者将获得各种福利,包括计算机安全软件、互联网数据存储、病毒扫描,以及赢得现金或奖品的机会。除了记录的搜索行为,comScore的数据还为我们提供了小组成员的性别和年龄(大多数以5年为单位)。总体而言,小组成员中女性占53.04%(45,707/86,168),最常见的年龄范围是25-34岁。我们将comScore数据称为数据集2。
除了对在线日志的研究,我们还对272名自认为服用上述药物的人进行了调查。受访者是通过在线调查网站“Instant.ly”招募的。该调查包括11个多项选择题和9个自由文本问题。调查提供在
第一组结果是在数据集1上通过分析来自计算机的搜索生成的,其中观察到MSD查询的阈值为5个或更多。我们发现,所观察到的搜索模式在发布MSD查询时发生了显著变化。我们提供的证据表明,这种观察到的行为变化与情绪波动发作的发生有关。在提供了MSD查询可以用作此类事件开始的标签的证据之后,我们提出了关于预测即将发生事件的可行性的第二组结果。
一些用户陈述了他们查询的目的,例如,使用“我有严重的抑郁症”这样的查询。我们统计了提到情绪障碍(使用术语或使用术语“抑郁症”、“躁狂/躁狂”或“双相情感障碍”之一)的独特查询的数量,以及它们是否与情绪障碍指的人(“我”或“我的妻子/丈夫/配偶/儿子/女儿/男朋友/女朋友”)一起出现。第一个人提到情绪障碍的可能性是提到其他人情绪的6.5倍(659比102)(有统计学意义)。
上述一些药物也被开给患有癫痫或偏头痛的人。我们发现,提到与情绪障碍相关的术语(术语本身或“抑郁症”、“躁狂/躁狂”或“双相情感障碍”)并查询MSD的人数与提到偏头痛或癫痫发作并查询MSD药物的人数与提到阈值数字的术语的人数之比为2.23。通过分析治疗情绪障碍的处方药物,这证实了我们对情绪障碍患者的关注。
平均而言,搜索者每13天在MSD上输入一次查询(SD 11)。虽然大多数用户很少发布这样的查询,但在我们的研究期间,有相当数量的搜索者多次发布MSD查询,而且是在大量的日子里。在发布MSD查询的日子里,进行MSD查询的用户平均每天进行17.6次查询,而在没有发布MSD查询的日子里,平均每天进行8.7次查询(两者均为SD 16)(具有统计学意义)。
在提到特定药物名称的MSD查询中,有98.42%(14,410/14,641)提到了单一药物。在研究期间,70.31%(5010/7126)提到特定药物名称的使用者查询了一种药物。即使在发布了10个或更多包含MSD名称的查询的用户中,97.9%(860/878)提到了单一药物名称。因此,用户的兴趣主要集中在一种药物上,即使对药物的兴趣很高。
使用[
与所有其他查询相比,发布MSD查询的概率是一天中的时间(上面)和一周中的一天(下面)的函数。该图显示,MSD查询在工作日的上午更常见。
查询类别可能性随时间变化的函数。0表示MSD查询的时间。所代表的类别是(从上到下):营养、商业和成人材料。时间序列用移动平均5小时长度平滑。
在MSD查询中最常见的术语,不包括停止词和药品名称本身,由我们手动划分为四个相互排斥的类别(在括号内的类别中提到术语的用户百分比;看到
人们输入MSD查询最常见的问题之一是药物副作用。当观察在研究期间至少5天内发布MSD查询的人时,这是最明显的。对于这些使用者来说,药物不良反应是一个持续关注的问题,最常见的术语是“副作用”(无论是作为术语对还是单独的每个词)。
常用MSD查询术语。
搜索词类别 | 提到术语的用户百分比 |
条款 |
副作用 | 5391例(26.89%) | 情绪,效果,侧面,副作用,重量,效果 |
与毒品有关 | 1847例(9.21%) | Mg,长,服用,剂量,剂量,通用,释放,相互作用,增益 |
疾病相关 | 1516 (7.56%) | 原因,躁郁症,抑郁症,高,低,治疗,焦虑,症状 |
其他 | 2467例(12.31%) | 药物,血液,水平,孩子,使用,sod,药物,代码,洒,用过,服用,损失,时间,列表,正常,测试,工作,帮助,肝脏,病人,疼痛,实验室,一起 |
人们查询用于指代MSD的术语的信息目标可能是模糊的。例如,对“lithium”的查询可以指药物或金属。为了解决这种模棱两可的问题,我们分析了用户在研究期间使用必应搜索引擎的点击日志(数据集1)点击的搜索结果。点击相关链接后的查询不太可能是模棱两可的,这些链接带有标题和文本片段。
使用MSD查询,我们计算指向每个Web域(如drugs.com)的用户和点击数量。我们通过只分析每个查询的第一次结果点击来去除多次点击的影响(例如,这可能反映了用户在会话期间的学习)。为了从点击数据中去除噪音,我们只关注在登陆页面上停留了很长时间(30秒或更长时间)的点击。在先前对信息寻求行为的研究中,长时间居住已被证明与满意度相关[
结果显示,除了由参考信息和社会问题回答数据组成的wikipedia.org、answers.yahoo.com和wiki.answers.com之外,点击最多的10个域名都与健康相关。我们注意到,每个用户的平均点击次数(考虑每次会话一次点击)大于1,这表明人们多次访问这些网站。我们注意到,一些网站(在列表中较低的位置)与MSD无关,并且链接到“锂”的其他含义(例如,卫星广播的频道,Nirvana的一首歌,健身培训网站,电池和采矿公司)。考虑到“lithium”这个词的普遍性和模糊性,我们在后面的分析中删除或隔离了只查询这个词的用户。
MD药物查询后点击的前10个url。
点击域 | 不。的用户 | 不。的点击 | 平均。点击量/用户 |
drugs.com | 5688 | 9989 | 1.756 |
en.wikipedia.org | 4711 | 7136 | 1.515 |
ehow.com | 2493 | 3252 | 1.304 |
wiki.answers.com | 2270 | 3607 | 1.589 |
answers.yahoo.com | 2199 | 3024 | 1.375 |
bipolar-disorder.emedtv.com | 1786 | 2159 | 1.209 |
webmd.com | 1529 | 1853 | 1.212 |
ncbi.nlm.nih.gov | 1326 | 1827 | 1.378 |
healthcentral.com | 1294 | 1540 | 1.190 |
bipolar.about.com | 1237 | 1489 | 1.204 |
接下来,我们分析了从comScore购买的搜索日志(数据集2),包括comScore小组成员在12个月的时间跨度内的用户搜索行为,这些时间跨度与数据集1的时间段重叠。与数据集1不同,comScore日志提供了关于搜索者的人口统计信息。comScore的数据包括所有主要网络搜索引擎(谷歌、Bing和Yahoo!)的搜索结果,提供了比数据集1中的Bing用户更广泛的用户样本。我们还检查了至少查询了上面提到的一种特定药物名称的用户。在这些数据中,用户是使用连接到每个小组成员的匿名标识符跟踪的,而不是像数据集1中那样使用基于机器的标识符跟踪的,这不允许我们在一台机器的多个用户之间进行区分。
除了从潜在的多用户机器到个人搜索,comScore的数据还提供了搜索者的年龄范围和性别。我们试图了解搜索者的分布是否与已知MSD患者的分布相匹配。该数据集包括1116名查询MSD药物的用户。图中显示了随机选择的10万名小组成员的年龄和性别的对照组的龙卷风图
年龄和性别分布在10万名用户的对照组中。
搜索情绪障碍药物的用户的年龄/性别分布,减去只搜索锂的用户。MSD图叠加在对照图上
为了更充分地理解在数据集1和2的日志中观察到的搜索行为,我们对272人进行了补充调查,这些人自认为是上述列出的MSD之一(数据集3)。调查队列中的人的中位年龄为36岁(最小:18岁,最大:77岁),25.4%,56/220,为男性,平均服用MSD 3.2年。受访者表示,他们平均每年发作10.5次,平均持续5.5小时。约97.7%(256/262)的受访者接受了常规剂量的药物处方,71.7%(188/262)每天服用,17.9%(47/262)每天超过一次,其余少于一天剂量),83.6%(214/256)报告他们遵守了处方。
只有18.3%(48/262)的受访者从未在互联网上搜索自己的MSD信息;30.9%(81/262)受访者表示在过去6个月内搜寻1次,44.6%(117/262)受访者表示在过去6个月内搜寻2 - 10次,6.1%(16/262)受访者表示搜寻10次以上。因此,约51.9%(133/262)的受访者反复询问他们的药物。最常见的搜索诱因是第一次开处方时(71.8%,188/262)、出现副作用时(42.7%,112/262)、感觉药物不起作用时(32.4%,85/262)、与朋友或家人讨论后(29.4%,77/262)和发作开始时(25.2%,66/262)。
受访者寻求的信息包括副作用(82.1%,215/262)、疗效(62.2%,163/262)、剂量(40.5%,106/262)和购买药物的零售地点(13.0%,34/262)。他们在维基百科(55.3%,145/262)、面向消费者的网站(47.3%,124/262)、社交媒体(40.6%,106/262)和药品制造商发布的信息(38.2%,100/262)等参考网站上找到了信息。这些发现,特别是在副作用和剂量信息的搜索频率以及所选择的资源类型方面,与数据集1上进行的日志分析吻合良好。
多次搜索信息的人报告说,他们这样做是因为他们需要更多的信息(42.7%,79/185),想要确保药物是适合他们的(27.6%,51/185),需要与以前不同的信息(18.9%,35/185),或者因为他们忘记了他们曾经知道的信息(10.2%,19/185)。
大约一半(48.6%,70/144)的受访者报告说,他们在经历躁狂(“高”)状态时改变了他们的在线搜索和浏览行为,类似比例(55.9%,79/179)的受访者报告说,他们在抑郁(“低”)期间改变了行为。在提供输入的受访者中,8.5%(41/144)提到在躁狂状态下进行不必要的网上购物,22.2%(32/144)报告在网上研究新的主题,13.9%(20/144)寻找使他们快乐的信息(包括他们的爱好),13.9%(20/144)报告在一般情况下在网上更活跃,8.3%(12/144)搜索健康信息,6.2%(9/144)报告对搜索含有色情内容的网站更感兴趣。
受访者表示,在抑郁期间,他们通常不上网(68.2%,122/179),这一发现与De Choudhury等人的研究结果一致[
我们假设大多数发布高于阈值率的MSD查询的搜索者是实际服用MSD的患者,并且MSD信息搜索可能在MD事件开始附近执行,可能是躁狂发作的开始。前者可以从与此类帖子相关的时间模式(即,一周的天数和一天的时间)、大多数用户对单一药物感兴趣的事实以及搜索者的人口统计数据中得到证明。后者从MSD查询发布前后几天相关的行为变化中可以明显看出。例如,我们看到与业务相关(如购物)的查询(参见
考虑到发布MSD查询的日期可能很重要,我们将重点预测将发布MSD查询的日期。我们调查了三种不同的用户群体:(1)反复服用MSD,(2)偶尔服用MSD,(3)只服用锂。重复使用MSD的用户包括在数据期间至少5天发布MSD查询的用户。在这个群体中有498个用户。偶尔的MSD是用户发布MSD查询,在查询中提到了特定的MSD药物,但这样做的时间不到5天。这个群体中有9633个用户。只使用锂的用户发布了一个查询,提到了锂,但没有具体的药物,而且查询时间不到5天。在这个群体中有9884个用户。
我们将用户的日常查询流表示为中详细描述的属性向量
我们使用用户的特征表示来预测用户是否会在第二天发布至少一个MSD查询。为每个用户群体训练一个单独的分类器。为了获得人群之间的有效比较,我们选择了与复发性MSD人群相同大小的偶尔MSD和锂唯一人群的随机子集(以便提供类似大小的训练数据集),并报告这些子集的结果。
我们构建了一个决策树[
三个种群的AUC为
在决策树的50个最高级别中选择两次以上的属性列在
鉴于在MSD查询之后观察到与成人相关的查询激增,我们评估了与成人相关的查询作为结果和标签的使用,并试图构建预测模型来预测搜索者是否会在第二天提出与成人相关的查询。我们集中研究了在研究期间至少5天内提出成人相关查询的人群(如重复性MSD人群)。有275名这样的使用者,其中5.8%(16/275)也出现在经常性MSD人群中,77.1%(212/275)出现在偶尔MSD人群中。该预测任务的AUC为0.71(与MSD查询的0.78相比),这表明成人材料是情绪稳定事件后行为变化的有力代理,之前的几项研究都注意到了这一效应[
三个用户群体的ROC (AUC)下的面积。
用于预测情绪稳定药物(MSD)查询发布天数的分类器属性。一个
属性 | 属性数量 |
每天查询总数 | 1 |
每天查询主题的总数,由查询分类器标识的类别表示。 | 1 |
每小时最大查询数 | 1 |
每天活动的小时数 | 1 |
在非正常时间(定义为当地时间晚上11点至凌晨4点)发布的查询数量和比例。 | 2 |
每个类别的查询数量(包括原始分数和阈值设置后) | 126 |
一个这些属性是针对14个时间差以及与非msd活动的差异计算的,总共有1980个属性。
每一类用户最常选择的属性。
用户群体 | 特性 |
|
|
|
成人查询次数 |
|
成人查询数量的差异 |
|
与车辆相关的查询数 |
|
与商业相关的查询数量 |
|
商业查询数量上的分歧 |
|
事件相关查询的个数 |
|
与航班状态相关的查询数量的差异 |
|
|
|
星期几 |
|
与车辆相关的查询数 |
|
与图书相关的查询数量 |
|
商业查询数量上的分歧 |
|
名人相关查询数量的差异 |
|
与衣服和鞋子相关的查询数量 |
|
与商业相关的查询数量 |
|
商业查询数量上的分歧 |
|
|
|
星期几 |
|
与车辆相关的查询数 |
|
与车辆相关的查询数量的差异 |
|
与图书相关的查询数量 |
|
与书籍相关的查询数量的差异 |
|
商业查询的数量 |
|
与衣服和鞋子相关的查询数量 |
|
商业查询数量上的分歧 |
|
消费者电子产品查询数量的分歧 |
|
事件相关查询的个数 |
|
与金融相关的查询数量的差异 |
|
与航班状态相关的查询数 |
|
与健康相关的查询数量 |
|
与健康相关的查询数量的差异 |
一个MSD:情绪稳定药物
对搜索活动日志的分析显示,它有可能成为公共卫生领域的宝贵工具,也有可能成为代表用户工作的私人应用程序和服务。我们确定了对MSD表现出强烈兴趣的用户群体,并且在表达对药物感兴趣的前后,他们的在线搜索行为也发生了重大变化。我们表明,我们可以建立预测模型,可以用来预测以msd为中心的搜索查询的未来出现,这可能与双相情感障碍的发作有关。我们相信,通过在用户自己的计算设备中运行的应用程序来预测情绪波动发作的可能性,有一天可能会帮助患者和护理人员更好地理解和准备即将发生的情绪变化。
将调查结果与网上观察到的行为进行比较,我们发现了一些相似之处。首先,在调查中进行2到10次查询的人数和进行10次以上查询的人数与进行一次查询的人数之比分别为1.4和0.2,而在查询日志数据中为0.5和0.1。其次,受访者确定的搜索主题与MSD查询中经常出现的术语非常匹配。最后,受访者报告搜索与购物、爱好和健康信息相关的信息,以及对成人内容的高度搜索,这与我们对在线行为动态的观察相一致,与用户搜索MSD信息相一致。
出现对MSD的重复查询是一个有趣的现象。调查对象报告说,由于他们需要更多或不同的信息,或者因为他们需要保证处方药物是适合他们的,他们重新提交了对MSDs的询问。网络数据显示,后一种理由,以及对副作用的担忧,是重复搜索的主要原因。我们假设,情绪波动发作的发作会使患者对他们的疾病,特别是他们的药物(尤其是当他们不服药时)有更多的认识,从而触发MSD搜索。因此,这种触发行为可能不局限于情绪障碍,而是更广泛的一类疾病。
我们研究的一个关键局限性是缺乏对结果的黄金标准。我们无法直接将我们群组中的用户与他们现实生活中的角色联系起来,因此无法知道他们实际上是否患有双相情感障碍。为了解决这个缺点,我们注意到以前的工作[
虽然药物和行为治疗可以降低情绪障碍事件的发生率,但据估计,MSD处方的依从性低至35% [
未来的工作机会包括与患者合作,将在线活动与临床观察联系起来。这样的努力可以验证我们的结果,并确定早期预警的准确性,以及验证对即将发生的事件的及时预测是否可以以有益的方式加以利用。
服用msd的使用者调查。
接收机工作特性曲线下面积
情绪障碍
情绪稳定药
这三位作者都提出了这项研究的想法,并制定了执行该研究的方法。EYT提取并分析查询数据。读写网提取并分析了comScore的数据。所有作者设计了调查,EYT对其进行了分析。这三位作者都参与了手稿的最终分析和写作。
作者是微软研究院的员工。所有工作都是作为各自作者研究的一部分进行的,没有额外的或外部资金。