发表在gydF4y2Ba在gydF4y2Ba第22卷gydF4y2Ba11号gydF4y2Ba(2020)gydF4y2Ba: 11月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/15293gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
在Reddit上检测阿片类药物使用者的自杀行为:基于机器学习的方法gydF4y2Ba

在Reddit上检测阿片类药物使用者的自杀行为:基于机器学习的方法gydF4y2Ba

在Reddit上检测阿片类药物使用者的自杀行为:基于机器学习的方法gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba石溪大学,石溪,纽约州,美国gydF4y2Ba

2gydF4y2Ba石溪大学文艺复兴医学院,石溪,纽约州,美国gydF4y2Ba

通讯作者:gydF4y2Ba

王福生,博士gydF4y2Ba

石溪大学gydF4y2Ba

2313D计算机科学gydF4y2Ba

纽约州石溪市,11794gydF4y2Ba

美国gydF4y2Ba

电话:1 631 632 2594gydF4y2Ba

电子邮件:gydF4y2Bafusheng.wang@stonybrook.edugydF4y2Ba


背景:gydF4y2Ba近年来,自杀率和服药过量率都在上升。许多与阿片类药物使用障碍作斗争的人容易产生自杀念头;这通常会导致过量服用。然而,这些致命的过量用药很难划分为有意或无意。故意过量很难被发现,部分原因是缺乏预测因素和社会耻辱感,使个人远离寻求帮助。这些人可能会转而使用基于网络的方式来表达他们的担忧。gydF4y2Ba

摘要目的:gydF4y2Ba这项研究旨在使用机器学习方法提取Reddit上阿片类药物使用者的自杀帖子。模型的性能是数据纯度的衍生物,结果将帮助我们更好地理解这些用户的基本原理,为阿片类药物流行的一部分个人提供新的见解。gydF4y2Ba

方法:gydF4y2Ba2017年6月至2018年6月期间的Reddit帖子收集自gydF4y2Bar / suicidewatchgydF4y2Ba,gydF4y2Bar /抑郁gydF4y2Ba一组是阿片类药物相关的子reddit,另一组是对照子reddit。我们首先对自杀性语言和非自杀性语言进行分类,然后对使用阿片类药物的用户和不使用阿片类药物的用户进行分类。几个传统的基线和神经网络(NN)文本分类器使用subreddit名称作为标签和语义输入的组合进行训练。然后,我们试图提取属于自杀意念和阿片类药物滥用交叉点的样本外数据。使用Amazon Mechanical Turk为样本外数据提供标签。gydF4y2Ba

结果:gydF4y2Ba对于至少一个输入组合,所有模型的分类结果至少达到90%;最好的分类器是卷积神经网络,该分类器获得了一个gydF4y2BaFgydF4y2Ba1gydF4y2Ba得分96.6%。在预测包含自杀意念和阿片类药物成瘾迹象的帖子的样本外数据时,神经网络分类器产生了更多的假阳性,而传统方法产生了更多的假阴性,这对于预测自杀情绪来说是不太理想的。gydF4y2Ba

结论:gydF4y2Ba阿片类药物滥用与意外过量和自杀风险有关。Reddit等社交媒体平台包含有助于机器学习的元数据,并提供在其他地方无法获得的个人层面的信息。我们证明,可以使用神经网络作为预测样本外目标的工具,该模型是由我们希望在样本外目标中区分的特征标记的数据集构建的。gydF4y2Ba

中国医学信息学报,2016;22(11):591 - 591gydF4y2Ba

doi: 10.2196/15293gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

目前的阿片类药物危机的特点是,阿片类药物过量导致的死亡人数不断增加;这一数字增加到如此程度,以至于2017年,美国卫生与公众服务部宣布进入公共卫生紧急状态[gydF4y2Ba1gydF4y2Ba]。2016年,美国疾病控制和预防中心报告称,处方和非处方阿片类药物导致4.2万人死于阿片类药物过量,包括故意(自杀)和非故意(意外)死亡[gydF4y2Ba2gydF4y2Ba]。自2008年以来,自杀已成为美国第十大死亡原因。2016年,自杀成为10至34岁人群的第二大死因[gydF4y2Ba3.gydF4y2Ba]。美国自杀预防基金会估计,每年有44,965名美国人死于自杀,而每一次自杀,就有25人企图自杀。由于与自杀有关的污名,这些数字可能被低估了[gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

动机gydF4y2Ba

患有慢性疼痛和精神健康状况不佳的人往往有自杀风险;然而,目前大多数阿片类药物过量预防方法既没有评估自杀风险,也没有根据个人情况量身定制预防方法[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba]。进一步阻碍实施自杀筛查的是缺乏关于过量死亡的可用数据,过量死亡通常被归类为gydF4y2Ba待定gydF4y2Ba因为无法证实死亡是自杀。例如,如果发现死者身边有注射器,则很难确定这是故意致死剂量还是意外死亡(并且没有过量服用的意图),因为注射给药的途径有风险[gydF4y2Ba6gydF4y2Ba]。gydF4y2Ba

由于阿片类药物使用障碍的性质,患有阿片类药物使用障碍(OUD)的个体是过量用药的候选人。本研究特别关注自杀意念或意图的个体与OUD的高可能性,或至少,阿片类药物滥用。《精神障碍诊断与统计手册》将OUD定义为阿片类药物使用的一种有问题的模式,导致临床显著的损害或痛苦[gydF4y2Ba7gydF4y2Ba];约有250万人受OUD影响[gydF4y2Ba8gydF4y2Ba]。诊断标准包括长时间服用大量阿片类药物,控制阿片类药物使用的努力不成功,在阿片类药物相关活动或恢复所需的活动中投入大量时间,日常生活功能受损,明知后果仍继续使用,剂量耐受,不可避免的停药[gydF4y2Ba7gydF4y2Ba]。gydF4y2Ba

的gydF4y2Ba新英格兰医学杂志gydF4y2Ba提出自杀意图对OUD患者来说是模糊的,他们反复暴露在成瘾诱导的使用和戒断周期和情绪波动中[gydF4y2Ba2gydF4y2Ba]。最终,如此长时间的接触会导致对可能导致死亡的冒险和冲动行为的脱敏。虽然个人意识到后果,但相应的体重是沉默的,并且没有相关的有意识的自杀意图[gydF4y2Ba9gydF4y2Ba]。OUD的这一方面可导致阿片类药物过量死亡,但可能未明确考虑其对过量的贡献。即使没有OUD,经历过重度抑郁发作、自杀意念或其他使用和精神障碍的人也可能滥用阿片类药物,这表明阿片类药物滥用和精神病理状况是自我延续和循环的行为[gydF4y2Ba10gydF4y2Ba]。gydF4y2Ba

自杀风险的相关预测因素包括慢性疼痛合并抑郁[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba]。有抑郁史的个体也有更高的平均日剂量,并且更坚持长期阿片类药物治疗慢性疼痛[gydF4y2Ba12gydF4y2Ba],这是OUD的特征。慢性疼痛和抑郁甚至可能导致原本健康的人产生自杀念头[gydF4y2Ba13gydF4y2Ba],被动和主动的自杀意念都与精神疾病、以前的自杀企图和慢性疼痛有关[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba13gydF4y2Ba]。一些人认为阿片类药物滥用在很大程度上表现为对身体和精神疼痛的一种适应不良的应对策略,而不仅仅是生物学上的[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba]。然后,即使没有有意识的自杀意图,不良的心理健康状况也会导致服用阿片类药物的人采取“我不介意死亡”的心态,他们的行为会变得更加鲁莽,导致服药过量的可能性更高。鉴于这些相关性,认真考虑阿片类药物使用者的自杀风险并非不合理。gydF4y2Ba

那些经历过归属感受挫的OUD患者可能不愿意与现实生活中的人讨论他们的担忧,因为社会耻辱。gydF4y2Ba16gydF4y2Ba]。相反,他们可能会转向基于网络的讨论方式,与那些比卫生专业人员更有可能理解他们的人联系并寻求支持[gydF4y2Ba17gydF4y2Ba]。大多数基于社交媒体的阿片类药物研究都是在Twitter上进行的。然而,Twitter被限制在280个字符以内,这可能无法为苦苦挣扎的个人提供足够的空间来彻底表达自己,而且由于缺乏监控和话题的混杂,它可能会非常嘈杂[gydF4y2Ba18gydF4y2Ba-gydF4y2Ba22gydF4y2Ba]。gydF4y2Ba

相比之下,Reddit是一个基于论坛的社交媒体平台,可以讨论许多话题。每个主题都有自己的主题gydF4y2BasubredditgydF4y2Ba对于特定主题的内容,文本帖子的字符限制为40,000。用户可以直接与原始帖子互动,也可以通过在原始帖子下方评论与其他用户互动。根据Reddit的统计页面,它目前是美国访问量第五大的网站,拥有超过3.3亿的月活跃用户和13.8万个活跃社区[gydF4y2Ba23gydF4y2Ba]。当离线支持不可用时,个人越来越多地使用心理健康子reddit作为一种基于网络的支持手段。由于Reddit还提供了在现实生活中无法获得的匿名性,因此围绕耻辱话题的自我披露越来越多[gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba]。此外,由于子reddits是特定类别的,挣扎的个人可以从那些有共同经历的人那里得到支持和理解,他们可以在评论中提供治疗因素(例如,为那些正在阿片类药物恢复或戒断的人灌输希望和利他主义)[gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba

我们将自杀行为的人际心理学理论作为研究自杀与OUD之间关系的动机[gydF4y2Ba28gydF4y2Ba]。简而言之,这一理论认为,一个人不会死于自杀,除非他既有自杀的欲望,又有实现这种欲望的能力。根据该理论,自杀欲望来源于个人的负担感和归属感的阻碍(社会异化),并伴随着自杀的能力,这是由反复暴露于痛苦和愤怒中发展而来的[gydF4y2Ba9gydF4y2Ba]。受挫的归属感在OUD患者身上表现为内省的折磨,他们经常破坏人际关系,或者觉得自己永远被贴上了标签gydF4y2Ba一个瘾君子gydF4y2Ba无法从周围的人那里得到理解。自杀的能力是通过积极参与类似自杀的行为获得的,需要麻木天生的自我保护意识[gydF4y2Ba28gydF4y2Ba]。这适用于OUD患者,他们中的许多人都亲身经历过吸毒过量,或者目睹他们的朋友因吸毒过量而去世,因此随着时间的推移而变得脱敏。gydF4y2Ba

目标gydF4y2Ba

据我们所知,自杀和OUD的交集还没有用机器学习方法以数据驱动的方式进行分析,尽管这两个领域已经分别进行了检查,并进行了临床研究。我们试图将subreddits与机器学习方法相结合,对样本内数据进行分类,然后预测样本外数据,以检测OUD背景下的自杀意念。gydF4y2Ba

在本研究中,我们(1)利用subreddits的结构和性质来训练分类器,目的是提取同时包含OUD和自杀意念的帖子;(2)比较输入和分类模型;(3)旨在从鸦片情境中提取自杀风险帖子,并从自杀情境中提取阿片类药物成瘾,其中gydF4y2Ba上下文gydF4y2Ba指数据集所属的子reddit。我们还要求亚马逊土耳其机械公司(MTURK)的非专业工作人员对帖子样本进行注释,以获得帖子是否表明自杀念头和阿片类药物成瘾的标签。gydF4y2Ba

相关工作gydF4y2Ba

利用Reddit提供大量文本数据的社交媒体研究已经变得流行起来。其中许多关注当前的心理健康问题,如抑郁和焦虑,并试图分析帖子内容的语言特征,并采用传统方法,如N-grams,潜在的Dirichlet分配主题建模,语言查询和字数统计,术语频率-逆文档频率(TF-IDF)和词嵌入来提取和分析Reddit用户的情绪和精神状态[gydF4y2Ba25gydF4y2Ba,gydF4y2Ba27gydF4y2Ba,gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba]。gydF4y2Ba

r/ suicdewatch和r/opiates的子版块分别围绕着自杀的主题(例如,讨论,情况披露,情绪表达等)和阿片类药物的使用(例如,药物剂量,高剂量活动,戒断痛苦等)。对特定子reddit的分析可以通过他们的语言使用来洞察子reddit用户的一般心态。例如Park等人的研究[gydF4y2Ba29gydF4y2Ba研究表明,心理健康和非心理健康版块的句子结构存在显著差异。他们发现Reddit的r/ suicdewatch和一般心理健康版块在可读性指数上存在差异,第一人称单数代词的使用增加,而第一人称复数、第二人称和第三人称代词的使用减少。gydF4y2Ba29gydF4y2Ba]。Kumar等[gydF4y2Ba32gydF4y2Ba在r/suicidewatch网站上进行了一项调查,以测试维特效应,特别是在高调自杀之后,发现负面情绪、愤怒、自残和自杀言论增加了。他们同样报告说,第一人称单数代词的使用增加了,词汇多样性减少了,帖子变长了,面向将来的词越来越少,面向过去的词越来越多[gydF4y2Ba32gydF4y2Ba]。对r/suicidewatch的另一项分析提取了反复出现的讨论话题,然后将结果与领域专家定义的自杀风险因素进行了比较;研究发现,r/suicidewatch能够捕捉到不太为人所知的风险因素的维度,比如对学业失败、拥有枪支、滥用药物、财务担忧、已故朋友和家庭暴力的担忧。gydF4y2Ba33gydF4y2Ba]。对r/阿片类药物的分析产生了讨论的主要主题和特征,特别是对于阿片类药物使用者,如阿片类药物戒断和阿片类药物摄入常规[gydF4y2Ba34gydF4y2Ba]。gydF4y2Ba

来自r/ suicdewatch的这些发现支持了对现实生活中试图或完成自杀的人留下的文字的分析结果。特别是,一项关于有自杀倾向和没有自杀倾向诗人诗歌用词的研究揭示了第一人称单数代词和交流词的变化(例如,gydF4y2Ba说话gydF4y2Ba),一项针对自杀完成者的语言学研究表明,与对照组相比,这些人在时间取向上存在差异[gydF4y2Ba35gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]。这个想法gydF4y2Ba异化gydF4y2Ba自杀的人际关系理论支持第一人称代词使用增加的发现——当一个人无法与社会联系时,第一人称复数的存在gydF4y2Ba我们gydF4y2Ba换句话说,相互作用减少了[gydF4y2Ba28gydF4y2Ba,gydF4y2Ba37gydF4y2Ba]。gydF4y2Ba

神经网络(NNs)在自然语言处理方面取得了优异的成绩。与传统方法不同,gydF4y2Ba从零开始学习课文gydF4y2Ba在文字或措辞层面上不需要情感知识;高水平目标可作为输入[gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba]。在这种情况下,这一点尤其有价值,因为与毒品相关的词汇通常是俚语,而与吸毒或醉酒相关的表达可能会被错误地归类为负面词汇,而事实并非如此,因为情感词汇无法学习领域特异性[]gydF4y2Ba40gydF4y2Ba]。此外,不需要穷举特征工程,因为权重可以学习[gydF4y2Ba41gydF4y2Ba]。gydF4y2Ba

金允[gydF4y2Ba42gydF4y2Ba]证明了具有1层卷积的简单卷积神经网络(CNN)对多数据集进行句子分类的能力,发现简单CNN的性能与传统方法相当[gydF4y2Ba42gydF4y2Ba]。Orabi等[gydF4y2Ba43gydF4y2Ba]使用CNN和递归神经网络(RNN)对Twitter数据进行抑郁预测,结果显示CNN的表现优于RNN。约翰逊和张[gydF4y2Ba44gydF4y2Ba]用CNN成功地使用词序列对文档进行分类,而Kim和Orabi只对句子长度短的文本进行分类[gydF4y2Ba44gydF4y2Ba]。Singh等[gydF4y2Ba45gydF4y2Ba比较了CNN,发现CNN在速度和准确性方面都表现得最好。因此,为了提高速度和性能,我们使用了一个简单的CNN架构。gydF4y2Ba


数据收集gydF4y2Ba

本研究中使用的社交媒体平台是Reddit。我们关注的是r/自杀观察和r/抑郁和阿片类药物相关论坛;另外,一个对照组被用来模拟健康、无障碍的语言。reddit的r/suicidewatch版块充当了一个gydF4y2Ba底网gydF4y2Ba,这样,如果用户表达了自杀倾向,他们通常会被引导到r/ suicdewatch寻求帮助。子版块reddit有禁止恶意中伤和劝阻激进主义的政策(例如,反复发布热线),支持直接的同伴支持,这给这个论坛带来了可信度。gydF4y2Ba46gydF4y2Ba]。Subreddit r/depression在禁止方面类似gydF4y2Ba空的鼓励gydF4y2Ba(即gydF4y2Ba别担心,会好起来的gydF4y2Ba)。这些特点说明了这些讨论板的严肃性,并证实了数据的可靠性。然而,与这些子reddit不同的是,r/joke几乎没有规则,只是明确规定不得进行人身攻击,并指出讨论必须轻松、文明;同时,r/showerthoughts只要求原创内容。阿片类药物相关论坛上的帖子被认为表明了与阿片类药物滥用作斗争并在网络上寻求理解的个人;我们的假设是基于这样一个事实:在社交媒体上发布有关阿片类药物的行为表明,这些药物的存在在一个人的生活中占据了足够的主导地位。如果论坛相对活跃,并且论坛的焦点药物经常在reddit最活跃的阿片类药物版块r/opiates上讨论,则选择所有与阿片类药物相关的论坛。数据是使用pushshift从Reddit上收集的。io Python应用程序编程接口(API) [gydF4y2Ba47gydF4y2Ba]和Reddit的Python Reddit API Wrapper (PRAW) [gydF4y2Ba48gydF4y2Ba]。2017年6月至2018年6月期间提交的id是通过pushshift获得的。然后传递给PRAW,后者检索实际提交。提交由ID、作者、标题和正文文本/内容组成。gydF4y2Ba

我们使用来自r/ suicdewatch的帖子来代表自杀语言,并使用与阿片类药物相关的子reddit集合来模拟阿片类药物使用者(在本研究中称为r/opiates或)的语言gydF4y2Ba鸦片的数据gydF4y2Ba)。我们假设所有来自r/suicidewatch的帖子都是关于自杀的,并且r/depression的语言与r/suicidewatch的语言最为相似。gydF4y2Ba49gydF4y2Ba]。根据Shen等人的研究,使用了几个对照子reddit进行语言比较[gydF4y2Ba50gydF4y2Ba]来检测Reddit上的焦虑情绪,这意味着子Reddit本身可以用作标签。这一系列不同的子reddit试图抵消过度使用第一人称代词的影响,第一人称代词在表达负面情绪和特定主题的词语时很常见。gydF4y2Ba51gydF4y2Ba,gydF4y2Ba52gydF4y2Ba]。我们假设这些控制子区里的大多数帖子都是gydF4y2Ba心理健康gydF4y2Ba这意味着帖子内容(对用户本身只字未提)不会反映出抑郁症和自杀念头等精神障碍。除了Shen等人所使用的subreddits [gydF4y2Ba50gydF4y2Ba],我们包括了r/careerguidance和r/personalfinance来解释那些在r/suicidewatch中的人可能经历的财务压力源,我们包括了r/offmychest来解释阿片类药物使用者潜在的更粗鲁和更粗俗的语言,这表明强烈的负面情绪,但不太可能表明自杀倾向。在一些特定的子reddit帖子的例子显示在gydF4y2Ba表1gydF4y2Ba,数据组及其子reddits列表如下:gydF4y2Ba

  • 抑郁症gydF4y2Ba:抑郁症。gydF4y2Ba
  • SuicidewatchgydF4y2Ba: suicidewatch。gydF4y2Ba
  • 控制gydF4y2Ba问医生,问科学,书,职业指导,健身,节俭,笑话,生活秘诀,坦白,育儿,个人理财,生产力,随机善良,人际关系,淋浴思想,零售故事,reddit理论,批发,博客,写作,你应该知道。gydF4y2Ba
  • 鸦片gydF4y2Ba:苯二氮卓类药物,苯二氮卓类药物,海洛因,美沙酮,阿片类药物,阿片类药物恢复,戒烟,亚博酮。gydF4y2Ba
表1。来自属于数据组的subreddits的示例帖子。gydF4y2Ba
Subreddit集团gydF4y2Ba 标题gydF4y2Ba 正文gydF4y2Ba
控制gydF4y2Ba
(r / showerthoughts)gydF4y2Ba
随着年龄的增长,在公共场合哭泣变得越来越不可接受,尽管这样做的理由越来越充分gydF4y2Ba 孩子们就是不明白gydF4y2Ba
阿片类药物相关的gydF4y2Ba
(r /鸦片)gydF4y2Ba
幸福是在病了一星期后,又打了一针又大又黑的海洛因。<3gydF4y2Ba 同时也要知道,在你考虑下一步要做什么的时候,你的钱不仅够第二天早上用,而且至少够几天用!gydF4y2Ba
抑郁症gydF4y2Ba 我不会自杀,但我不介意死去gydF4y2Ba 太多乱七八糟的事发生了。我觉得我没有让我关心的人感到骄傲,他们和我说话的唯一原因是同情。我不会结束自己的生命,但如果我被车撞了,我就会患上绝症,或者有东西砸到我。我不会为我的离去而难过gydF4y2Ba
SuicideWatchgydF4y2Ba 我在等待结束自己生命的勇气gydF4y2Ba 我觉得我很快就会做出认真的尝试,我对此很满意。在过去的几个月里,我的冲动行为变得越来越严重,其中一些方式包括身体伤害。9月,我冲动地从朋友的窗户跳了下去,伤了自己,现在我多年来第一次随意割伤自己。我身边的人都不知道每天醒来还是我自己有多累。在我自己的脑海里。我受够了胃痛、内疚、哭泣和失望。有些夜晚,我只是祈祷我有勇气结束这一切。世界上到处都有人死去,我什么时候走都无所谓gydF4y2Ba

特征矩阵构造gydF4y2Ba

我们保持了语言的高级结构,只是小写并删除了url [gydF4y2Ba42gydF4y2Ba]。文本没有被规范化,所有的停止词和亵渎都被保留了下来。除句号、逗号、感叹号、问号和撇号外,所有标点符号都被删除了。我们试图利用词序对文本进行分类[gydF4y2Ba44gydF4y2Ba]。由于帖子的标题可以很好地表示帖子的内容,因此每篇文章的标题都附加在正文文本之前。合并后的标题和正文内容组成了神经网络输入。所有的帖子要么是零填充,要么是截断到1500字的长度,因为我们希望尽可能使用整个帖子。每个帖子(标题+正文)都经过预处理、标记和编码,保留了单词序列,因此被表示为单词向量。我们还只使用超过1000个单词的帖子重新进行分类,以表明不同的内容长度不会影响性能。gydF4y2Ba文本框1gydF4y2Ba显示每个文本处理阶段的示例。gydF4y2Ba

文本处理阶段的示例。gydF4y2Ba

未加工的文本gydF4y2Ba

  • 的问题。什么非处方药最适合嗑药过量?我受够了日复一日的苦差事。我在生活中是个失败者,准备退房……gydF4y2Ba

处理文本gydF4y2Ba

  • 的问题。最好的非处方药是什么?我受够了日复一日的苦差事。我在生活中是个失败者,准备退房…gydF4y2Ba

标记化的gydF4y2Ba

  • 【问题】最好的otc / med / od / on是什么?这一天已经过去了,这一天已经过去了。我是生活的失败者,准备离开。|。|。|gydF4y2Ba
文本框1。文本处理阶段的示例。gydF4y2Ba

由于顺序文本数据不能像训练机器学习模型那样使用,因此有几种技术可以将这些数据转换为数值:gydF4y2Ba

  1. TF-IDF:术语频率逆文档频率表示一个单词在一个文档中相对于它在其他文档中的频率有多重要。我们使用了样本内单图和双图的100维TF-IDF [gydF4y2Ba53gydF4y2Ba]。gydF4y2Ba
  2. 词嵌入:这是一组将文本数据转换为向量空间的方法和语言模型。我们利用了3种方法,包括Gensim Word2Vec模型Global Vectors for Word representation (GloVe),它需要在大型数据语料库上预先训练嵌入,以及一个更简单的Word到ID映射版本,这是在运行时执行的[gydF4y2Ba54gydF4y2Ba,gydF4y2Ba55gydF4y2Ba]。gydF4y2Ba
  3. 字符嵌入:由于在预训练的词嵌入中,字典外的词都被映射到随机向量上,或者俚语中最微小的变化都可能导致词映射到不同的向量上,因此添加字符嵌入也显示了对机器学习模型训练的改进。gydF4y2Ba

在本研究中,我们利用这些知识表示方法的不同组合来评估分类性能是否通过缓解词汇问题来改善附加信息。gydF4y2Ba多媒体附录1gydF4y2Ba显示组合的完整列表。gydF4y2Ba

模型gydF4y2Ba

我们主要关注的是CNN文本分类器。此外,我们实现了几个传统和深度学习模型作为CNN的基线。详情如下。gydF4y2Ba

经典的基线gydF4y2Ba

我们采用了众所周知的传统机器学习方法作为基准,包括逻辑回归(LR)、随机森林(RF)和支持向量机(svm)。实现使用Python语言,并基于scikit-learn工具包[gydF4y2Ba53gydF4y2Ba]。gydF4y2Ba

神经网络基线gydF4y2Ba

我们在它们的原始架构中实现了快速文本(FAST)、RNN和基于注意力的双向RNN (ATTENTION)进行比较[gydF4y2Ba56gydF4y2Ba-gydF4y2Ba58gydF4y2Ba]。FAST使用浅神经网络和由n-gram袋构建的单词表示,将其平均为文本表示并输入到线性分类器中。RNN考虑历史信息,并通过允许重用以前的输出作为输入来共享权重。注意力通过引入能力建立在RNN的基础上gydF4y2Ba参加gydF4y2Ba具体的子输入而不是所有可用的信息,从而改进每一步做出的决策。gydF4y2Ba

CNN模型gydF4y2Ba

我们基于Kim Yoon的CNN架构实现了一个CNN,并使用了Python中的Keras NN库[gydF4y2Ba59gydF4y2Ba]。这个实现和Kim的实现之间的主要区别是使用随机初始化而不是word2vec,因为两者的性能相同,使用最大池化而不是全局池化,使用过滤器大小为3和8而不是3、4和5。8大小的过滤器被证明可以更好地处理较长的文档,并且一次可以滑动过8个单词的窗口[gydF4y2Ba60gydF4y2Ba]。每个卷积层之后的激活层是整流的线性单元f(x)=max(0,x),它在输入和特征映射之间映射非负。在将附加信息、领域知识特征和char2vec (char2vec)集成到原CNN系统中,我们简单地使用了拼接。由于char2vec特征矩阵与词嵌入特征大小相同,逻辑意义相似,我们在主卷积部分之前将它们连接在一起。在最终的全连接层部分之前,将领域知识特征(从语言学角度提取的信息的一个大向量)进行连接。我们使用的批大小为512,epoch计数为6,嵌入层是在训练时学习的。嵌入层的dropout为0.5以防止过拟合,维度大小为100。损耗用交叉熵计算。gydF4y2Ba图1gydF4y2Ba展示了我们的CNN架构。gydF4y2Ba

‎gydF4y2Ba
图1所示。卷积神经网络架构概述。gydF4y2Ba
查看此图gydF4y2Ba
分类与预测gydF4y2Ba

我们的假设是基于直觉的观点。我们考虑了两种情况:(1)阿片类药物数据集中存在带有自杀情绪的帖子;(2)自杀观察数据集中存在表明阿片类药物成瘾的帖子。我们试图提取包含自杀情绪和阿片类药物滥用的帖子。这两种情况被称为gydF4y2BaC1gydF4y2Ba和gydF4y2BaC2gydF4y2Ba由各自的模型表示。gydF4y2Ba

案例1 (C1)是一个模型,它将接受来自r/suicidewatch和控制子reddit的积极语言数据的训练,它将学习区分自杀和积极语言。由于r/opiates包含混合情绪,如果我们将r/opiates的样本外数据输入到C1中,则C1应该能够对自杀风险岗位和非自杀风险岗位进行分类。来自r/opiates的帖子被分类为gydF4y2Ba自杀gydF4y2Ba会同时包含自杀和自杀的方面。此外,我们对预测的帖子质量进行了粗略评估gydF4y2Ba自杀gydF4y2Ba通过从预测中构造一个word2vec。gydF4y2Ba

案例2 (C2)是一个基于r/抑郁和r/阿片类药物数据训练的模型。reddit的r/depression版块和r/suicidewatch版块最相似。C2将学会区分有吸毒成瘾和没有吸毒成瘾的帖子。如果我们将r/ suicdewatch的样本外数据输入C2,那么C2应该能够对包含阿片类药物使用和非阿片类药物使用的帖子进行分类。r/ suicdewatch上被归类为使用阿片类药物的帖子将同时包含自杀和OUD方面。gydF4y2Ba

对于分类,以8:2的比例分割数据集用于训练和测试。训练数据再次分割,训练与训练验证的比例为8:2。为了评估预测能力,我们从r/opiates和r/ suicdewatch中抽取了500个帖子进行注释。为了加强样本质量的下限并减少帖子之间的方差,我们只从30到500个单词之间的帖子中进行采样。由于在500个样本中关注类别平衡,因此如果500个帖子包含感兴趣的关键字或关键短语,则最多选择250个。因此,整个数据集上的8:2训练/测试分割用于样本内测试,然后从属于测试分割的20%的帖子中提取500个样本用于样本外测试。gydF4y2Ba表2gydF4y2Ba总结了C1和C2过程,并在gydF4y2Ba多媒体附录2gydF4y2Ba,它演示了C1的工作流程。gydF4y2Ba

表2。2个案例的2个模型总结。gydF4y2Ba
情况下gydF4y2Ba C1gydF4y2Ba C2gydF4y2Ba
培训及分类gydF4y2Ba

目标gydF4y2Ba 区分自杀性和非自杀性语言;预测阿片类药物使用者的自杀行为gydF4y2Ba 区分阿片类药物使用语言和抑郁但非阿片类药物使用语言;预测自杀个体中阿片类药物的使用gydF4y2Ba

数据集gydF4y2Ba 来自r/suicidewatch和control子reddit的51,366个帖子gydF4y2Ba 来自阿片类药物相关子reddit和r/depression的59,940个帖子gydF4y2Ba
词汇量的大小gydF4y2Ba 70082年gydF4y2Ba 64078年gydF4y2Ba
培训gydF4y2Ba 根据r/自杀观察和控制子红迪网的数据进行培训和验证gydF4y2Ba 根据阿片类药物相关子reddit和r/抑郁症的数据进行培训和验证gydF4y2Ba
样本外数据的预测gydF4y2Ba

预计在gydF4y2Ba 数据来自r/opiatesgydF4y2Ba 数据来自r/ suicdewatchgydF4y2Ba

预测目标gydF4y2Ba 预测含有r/阿片类药物自杀风险的岗位gydF4y2Ba 预测r/自杀观察中含有阿片类药物滥用的帖子gydF4y2Ba

总帖子预测数据在30到500字之间gydF4y2Ba 23,740个帖子来自r/opiatesgydF4y2Ba 来自r/suicidewatch的21,719条帖子gydF4y2Ba

从包含这些关键字的数据中抽取最大250个样本用于预测MTURKgydF4y2Ba一个gydF4y2Ba 自杀,自杀,自杀,自杀,想死,想做,想过量gydF4y2Ba 苯二氮卓类,苯类,可卡因,可待因,芬太尼,海洛因,氢可酮,氢可酮,氢吗啡酮,氢氢酮,克瑞托姆,美沙酮,吗啡,麻醉品,麻醉品,阿片类药物,阿片类药物,羟考酮,奥施康定,奥施可定,奥施可定,奥施可定,奥施可定,奥施可酮,奥施可酮,奥施可酮,奥施可酮gydF4y2Ba
包含关键字的样本计数gydF4y2Ba 234gydF4y2Ba 231gydF4y2Ba

一个gydF4y2Ba土耳其机器人:亚马逊土耳其机器人。gydF4y2Ba

Amazon Mechanical Turk的注释gydF4y2Ba

抽样的帖子由来自MTURK的众包工作者注释[gydF4y2Ba61gydF4y2Ba]。每个帖子由3个工人注释,帖子的最终标签由多数决原则确定。gydF4y2Ba

对于C1, MTURK任务被命名为“自杀情绪检测”。描述是“使用者是否有自杀或故意服药过量的风险?”,有两个选项:“有自杀风险”和“没有自杀风险”。任务关键字包括gydF4y2Ba抑郁、药物滥用、药物、心理、心理健康、鸦片、过量、自杀、自杀意念、自杀观察、gydF4y2Ba和文本。符合条件的土耳其工人必须具有硕士资格,每个注释奖励0.04美元。我们不需要其他条件。假设一般人在精神健康和药物滥用方面都缺乏经验[gydF4y2Ba62gydF4y2Ba],我们从r/opiates中定义了常见的俚语(例如,PAWS代表急性戒断综合征),并提供了简单的说明gydF4y2Ba自杀的线索gydF4y2Ba作者是埃德温·施奈德曼,他是美国自杀学协会的创始人,并在该领域奠定了基础[gydF4y2Ba63gydF4y2Ba]。gydF4y2Ba

对于C2, MTURK任务的标题是“自杀个体的阿片类药物成瘾”。描述是“这篇文章是否暗示了阿片类药物成瘾?”有两个选项:“是的,意味着阿片类药物成瘾”和“没有阿片类药物成瘾”。任务关键字和限定条件与C1 MTURK任务相同。我们在说明书中提供了阿片类药物的名称。gydF4y2Ba


模型的比较和特征矩阵的影响gydF4y2Ba

我们计算了准确性、精密度、召回率、gydF4y2BaFgydF4y2Ba1gydF4y2Ba得分,曲线下的面积。完整的结果可以在gydF4y2Ba多媒体附录1gydF4y2Ba。gydF4y2Ba表3gydF4y2Ba提供了CNN与传统基线比较结果的子集gydF4y2BaFgydF4y2Ba1gydF4y2Ba在训练分类器时得分。gydF4y2Ba表4gydF4y2Ba提供了比较神经网络的结果。在这一阶段结束时,模型已经训练完毕,可以用于预测样本外数据。gydF4y2Ba

表3。gydF4y2BaFgydF4y2Ba1gydF4y2Ba对给定的不同分类输入组合所获得的分数。gydF4y2Ba
模型gydF4y2Ba LRgydF4y2Ba一个gydF4y2Ba 射频gydF4y2BabgydF4y2Ba 支持向量机gydF4y2BacgydF4y2Ba 美国有线电视新闻网gydF4y2BadgydF4y2Ba
C1: r/自杀观察组与阳性对照组gydF4y2Ba

TF-IDFgydF4y2BaegydF4y2Ba 0.902gydF4y2Ba 0.904gydF4y2Ba 0.915gydF4y2Ba 0.685gydF4y2Ba

word2vecgydF4y2Ba 0.928gydF4y2Ba 0.927gydF4y2BafgydF4y2Ba 0.943gydF4y2Ba 0.961gydF4y2Ba

TF-IDF + word2vecgydF4y2Ba 0.940gydF4y2Ba 0.921gydF4y2Ba 0.941gydF4y2Ba 0.963gydF4y2Ba

TF-IDF +手套gydF4y2Ba 0.927gydF4y2Ba 0.829gydF4y2Ba 0.886gydF4y2Ba 0.923gydF4y2Ba

TF-IDF + word2vec + char2vecgydF4y2Ba 0.914gydF4y2Ba 0.790gydF4y2Ba 0.856gydF4y2Ba 0.962gydF4y2Ba
2: r/抑郁与r/鸦片gydF4y2Ba

TF-IDFgydF4y2Ba 0.889gydF4y2Ba 0.800gydF4y2Ba 0.811gydF4y2Ba 0.729gydF4y2Ba

word2vecgydF4y2Ba 0.852gydF4y2Ba 0.846gydF4y2Ba 0.881gydF4y2Ba 0.961gydF4y2Ba

TF-IDF + word2vecgydF4y2Ba 0.894gydF4y2Ba 0.815gydF4y2Ba 0.880gydF4y2Ba 0.965gydF4y2Ba

TF-IDF +手套gydF4y2Ba 0.860gydF4y2Ba 0.494gydF4y2Ba 0.765gydF4y2Ba 0.814gydF4y2Ba

TF-IDF + word2vec + char2vecgydF4y2Ba 0.858gydF4y2Ba 0.581gydF4y2Ba 0.741gydF4y2Ba 0.966gydF4y2Ba

一个gydF4y2BaLR:逻辑回归。gydF4y2Ba

bgydF4y2Ba随机森林。gydF4y2Ba

cgydF4y2BaSVM:支持向量机。gydF4y2Ba

dgydF4y2BaCNN:卷积神经网络。gydF4y2Ba

egydF4y2BaTF-IDF:词频率-逆文档频率。gydF4y2Ba

fgydF4y2Ba该模型获得的最佳结果用斜体表示。gydF4y2Ba

表4。文本分类神经网络基线与词嵌入和卷积神经网络的比较。gydF4y2Ba
模型gydF4y2Ba 快gydF4y2Ba一个gydF4y2Ba RNNgydF4y2BabgydF4y2Ba 注意gydF4y2BacgydF4y2Ba 美国有线电视新闻网gydF4y2BadgydF4y2Ba
C1: r/自杀观察组与阳性对照组gydF4y2Ba

精度gydF4y2Ba 0.950gydF4y2Ba 0.944gydF4y2Ba 0.939gydF4y2Ba 0.954gydF4y2BaegydF4y2Ba

精度gydF4y2Ba 0.958gydF4y2Ba 0.953gydF4y2Ba 0.934gydF4y2Ba 0.968gydF4y2Ba

回忆gydF4y2Ba 0.957gydF4y2Ba 0.951gydF4y2Ba 0.965gydF4y2Ba 0.953gydF4y2Ba

FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba 0.957gydF4y2Ba 0.952gydF4y2Ba 0.949gydF4y2Ba 0.961gydF4y2Ba
2: r/抑郁与r/鸦片gydF4y2Ba

精度gydF4y2Ba 0.971gydF4y2Ba 0.957gydF4y2Ba 0.969gydF4y2Ba 0.971gydF4y2Ba

精度gydF4y2Ba 0.964gydF4y2Ba 0.964gydF4y2Ba 0.967gydF4y2Ba 0.970gydF4y2Ba

回忆gydF4y2Ba 0.958gydF4y2Ba 0.923gydF4y2Ba 0.951gydF4y2Ba 0.962gydF4y2Ba

FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba 0.961gydF4y2Ba 0.943gydF4y2Ba 0.959gydF4y2Ba 0.966gydF4y2Ba

一个gydF4y2Ba快速:FastText。gydF4y2Ba

bgydF4y2BaRNN:循环神经网络。gydF4y2Ba

cgydF4y2Ba注意:基于注意的双向递归神经网络。gydF4y2Ba

dgydF4y2BaCNN:卷积神经网络。gydF4y2Ba

egydF4y2Ba每个模型的最佳分数用斜体表示。gydF4y2Ba

从gydF4y2Ba表3gydF4y2Ba,我们可以看到word2vec对CNN的性能有贡献。另一个有趣的观察是,当使用预训练的GloVe作为输入时,所有模型的分类性能都会受到影响。这可能是由于使用特定的subreddits作为分类引入了本地信息。GloVe和字符嵌入的引入阻碍了RF的性能,这意味着RF在学习隐式语义特征方面比LR和SVM更困难。相比之下,神经网络在基于语义的输入上表现良好。gydF4y2Ba

图2gydF4y2Ba提供了神经网络从头开始训练的词嵌入的可视化。从浅紫色到亮粉色的颜色强度和色调表明对各自单词的强调程度在增加。CNN, RNN和ATTENTION共享许多重要的词,而FastText似乎关注不同的词,因为它的n -grams方法,但仍然取得了很高的分类性能。gydF4y2Ba

‎gydF4y2Ba
图2。通过神经网络模型对自杀和非自杀文本进行分类,从结果词嵌入中确定单词重要性的可视化。CNN:卷积神经网络;LSTN:长短期记忆;RNN:循环神经网络。gydF4y2Ba
查看此图gydF4y2Ba

使用MTURK注释评估预测gydF4y2Ba

对于预测,我们使用了word2vec输入和神经网络的传统基线。为了评估预测性能,使用MTURK获得每篇文章有3个注释的标签。C1预测阿片类药物数据中的自杀率。注释由25个独立的工作者执行,平均每个帖子花费4分钟。3个注释的两两一致性分别为0.632、0.628和0.644。在500个帖子中,总共有120个被裁定有自杀风险。C2预测自杀帖子中的阿片类药物成瘾。注释由92个独特的工作者完成,平均为11.3分钟(C1: SD 6.667分钟;C2: SD 14.633分钟)。注释间的两两一致性分别为0.524、0.604和0.544。 In total, 261 out of 500 posts were ruled as是的,意味着阿片类药物成瘾gydF4y2Ba。gydF4y2Ba表5gydF4y2Ba显示了使用多数规则MTURK注释作为基本真理的模型性能。gydF4y2Ba表5gydF4y2Ba还显示了根据数据集中标签的比例在性能上的差异。为了构建一组包含500行自杀风险帖子的特定百分比的数据,我们使用sckit-learn进行抽样,并将replace设为true。gydF4y2Ba

表5所示。使用Amazon Mechanical Turk标签进行模型预测的数量和准确性。gydF4y2Ba
模型gydF4y2Ba LRgydF4y2Ba一个gydF4y2Ba 射频gydF4y2BabgydF4y2Ba 支持向量机gydF4y2BacgydF4y2Ba 快gydF4y2BadgydF4y2Ba RNNgydF4y2BaegydF4y2Ba 注意gydF4y2BafgydF4y2Ba 美国有线电视新闻网gydF4y2BaggydF4y2Ba
C1的计数和准确性(预测阿片类药物数据中的自杀风险)gydF4y2Ba

自杀风险预测数gydF4y2Ba 24gydF4y2Ba 12gydF4y2Ba 11gydF4y2Ba 97gydF4y2Ba 93gydF4y2Ba 98gydF4y2Ba 103gydF4y2Ba

所有的数据gydF4y2Ba 0.768gydF4y2Ba 0.750gydF4y2Ba 0.744gydF4y2Ba 0.59gydF4y2Ba 0.608gydF4y2Ba 0.576gydF4y2Ba 0.536gydF4y2Ba

只有自杀风险gydF4y2Ba 0.2gydF4y2Ba 0.1gydF4y2Ba 0.092gydF4y2Ba 0.783gydF4y2Ba 0.791gydF4y2Ba 0.75gydF4y2Ba 0.833gydF4y2Ba

只有非自杀风险gydF4y2Ba 0.947gydF4y2Ba 0.959gydF4y2Ba 0.963gydF4y2Ba 0.529gydF4y2Ba 0.55gydF4y2Ba 0.521gydF4y2Ba 0.432gydF4y2Ba
C2的计数和准确性(预测自杀观察数据中的阿片类药物成瘾)gydF4y2Ba

预测阿片类药物成瘾人数gydF4y2Ba 88gydF4y2Ba 92gydF4y2Ba 105gydF4y2Ba 92gydF4y2Ba 158gydF4y2Ba 110gydF4y2Ba 127gydF4y2Ba

所有的数据gydF4y2Ba 0.524gydF4y2Ba 0.518gydF4y2Ba 0.538gydF4y2Ba 0.54gydF4y2Ba 0.588gydF4y2Ba 0.552gydF4y2Ba 0.562gydF4y2Ba

阿片类药物成瘾gydF4y2Ba 0.230gydF4y2Ba 0.237gydF4y2Ba 0.273gydF4y2Ba 0.251gydF4y2Ba 0.414gydF4y2Ba 0.295gydF4y2Ba 0.334gydF4y2Ba

非阿片类成瘾gydF4y2Ba 0.892gydF4y2Ba 0.869gydF4y2Ba 0.869gydF4y2Ba 0.9gydF4y2Ba 0.806gydF4y2Ba 0.874gydF4y2Ba 0.847gydF4y2Ba

一个gydF4y2BaLR:逻辑回归。gydF4y2Ba

bgydF4y2Ba随机森林。gydF4y2Ba

cgydF4y2BaSVM:支持向量机。gydF4y2Ba

dgydF4y2Ba快速:FastText。gydF4y2Ba

egydF4y2BaRNN:循环神经网络。gydF4y2Ba

fgydF4y2Ba注意:基于注意的双向递归神经网络。gydF4y2Ba

ggydF4y2BaCNN:卷积神经网络。gydF4y2Ba

关于C1:在阿片类药物成瘾背景下检测自杀意念的观察gydF4y2Ba

对于C1和C2,我们注意到,当每个标签的帖子比例发生变化时,模型指标发生了巨大变化。对于C1,当有自杀和非自杀标签的帖子混合时,传统基线表现更好,因为神经网络产生了大量的假阳性。然而,当只检查自杀帖子时,神经网络达到了更好的准确性。因此,根据领域和数据集的不同,最好使用在极端情况下更优越的模型,或者保持在一个相对较小的可变范围内。对于我们在样本外鸦片类药物数据中预测自杀风险帖子的案例,宁可在安全方面犯错,也不要错过有自杀风险的人。如果样本包含许多自杀风险帖子,CNN将是一个不错的选择。在预测表明自杀风险的帖子时,基线的预测能力是不可取的,因为在现实生活中,假阴性的代价是高昂的。gydF4y2Ba

考虑到模型倾向于预测C1的极端情况,我们推测这些模型将很好地作为集成模型的弱学习器。我们探索了一个简单的集成模型,使用scikit-learn的AdaBoost分类器和LR、SVM、RNN和CNN作为弱学习器。我们使用500大小的mturk标记数据作为基础真理,并使用弱学习者的概率预测作为输入数据。数据以8:2的比例分成训练集和测试集。AdaBoost在不同的数据洗牌和随机状态下运行5次,取平均准确率。gydF4y2Ba

在gydF4y2Ba图3gydF4y2Ba,顶部的图表说明了当我们将C1中鸦片数据中的自杀风险标签的百分比从10%增加到90%时,所选模型的性能。线形图显示了AdaBoost在这些模型作为弱学习器时的表现。AdaBoost在相应的区间内分别实现了0.89、0.84、0.82、0.8、0.8、0.86、0.9、0.91和0.94的精度。下面这张图gydF4y2Ba图3gydF4y2Ba显示每个步骤的模型贡献。从图中,结合预测极端情况的模型可以得到一个更健壮的分类器。这是一种有利的方法,因为集成模型现在具有关于样本外数据的知识,这是弱学习模型所不具备的。gydF4y2Ba

‎gydF4y2Ba
图3。顶部柱状图显示了C1中预测性能随数据类别比率的变化。叠加线图显示了在AdaBoost中使用这四个模型作为弱学习器所达到的精度。下面的图表显示学习者的贡献很弱。gydF4y2Ba
查看此图gydF4y2Ba

图4gydF4y2Ba显示了C1在更细粒度水平上的并行预测性能;每个标签的50%被采样用于视觉。每条线代表一个帖子。定gydF4y2BaxgydF4y2Ba-轴列出了模型,以及与的交点gydF4y2BaygydF4y2Ba模型的-轴为模型的预测分数。较暗的线被mturk标记为表明自杀风险(y轴上为0),而较亮的线则不表明自杀风险(y轴上为1)。gydF4y2Ba

‎gydF4y2Ba
图4。用一条线表示单个帖子的模型预测。接近1的预测表示没有预测自杀语言,接近0的预测表示有预测自杀语言。每个帖子都按其MTURK标签进行颜色编码。注意:基于注意的双向递归神经网络;CNN:卷积神经网络;FAST_TEXT: FastText;LR:逻辑回归;RF:随机森林;RNN:递归神经网络;SVM:支持向量机。gydF4y2Ba
查看此图gydF4y2Ba

关于C2的观察:在自杀意念的背景下检测阿片类药物滥用gydF4y2Ba

我们对C2的假设是,在接受抑郁症和鸦片类药物组的数据训练后,这些模型将能够检测出与药物成瘾作斗争的个人使用的短语。尽管这些模型在分类r/抑郁与阿片类药物数据方面都取得了很好的结果,但它们未能从MTURK标签中提取出含有阿片类药物的帖子。一种可能的解释是,用户在不同的语境下表达自己的方式不同(看板)。另一种可能性是,r/suicidewatch中的语言语义放弃了阿片类药物的特征,比如在任何与阿片类药物有关的帖子中占据大部分篇幅的关于戒断或复发的细节。例如,在r/ suicdewatch上的一篇文章可能会在关于过量用药的句子中简短地提到几个关键词,如“氢”或“苯”,而文章的其余部分则关注个人斗争。另一方面,如果一个来自r/opiates的用户在r/opiates康复中发表想要自杀的帖子,他们会表达对药物的情绪,因为他们知道他们的读者会理解。有可能用户潜意识地认为r/suicidewatch的观众对阿片类药物成瘾知之甚少,因此忽略了阿片类药物成瘾对他们生活的影响。因此,阅读整个帖子的MTURK工作人员可能会观察到用户很容易获得阿片类药物并且对药物混合有经验;然而,模型可能无法获取这些含义,因为这些精确的表达式没有出现在它所训练的数据中。gydF4y2Ba

根据我们关于C2中语言使用的新假设,我们重新评估了C2的预测。我们没有使用mturk确定的标签,而是构建了一组启发式标签,如果帖子中包含C2关键字中的任何单词,则该帖子暗示阿片类药物成瘾gydF4y2Ba表2gydF4y2Ba这并不意味着阿片类药物成瘾。研究结果显示在gydF4y2Ba表6gydF4y2Ba。虽然整体表现并不理想,但所有分数都增加了,这支持了我们的假设,即特定单词的存在很重要,MTURK工人的定向注意力可能与模型不同。gydF4y2Ba

表6所示。通过关键字的存在来确定启发式标签的模型预测精度。gydF4y2Ba
模型gydF4y2Ba LRgydF4y2Ba一个gydF4y2Ba 射频gydF4y2BabgydF4y2Ba 支持向量机gydF4y2BacgydF4y2Ba 快gydF4y2BadgydF4y2Ba RNNgydF4y2BaegydF4y2Ba 注意gydF4y2BafgydF4y2Ba 美国有线电视新闻网gydF4y2BaggydF4y2Ba
所有的数据gydF4y2Ba 0.606gydF4y2Ba 0.588gydF4y2Ba 0.648gydF4y2Ba 0.666gydF4y2Ba 0.774gydF4y2Ba 0.69gydF4y2Ba 0.712gydF4y2Ba
阿片类药物成瘾gydF4y2Ba 0.264gydF4y2Ba 0.26gydF4y2Ba 0.347gydF4y2Ba 0.338gydF4y2Ba 0.56gydF4y2Ba 0.403gydF4y2Ba 0.463gydF4y2Ba
非阿片类成瘾gydF4y2Ba 0.9gydF4y2Ba 0.87gydF4y2Ba 0.907gydF4y2Ba 0.948gydF4y2Ba 0.926gydF4y2Ba 0.937gydF4y2Ba 0.926gydF4y2Ba

一个gydF4y2BaLR:逻辑回归。gydF4y2Ba

bgydF4y2Ba随机森林。gydF4y2Ba

cgydF4y2BaSVM:支持向量机。gydF4y2Ba

dgydF4y2Ba快速:FastText。gydF4y2Ba

egydF4y2BaRNN:循环神经网络。gydF4y2Ba

fgydF4y2Ba注意:基于注意的双向递归神经网络。gydF4y2Ba

ggydF4y2BaCNN:卷积神经网络。gydF4y2Ba

阿片剂数据中预测自杀帖子的内容概述gydF4y2Ba

我们从预测为的帖子中构建了一个双字word2vecgydF4y2Ba自杀gydF4y2Ba在整个鸦片数据集中(鸦片数据:n=23,740,见gydF4y2Ba表3gydF4y2Ba),全面评估这些职位的质素。然后,我们查询了每个模型中与“suicide”最相似的前15个单词,因为它更有可能出现在第一人称代词中,而不是词根“suicid”的其他衍生词。gydF4y2Ba表7gydF4y2Ba从最相似的词到最不相似的词来总结结果。gydF4y2Ba

表7所示。从阿片类药物数据子集中预测属于自杀类别的与自杀最相似的关键词。gydF4y2Ba
模型gydF4y2Ba 最热门词汇gydF4y2Ba
LRgydF4y2Ba一个gydF4y2Ba 时辰,死,缺,睡,醒,清醒,自我,他们是,原因,至少,然而,地狱,后来,组,gydF4y2Ba
状态gydF4y2Ba
射频gydF4y2BabgydF4y2Ba 轻松,生活,然而,打击,等待,可能,寒冷,同样,这样,由,明天,身体,不断地,说,工作gydF4y2Ba
支持向量机gydF4y2BacgydF4y2Ba 制造,每个人,曾经,药丸,没有,很快,哈哈,没有,周围,对不起,事情,戒断,开始,精神,容忍gydF4y2Ba
快gydF4y2BadgydF4y2Ba 有自杀念头,抑郁,极端,情绪化,严重焦虑,存在,抑郁,易怒,失眠,严重,恶心,情绪波动,偏执,疲劳,有麻烦gydF4y2Ba
RNNgydF4y2BaegydF4y2Ba 严重的,抑郁的,被诊断为,孤立的,难以忍受的,躁郁症的,自杀的想法,焦虑的,创伤后应激障碍的,酗酒的,强迫症的,不知所措的,易怒的,嗜睡的,极端的gydF4y2Ba
注意gydF4y2BafgydF4y2Ba 诊断为,抑郁,自杀念头,社交焦虑,躁郁症,极端,残废,易怒,颤抖,情绪化,边缘,严重抑郁症,脑雾,存在,gadgydF4y2Ba
美国有线电视新闻网gydF4y2BaggydF4y2Ba 偏执,不快乐,抑郁,孤立,冷漠,易怒,酗酒,自杀念头,创伤,严重,诊断为,脑雾,焦虑,躁狂,没有感情gydF4y2Ba

一个gydF4y2BaLR:逻辑回归。gydF4y2Ba

bgydF4y2Ba随机森林。gydF4y2Ba

cgydF4y2BaSVM:支持向量机。gydF4y2Ba

dgydF4y2Ba快速:FastText。gydF4y2Ba

egydF4y2BaRNN:循环神经网络。gydF4y2Ba

fgydF4y2Ba注意:基于注意的双向递归神经网络。gydF4y2Ba

ggydF4y2BaCNN:卷积神经网络。gydF4y2Ba


概述gydF4y2Ba

本研究的目的是利用Reddit的结构和数据建立模型,最终预测(C1)阿片类药物使用者的自杀语言和(C2)有自杀想法的个体的阿片类药物使用。我们评估了几种结合了语义输入和知名NN文本分类器的模型的分类和预测样本外数据的能力,以提取包含自杀意念和阿片类药物滥用的帖子。然后使用MTURK为样本外数据提供启发式的基础真理。gydF4y2Ba

限制gydF4y2Ba

由于数据量大,我们假设一个subreddit下的所有帖子都反映了官方subreddit的目的(例如,在r/opiatesrecovery中恢复阿片类药物用户的帖子),并且由于大多数内容的绝对数量,偏差被抵消了。对阿片类药物子reddit中预测的自杀行为的人工审查(C1)发现,许多病例被错误地预测为自杀,因为使用者经历了极端的戒断,因复发而愤怒,甚至因无法使用阿片类药物作为应对机制而因清醒而愤怒。将r/offmychest纳入控制子reddit是为了抵消这种可能并不意味着自杀的强烈负面情绪。自杀性帖子也可能被预测为非自杀性帖子,因为它使用了平静的辞职信语言,或者因为用户是在自我反思或分享过去的经历。gydF4y2Ba

对r/suicidewatch (C2)中预测的阿片类药物使用情况的人工审查发现,糟糕的预测可能是由于阿片类药物reddit中存在的情绪混合造成的。由于阿片类药物组包括活跃使用者和恢复/戒断使用者(即,r/阿片类药物与r/阿片类药物恢复),语言变化可能是极端的,并且因愤怒而异(即,gydF4y2Ba我的发牌人****迟到了gydF4y2Ba)到否定(即,gydF4y2Ba除了海洛因,我找不到快乐gydF4y2Ba)高兴(如:gydF4y2Ba我已经戒了70天了!gydF4y2Ba)。所有这些职位都被赋予了相同的标签gydF4y2Ba鸦片gydF4y2Ba因为他们被归类为阿片类语言。因此,预测阿片类药物使用需要药物特异性词汇的存在。gydF4y2Ba

MTURK局限性gydF4y2Ba

我们试图通过提供简短的上下文和说明来克服MTURK的局限性。无论如何,限制包括缺乏领域知识,自杀意念或药物滥用的经验,以及解释的主观性。也有可能在注释上粗心大意,因为一些帖子相对较长,并不是所有的帖子都被仔细阅读过。此外,我们提供了一篇脱离用户生活背景的帖子;很难判断这篇帖子在现实中有多令人震惊,因为我们无法知道后来用户发生了什么。也没有办法控制有多少用户和哪些用户参与了评估—许多不同的工作人员的参与可能会在注释一致性中引入随机变化。对几个不同意的帖子的人工审查表明,缺乏领域专业知识会使注释变得困难;例如,一篇不同意的帖子提到了gydF4y2Ba厌倦了醒来gydF4y2Ba,在gydF4y2Ba撤军gydF4y2Ba就是这样gydF4y2Ba更容易结束这一切gydF4y2Ba,但也提到gydF4y2Ba想要清醒gydF4y2Ba。一位MTURK员工可能认为这个职位充满希望,而另一位员工可能认为这个职位处于放弃的边缘。尽管存在这些限制,但这些注释提供了关于涉及鸦片成瘾时被认为是自杀的公众看法的见解。gydF4y2Ba

的见解gydF4y2Ba

对阿片类药物和其他药物成瘾者进行的研究表明,阿片类药物成瘾往往伴有其他心理障碍,如人格障碍或创伤[gydF4y2Ba64gydF4y2Ba,gydF4y2Ba65gydF4y2Ba]。我们在最相关的单词的简单概述中观察到了这一点gydF4y2Ba自杀。gydF4y2Ba在神经网络中,提取了几个人格障碍术语和精神疾病,如gydF4y2Ba创伤后应激障碍gydF4y2Ba(创伤后应激障碍),gydF4y2Ba边缘,双gydF4y2Ba,gydF4y2Ba迦得gydF4y2Ba(一般性焦虑障碍)。还捕获了戒断的特征:gydF4y2Ba易怒,失眠,恶心gydF4y2Ba。我们可以推测,人格障碍患者进入戒断期的企图自杀的风险高于其他人群。gydF4y2Ba

未来的发展方向gydF4y2Ba

利用Reddit元数据有很多可能的方向。对于像r/opiates这样带有复杂情绪的子reddit,首先可以根据上下文应用粗粒度分类来丢弃过于积极或消极的帖子。考虑到Reddit的互动性,对评论的分析可能会显示出挣扎的同龄人提供了什么样的支持。Reddit的同伴方面很有吸引力,而非评判性同伴支持的整合可能有助于恢复OUD用户,使他们更愿意依赖现实生活中的帮助。这是朝着减少OUD带来的频繁的社会孤立迈出的一步。gydF4y2Ba

总的来说,考虑到活跃子Reddit的数量,对Reddit数据限制的探索提供了许多可能的研究领域。在r/阿片类药物的所有帖子中,我们发现了少数几个成功戒断阿片类药物使用多年的用户,并返回以传递完全康复的希望。这些人可以被看作是gydF4y2Ba成功的故事。gydF4y2Ba研究这些个体和那些以悲剧告终的个体之间的差异是特别有趣的,因为OUD恢复困难且容易复发。gydF4y2Ba66gydF4y2Ba]。人们还可以考虑自杀意念、OUD和慢性疼痛之间的相互作用,特别是因为许多OUD病例始于个人或亲密的人的处方药[gydF4y2Ba10gydF4y2Ba]。另一个焦点是影响OUD个体行为的可能性;一项针对基于用户搜索的医疗保健行为定向广告的研究表明,由输入搜索条件决定的行为可以预测个人是否会受到目标广告的影响而采取行动,例如去看医生[gydF4y2Ba67gydF4y2Ba]。因此,网络行为与现实生活行为的联系可能比预期的更紧密,有针对性的广告可能会鼓励处于戒断期和与复发作斗争的OUD患者寻求帮助。gydF4y2Ba

神经网络在纯自杀标签的帖子中实现高精度的趋势,但在数据集混合时表现不佳,这引发了一个问题,即哪些语义维度实际上被捕获了。虽然我们在这个实验中使用神经网络作为黑盒,但未来的研究可能需要直接关注潜在的语义维度,这可能有助于参数调优和泛化。特别是,通过检查nn从零开始训练的词嵌入来帮助预测样本外数据,提取出可能在文本数据领域中泛化的确切特征将是非常有趣的[gydF4y2Ba68gydF4y2Ba]。gydF4y2Ba

我们专注于提取OUD背景下具有自杀意念的帖子,并没有对提取的帖子进行太多分析。许多研究调查了自杀个体的内容,但在特定背景下进行的研究要少得多,可能是由于缺乏可用数据。尽管本研究存在局限性,但收集的预测能够揭示自杀阿片类药物使用者的想法。在帮助那些从OUD中恢复过来的人,考虑从个人层面开始可能很重要。gydF4y2Ba69gydF4y2Ba]。专业人员和患者之间的沟通很重要,个人故事能够通过解构污名障碍来减少污名[gydF4y2Ba70gydF4y2Ba]。由于这些帖子可能是原始和诚实的,它们可以让临床专业人员更加熟悉这些人的心态。减少对患者的污名化看法可以使患者获得授权,这从长远来看是必要的[gydF4y2Ba66gydF4y2Ba,gydF4y2Ba71gydF4y2Ba]。考虑一篇被公认为显示自杀风险的帖子,总结如下:gydF4y2Ba

一旦有什么东西丢了,或者出了什么问题,你是所有人第一个怀疑有错的人……那一定是那个该死的瘾君子,对吧?我也许是个瘾君子,但我从来没当过贼。gydF4y2Ba

倡导理解和帮助那些与阿片类药物成瘾作斗争的人很容易;然而,很难认识到他们自己的行为如何影响那些阿片类药物成瘾者。我们认为,作为第一步,具体的案例是必不可少的,自杀风险评估应该在个人层面上进行。我们的研究旨在通过帮助那些有OUD的人获得理解来帮助预防自杀——我们的目标不是用预测模型代替风险评估[gydF4y2Ba72gydF4y2Ba]。应用从提取的帖子中收集到的见解可以帮助减少耻辱,澄清对药物滥用和自杀意念的错误假设。gydF4y2Ba

结论gydF4y2Ba

本文的目标是利用Reddit的大数据来检测阿片类药物使用者的自杀行为。Reddit的结构为数据集提供了分类,而社交媒体的设置可以提供其他地方无法获得的案例细节。这项研究可以作为使用社交媒体网站属性来辅助机器学习方法的概念证明,以及关于神经网络抽象文本数据并在独立领域执行的可行性的研究方向。与高性能基线模型的比较表明,在运行样本外数据时,缺少硬编码特征可能使模型具有更大的灵活性和准确性。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了国家科学基金会ACI 1443054和国家科学基金会iis1350885的部分支持。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

使用不同模型输入组合的分类度量。gydF4y2Ba

XLSX文件(Microsoft Excel文件),131kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录2gydF4y2Ba

C1的工作流程说明。gydF4y2Ba

PNG文件,95kbgydF4y2Ba

  1. 什么是美国阿片类药物流行?美国卫生与公众服务部(HHS)。URL:gydF4y2Bahttps://www.hhs.gov/opioids/about-the-epidemic/index.htmlgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  2. Oquendo MA, Volkow ND。自杀:阿片类药物过量死亡的无声贡献者。中华检验医学杂志,2018,26(4):367 - 369。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 刘建军,刘建军,刘建军,等。1999-2017年美国自杀死亡率研究。NCHS数据简报,2018。URL:gydF4y2Bahttps://www.cdc.gov/nchs/data/databriefs/db330-h.pdfgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  4. 自杀统计数据。美国自杀预防基金会(AFSP)2018.URL:gydF4y2Bahttps://afsp.org/suicide-statistics/gydF4y2Ba[2020-11-10]访问gydF4y2Ba
  5. 许多阿片类药物过量可能是自杀。中央社报道。2018年4月25日。URL:gydF4y2Bahttps://www.webmd.com/mental-health/addiction/news/20180425/many-opioid-overdoses-may-be-suicidesgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  6. Madadi P, Persaud N.慢性疼痛患者阿片类药物过量自杀。当前疼痛头痛杂志2014年11月18日(11):460。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 精神疾病诊断与统计手册。第5版。阿灵顿,弗吉尼亚州:美国精神病学协会;2013.gydF4y2Ba
  8. 阿片类药物成瘾的有效治疗国家药物滥用研究所。2016.URL:gydF4y2Bahttps://www.drugabuse.gov/publications/effective-treatments-opioid-addiction/effective-treatments-opioid-addictiongydF4y2Ba[2020-11-10]访问gydF4y2Ba
  9. van Orden KA, Witte TK, Cukrowicz KC, Braithwaite SR, Selby EA, Joiner TE。人际自杀理论。心理学报,2010;17(2):575-600 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 刘建军,李建军,李建军,李建军。美国成年人处方阿片类药物使用、误用和使用障碍:2015年全国药物使用和健康调查中华医学杂志2017年9月5日;16(5):293-301。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Madadi P, Hildebrandt D, Lauwers AE, Koren G.阿片类药物使用者死亡与阿片类药物毒性相关的特征:加拿大安大略省的一项基于人群的研究。科学通报,2013;8(4):662 - 662 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. Braden JB, Sullivan MD, Ray GT, Saunders K, Merrill J, Silverberg MJ等。长期阿片类药物治疗抑郁症患者非癌性疼痛的趋势普通医院精神病学2009;31(6):564-570 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 胡利JM,富兰克林JC, Nock MK.慢性疼痛与自杀:理解关联。中华疼痛与头痛杂志2014;18(8):435。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. Hendy HM, Black P, Can SH, Fleischut A, Aksen D.阿片类药物滥用对生活压力的不适应应对。中国医药杂志,2018;48(4):560-571。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  15. 慢性压力,药物使用,易上瘾。中国科学d辑(英文版);2009;31 (1):45 - 45 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 王海涛,王海涛,王海涛,王志强。药物使用的污名化:排斥的正当性机制。瑞士:施普林格;2018:15-25。gydF4y2Ba
  17. 刘建军,刘建军,刘建军,等。网络支持团体对心理健康的影响。精神病学杂志,2012;63(4):370-376。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. 麦基TK, Kalyanam J, Katsuki T, Lanckriet G.基于twitter的处方阿片类药物非法在线销售检测。中华卫生杂志,2017;107(12):1910-1915。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 刘建军,刘建军,刘建军。使用无监督机器学习探索twitter领域中处方药的非医疗使用和多种药物滥用的趋势。中国医学学报(英文版);2017;25(5):369 - 369。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 煤矿中的金丝雀推文:社交媒体揭示了公众对阿片类药物非医疗使用的看法。科学通报,2015;10(8):e0135072 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. O'Dea B, Wan S, Batterham PJ, Calear AL, Paris C, Christensen h。互联网访谈2015年5月;2(2):183-188。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. O'Dea B, Larsen ME, Batterham PJ, Calear AL, Christensen H.自杀相关推文的语言分析。危机2017 Sep;38(5):319-329。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. Reddit上的数字。URL:gydF4y2Bahttps://www.redditinc.com/pressgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  24. 约翰逊GJ,安布罗斯PJ。Neo-tribes。中国计算机学报,2006(1);49(1):107-113。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  25. Reddit上的心理健康论述:自我表露、社会支持和匿名。第8届网络日志和社交媒体国际会议,2014,WSM'14;2014年8月5日至8日;加州帕洛阿尔托gydF4y2Bahttps://www.semanticscholar.org/paper/Mental-Health-Discourse-on-reddit%3A-Self-Disclosure%2C-Choudhury-De/e58943b8d656fbb07a14f36b28ae211da74992a9gydF4y2Ba
  26. DeAndrea DC, Anthony JC。美国心理健康问题的在线同伴支持:2004-2010。精神医学,2013;43(11):2277-2288 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. D'Agostino AR, Optican AR, solles SJ, Krauss MJ, Escobar Lee K, Cavazos-Rehg PA。从阿片类药物使用障碍中恢复在线社交网络:一项社区互动研究。药物酒精依赖2017年12月1日;181:5-10 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. Ribeiro JD, Joiner TE。自杀行为的人际心理理论:现状与未来方向。中华临床精神病学杂志,2009;16(1):1 - 4。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. Park A, Conway M.利用reddit了解精神健康障碍患者所经历的书面交流挑战:对精神健康社区文本的分析。医学互联网研究,2018年4月10日;20(4):e121 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 季生,于春平,冯生,潘生,龙刚。基于监督学习的在线用户内容自杀意念检测。复杂性2018年9月9日;2018:1-10。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  31. 李建平,李建平。网络社区心理健康支持与语言适应的关系。In: CHI Conference on Human Factors In Computing Systems. 2018,发表于:CHI'18;2018年4月14日至16日;加拿大蒙特利尔QC。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  32. Kumar M, Dredze M, Coppersmith G, De CM。发现名人自杀后社交媒体上自杀内容的变化。在:超文本和社交媒体的ACM会议。2015提交于:ACM'15;2015年9月20-22日;北塞浦路斯GuzelyurtgydF4y2Bahttp://europepmc.org/abstract/MED/28713876gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. Grant RN, Kucher D, León AM, Gemmell JF, Raicu DS, Fodeh SJ。在线自杀意念中非正式话题的自动提取。BMC Bioinformatics 2018 Jun 13;19(增刊8):211 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. Pandrekar S, Chen X, Gopalkrishna G, Srivastava A, Saltz M, Saltz JH,等。基于社交媒体的阿片类药物流行分析使用reddit。中国生物医学工程学报,2018;18 (2):867-876 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  35. Stirman SW, Pennebaker JW。自杀和非自杀诗人诗歌中的用词。中华医学杂志;2009;31(4):517-522。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  36. Handelman LD, Lester D.自杀未遂者和完成者的遗书内容。2007年危机;28(2):102 - 104。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. 利特维诺娃TA,谢列丁PV,利特维诺娃OA,罗曼琴科OV。基于网络文本定量分析的个体自杀倾向识别。中国农业学报2017年6月30日;21(2):243-252。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  38. 张欣,乐存云。从零开始的文本理解。arXiv预印本于2016年4月4日在线发布[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  39. Collobert R, Weston J, Bottou L, Karlen M, Kavukcuoglu K, Kuksa P.自然语言处理(几乎)从头开始。[J] .中国机械工程学报,2011;12 (2):993 - 997 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  40. 李建平,陈磊,陈建平,陈建平,陈建平。“什么时候‘坏’是‘好’:识别与毒品有关的推文中的个人交流和情绪。JMIR公共卫生监测2016 Oct 24;2(2):e162 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  41. 胡赛尼OA, budhitha P,胡赛尼OM, Inkpen D.基于深度学习的Twitter用户抑郁检测。第五届计算语言学与临床心理学研讨会:从键盘到临床。2018年发表于:CLCP'18;2018年6月5日至7日;新奥尔良,洛杉矶,第88-97页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  42. 金旸。基于卷积神经网络的句子分类。In: 2014 Conference on Empirical Methods In Natural Language Processing. 2014, presentation at: NLP'14;2014年10月23-26日;多哈,卡塔尔。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  43. 胡赛尼OA, budhitha P,胡赛尼OM, Inkpen D.基于深度学习的Twitter用户抑郁检测。第五届计算语言学与临床心理学研讨会:从键盘到临床。2018年发表于:CLCP'18;2018年6月2-7日;新奥尔良,洛杉矶,第88-97页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  44. 张涛。基于卷积神经网络的文本分类方法研究。In:计算语言学协会北美分会2015年会议:人类语言技术。2015发表于:HLT'15;2015年8月5日至8日;科罗拉多州丹佛,第103-112页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  45. Singh D, Wang A.通过推特检测抑郁症。斯坦福大学,2016。URL:gydF4y2Bahttps://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/reports/6879557.pdfgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  46. 自杀观察:为有自杀念头的人提供同伴支持。Reddit。URL:gydF4y2Bahttps://www.reddit.com/r/SuicideWatch/gydF4y2Ba[2020-11-10]访问gydF4y2Ba
  47. Pushshift Reddit API。GitHub。2017.URL:gydF4y2Bahttps://github.com/pushshift/apigydF4y2Ba[2020-11-10]访问gydF4y2Ba
  48. Mellor T, Boe B. PRAW: Python Reddit API包装器。GitHub。URL:gydF4y2Bahttps://github.com/praw-devgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  49. aladadakae, Muderrisoglu S, Akbas NB, Zahmacioglu O, Bingol HO。侦测论坛上的自杀意念:概念验证研究。[J]医学互联网研究,2018;21;20(6):e215 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. 沈杰,rudzicf .通过Reddit检测焦虑。第四届计算语言学与临床心理学研讨会——从语言信号到临床现实。2017,发表于:CLCP'17;2017年8月3日至8日;温哥华BC。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  51. 沈杰,rudzicf .通过Reddit检测焦虑。第四届计算语言学与临床心理学研讨会——从语言信号到临床现实。2017,发表于:CLCP'17;2017年8月5日至8日;温哥华BC。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  52. 代词的秘密生活。我们的言语反映了我们自己。文学语言学计算2013年2月6日;29(1):139-142。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  53. Pedregosa F, Varoquaux G, Gramfort A. Scikit-learn: python中的机器学习。[J] .中文信息学报,2011;12:2825-2830。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  54. Rehurek R, Sojka P.基于大语料库的主题建模软件框架。参见:LREC关于NLP框架新挑战的研讨会。2010,发表于:NLP'10;2010年4月2日至9日;瓦莱塔,马耳他。gydF4y2Ba
  55. 彭宁顿J, Socher R, Manning C. Glove:基于全局向量的词表示。参见:The Conference on Empirical Methods In Natural Language Processing. 2014,发表于:EMNLP'14;2014年10月25-29日;多哈,卡塔尔。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  56. 李建军,李建军,李建军,等。一种有效的文本分类方法。第15届计算语言学欧洲分会会议。2017发表于:ACL'17;2017年4月3日至7日;瓦伦西亚,西班牙。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  57. 刘鹏,邱霞,黄霞。基于多任务学习的递归神经网络文本分类。在:第二十五届国际人工智能联合会议。2016呈现于:CAI'16;2016年4月7日至9日;纽约,美国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  58. 具有注意力的前馈网络可以解决一些长期记忆问题。arXiv Preprint于2015年12月29日在线发布。[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  59. 李建军。基于卷积神经网络的句子分类。GitHub。2016.URL:gydF4y2Bahttps://github.com/alexander-rakhlin/CNN-for-Sentence-Classification-in-KerasgydF4y2Ba[2020-11-10]访问gydF4y2Ba
  60. 张勇,张斌。卷积神经网络在句子分类中的敏感性分析(及从业者指南)。在:第八届国际自然语言处理联合会议。2017提交于:NLP'17;2017年11月4日至9日;台北,台湾gydF4y2Bahttps://arxiv.org/abs/1510.03820gydF4y2Ba
  61. 亚马逊土耳其机器人。URL:gydF4y2Bahttps://www.mturk.com/gydF4y2Ba[2020-11-10]访问gydF4y2Ba
  62. 佟丽娟,程强,李建军。社交媒体上自杀相关信息标签策略的实验研究。arXiv预印本于2017年1月30日在线发布[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  63. Shneidman ES。自杀是一种精神病。中华神经病学杂志1993;18(3):145-147。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  64. 陈德钟,范登布林克,哈特维尔德FM, van der Wielen EG。酗酒者和吸毒者的人格障碍。精神病学杂志1993;34(2):87-94。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  65. 李建军,李建军,李建军,刘建军。城市平民人群的物质使用、童年创伤经历和创伤后应激障碍。抑郁焦虑2010;Dec;27(12):1077-1086 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  66. 利文斯顿JD,米尔恩T,方ML, Amari E.减少物质使用障碍相关耻辱感的干预效果:系统综述。成瘾[j]; 2012;107(1):39-50 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  67. Agarwal V,张磊,朱军,方森,程涛,洪超,等。通过网络搜索行为预测医疗保健利用的影响:数据驱动分析。医学互联网研究,2016年9月21日;18(9):e251 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  68. 李建军,李建军,李建军。基于特征向量分析的词嵌入分析。In: NIPS 2018音频、语音和语言的可解释性和鲁棒性研讨会。2018年3月6日至10日;加拿大蒙特利尔gydF4y2Bahttps://openreview.net/pdf?id=rJfJiR5ooXgydF4y2Ba
  69. 凌伟。处方阿片类药物成瘾与慢性疼痛:不止一种感觉。药物酒精依赖2017年4月1日;173(补充1):S73-S74 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  70. McGinty E, Pescosolido B, Kennedy-Hendricks A, Barry CL。消除污名和改善精神疾病和物质使用障碍政策的沟通策略。精神病学服务2018年2月1日;69(2):136-146 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  71. 凯利JF,韦斯特霍夫CM。我们如何称呼患有药物相关疾病的人很重要吗?对两个常用术语的随机研究。国际麻醉品杂志;2010;21(3):202-207。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  72. 预测在自杀预防中的作用。临床神经科学对话2018;Sep;20(3):197-205 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
API:gydF4y2Ba应用程序编程接口gydF4y2Ba
注意:gydF4y2Ba基于注意的双向递归神经网络gydF4y2Ba
有线电视新闻网:gydF4y2Ba卷积神经网络gydF4y2Ba
快速:gydF4y2BaFastTextgydF4y2Ba
手套:gydF4y2Ba单词表示的全局向量gydF4y2Ba
LR:gydF4y2Ba逻辑回归gydF4y2Ba
MTURK:gydF4y2Ba亚马逊土耳其机器人gydF4y2Ba
神经网络:gydF4y2Ba神经网络gydF4y2Ba
乌得琴:gydF4y2Ba阿片类药物使用障碍gydF4y2Ba
PRAW:gydF4y2BaPython Reddit API包装器gydF4y2Ba
射频:gydF4y2Ba随机森林gydF4y2Ba
RNN:gydF4y2Ba循环神经网络gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba
TF-IDF:gydF4y2Ba术语频率-逆文档频率gydF4y2Ba


G·艾森巴赫编辑;提交28.06.19;杜杰、张丽、林国光同行评议;对作者的评论18.12.19;收到修改版本14.06.20;接受15.09.20;发表27.11.20gydF4y2Ba

版权gydF4y2Ba

©姚汉娜,新浪视点,董新宇,端木弘毅,Richard N Rosenthal,王福生。原载于医学互联网研究杂志(//www.mybigtv.com), 2020年11月27日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map