原始论文
摘要
背景:新南威尔士州的新南威尔士州警察局每年都会处理大量的家庭暴力(DV)事件,并将其以结构化定量数据和非结构化自由文本的形式记录在WebCOPS(计算机化操作警务系统的基于web的界面)数据库中,包括事件、受害者和相关人员(POI)的细节。虽然结构化数据用于报告目的,但自由文本仍未用于DV报告和监视目的。
摘要目的:在本文中,我们探讨了文本挖掘是否可以从这种非结构化文本中自动识别心理健康障碍。
方法:我们使用了200个DV记录事件的训练集,以文本中的词汇模式为基础,设计了一种知识驱动的方法,为poi和受害者提示精神健康障碍。
结果:从100个DV事件的评估集中,与poi和受害者相关的精神健康障碍的精度分别为97.5%和87.1%。在将我们的方法应用于近50万家庭暴力事件的大规模语料后,我们确定了77,995起事件(15.83%)提到了精神健康障碍,其中76.96%(600,032 /77,995)与poi有关,而受害者为16.47%(12,852/77,995),两者均为6.55%(5111/77,995)。抑郁症是受害者(22.25%,3269人)和POIs(18.70%, 8944人)中最常见的心理健康障碍,其次是POIs(12.19%, 5829人)和受害者(11.66%,1714人)中最常见的各种焦虑障碍(如恐慌障碍、广泛性焦虑障碍)。
结论:结果表明,文本挖掘可以自动从警方记录的家庭暴力事件中提取有针对性的信息,以支持进一步的公共卫生研究,研究精神健康障碍和家庭暴力之间的联系。
doi: 10.2196/11548
关键字
简介
家庭暴力可定义为"成年人之间的任何威胁行为、暴力或(心理、身体、性、经济、情感)虐待事件,而不论其性别或性取向" [
].家庭暴力也可能发生在其他关系中,例如照顾者与受抚养人之间,或在非亲密关系中共同生活在一个家庭中的人之间[ ].它被公认为最常见的人际暴力形式之一,是一个国际社会和公共卫生问题,每年对数以千计的人,主要是妇女的生活造成严重的卫生保健后果[ - ].根据世界卫生组织(世卫组织)关于暴力的多国研究,全球针对妇女的身体暴力和性伴侣暴力的发生率在15%至71%之间[ , ].2014年,澳大利亚有近5万人被警方记录为家暴受害者。 ].据估计,2015-2016年,澳大利亚针对妇女的暴力成本约为222亿澳元,英国和美国分别为170亿英镑和41亿美元[ , , ].家庭暴力与精神健康障碍的发生、持续时间和复发有复杂的关系,包括药物滥用、饮食失调、创伤后压力和自杀倾向,以及精神病症状的恶化[
- , ].以前的报告表明,与没有精神疾病的人群相比,有精神健康障碍的人群中家庭暴力的风险更高[ , ].在过去的20年里,人们已经达成共识,认为严重精神疾病和暴力之间存在适度(但在统计上具有显著性)的关系,严重精神疾病会增加个体对他人使用暴力的风险[ ].2017年,新南威尔士州警察部队(NSWPF)在WebCOPS中记录了123,330起与视频视频相关的事件,WebCOPS是计算机化操作警务系统(COPS)的基于web的界面,使警察能够在整个组织范围内捕获和分析犯罪信息,约37%的犯罪行为被记录(新南威尔士州警察部队,个人通信,2018年6月)。WebCOPS中包含的关于家庭暴力事件的信息有结构化的形式(例如,记录出生日期、土著身份、是否使用武器等信息的字段)和自由的非结构化文本(“事件叙述”)。每个事件都包含一个或多个文本叙述,详细描述了相关人员(POI)和受害者之间发生的所谓事件、事件的情况以及警方采取的任何行动。这些故事往往没有一个特定的结构,充斥着频繁的拼写错误和印刷错误,经常使用(有时是非正式的)首字母缩写,根据上下文可以承载模棱两可的含义。
然而,大量的家庭暴力事件和相关的文本叙述阻止了使用传统的民族志/定性方法提取潜在有用的信息。最近的一篇研究论文评论道:“……除了人工审查,没有系统的方法从这些(警察)叙述中提取信息”[
].不过,大规模处理自由文本的自动化方法称为文本挖掘已使用超过30年,从许多领域的非结构化文本中获取信息,特别是在生物医学[
- ].最近的尝试旨在利用文本挖掘从在线媒体出版物中识别与犯罪有关的信息[ , ].然而,当局在处理警方报告方面却鲜有努力[ - ].有限的工作包括通过命名实体提取器识别罪犯的姓名、麻醉药品和武器,并取得不同程度的成功(f评分[一种方法的准确性衡量标准]从46%到81%不等)[ , ]以及应用无监督聚类技术将警方报告分类为家庭暴力或与家庭暴力无关,该技术正确地分类了44%的人工检查报告[ ].此外,还曾多次尝试从各种自由文本资源中提取与精神健康有关的信息[
- ].例如,通过应用机器学习和带有规则的字典的混合方法,或仅基于规则的方法,从精神病学叙述中提取药物副作用,该方法返回f分数在75%至85%之间[ , , ].重性抑郁障碍的治疗结果是使用带有逻辑回归的监督方法从电子病历中确定的,精确度为78%至86% [ ].通过基于规则的方法,分别从f评分85%和91%的临床医生的临床记录和健康记录对应中识别出迷你精神状态检查结果[ ].杰克逊等人[ ]和Karystianis等人[ ]均使用正则表达式模式匹配或基于规则的方法从临床出院总结和精神病学记录中识别精神疾病症状,f评分分别为88%和81% [ , ].在本文中,我们研究了DV警察事件叙事的自动文本挖掘是否可行,通过采用知识驱动的方法,在DV事件涉及的人的叙事层面上识别精神健康障碍的提及。这一方法基于词汇化规则,并结合人工构造的词典,这些词典描述了国家儿童和儿童基金会记录的涉及家庭纠纷的poi和受害者的精神健康障碍特征。我们进一步对492,393起家庭暴力事件进行了大规模分析,并报告了结果。据我们所知,还没有任何文本挖掘应用于使用现实世界事件的家庭暴力领域,这是第一次尝试在警方记录的家庭暴力事件的大规模分析中捕获重要的心理健康信息。
方法
概述
根据完整的精神疾病清单(
)《国际疾病分类》第十版(icd -)治疗精神及行为障碍[ ].我们还注意到叙述中提到了未指明的精神障碍(例如,“被告有精神健康问题”,“受害者患有严重的精神障碍”),提到了精神药物的名称或药物类别(例如,“受害者服用安定”,“被告服用多种抗抑郁药”),并提到了创伤性脑损伤、药物处方滥用、物质滥用和药物引起的障碍。数据
我们从WebCOPS中获得了从2005年1月到2016年12月的492,393起家庭暴力事件的记录,这些事件被标记为“与家庭暴力相关”,或者在WebCOPS中对暴力的描述被编码为“家庭暴力”,或者受害者和POI之间的关系包括以下任何一种:配偶/伴侣(包括前配偶/前伴侣)、男朋友/女朋友(包括前男友/前女友)、父母/监护人(包括继/寄养)、孩子(包括继/寄养)、兄弟姐妹、其他家庭成员(包括亲属)或照顾者。这些事件包括以下类别:各种类型的袭击、违反暴力逮捕令、杀人、恶意损坏财产和对他人的侵犯,如恐吓、绑架、绑架和骚扰。记录中还记录了没有犯罪的事件,但警察仍然参加了DV活动。所有事件叙述都包含个人信息(如名字、姓氏、地址),因此不面向公众。在获得新南威尔士大学人类研究伦理委员会(参考文献:HC16558)的伦理批准后,NSWPF允许访问这些叙述,仅限本研究的一些作者(GK, AA, TB)访问。严格的安全协议确保了叙述的文本挖掘只能在国家儿童基金会总部现场进行,并且只能将经过鉴定的提取产出带离现场。一个假设性的不确定叙述的例子显示在
.我们随机选择了100个包含精神健康障碍提到的事件作为我们的训练集,并随机选择了另外100个事件作为开发集,以优化文本挖掘系统的性能。
《国际疾病分类第十版》(ICD-10)中列出的精神健康障碍,包括在家庭暴力事件中提取的八个新类别以及警察事件叙述中出现的例子。
- 由已知生理状况引起的精神障碍:如血管性痴呆,不明原因的痴呆
- 滥用精神活性物质造成的精神和行为障碍:例如,与酒精有关的障碍、大麻成瘾、尼古丁依赖
- 精神分裂症、分裂型、妄想症和其他非情绪性精神障碍:如精神分裂症、妄想症、分裂情感性障碍
- 情绪(情感)障碍:例如,躁狂发作,躁郁症,抑郁症
- 焦虑、解离性、压力相关、躯体形式和其他非精神病性精神障碍:如恐惧症、解离性障碍、身体畸形障碍
- 与生理障碍和物理因素相关的行为综合征:如饮食障碍、贪食症、厌食症
- 成人人格和行为障碍:如偏执型人格障碍、边缘性人格障碍、盗窃癖
- 智力障碍:如智力障碍,重度智力障碍
- 广泛性和特异性发育障碍:例如,自闭症,数学障碍,语音障碍
- 通常发生在儿童和青少年时期的行为和情绪障碍:如注意缺陷多动障碍、反社会人格障碍、短暂抽动障碍
- 未指明的精神障碍:例如,精神健康问题,精神状况,精神健康问题
- 故意自残:如自残,故意割伤自己,自残问题
- 身体部位不明伤害:如自杀未遂,多次自杀未遂,企图自杀
- 症状、体征和异常的临床和实验室检查结果:如自杀意念、自杀念头、自杀倾向
- 其他神经系统退化疾病:如阿尔茨海默病、额颞叶痴呆
- 其他地方未分类的染色体异常:如唐氏综合症
- 药物处方滥用:例如,对处方药上瘾,滥用处方药
- 创伤性脑损伤:如脑损伤、严重脑损伤、脑外伤
- 药物滥用:例如,药物滥用问题,持续的药物滥用问题
- 抗精神病药物:如氯氮平,抗精神病药物,利培酮
- 精神健康药物抗精神病药物:例如,抗精神病药物,抗精神病药物
- 心理健康药物抗焦虑:如,阿普唑仑,抗焦虑药物
- 精神健康药物抗抑郁药:例如,艾司西酞普兰,阿那福尼,抗抑郁药物
- 不明药物性障碍:例如,药物性障碍,药物性精神健康问题
- 神经系统疾病,如神经系统紊乱
- 主要影响中枢神经系统的全身性萎缩,如亨廷顿病
基于知识的系统开发
我们的方法涉及基于规则的语言表达模式的设计和实现,并结合术语词典,以在叙述层面上识别poi和涉及家庭暴力事件的受害者中提到的精神健康障碍(见
概述)。我们的文本挖掘方法包括以下步骤(
):- 编写与精神健康障碍有关的专门词典;
- 制定和实施规则,以捕捉文本中提到的精神健康障碍;
- 标准化和映射提取的心理健康障碍提到纳入icd -;而且
- 消除每个叙事中的重复提及,以达到叙事层面的统一。
字典
通过一组定制的字典来识别几个特定于任务的语义组。这些词典是通过检查训练和发展集来手动定制的,这些训练和发展集用于描述相关精神健康障碍提到的术语以及与这些疾病相关的表达。为了识别精神健康障碍,我们使用了术语和同义词从icd -以及事件报告中常见的拼写错误(如“精神分裂症”,“阿斯伯格综合征”)或其他指示性描述性句子(如“滥用酒精”,“愤怒问题”)。第一作者GK共编写了13本词典。
).规则
在检查训练集之后,我们将规则建立在文本中的词汇模式之上,这些模式表明在家庭暴力事件中POI、受害者或两者都存在精神健康障碍。下面的例子是在DV事件中观察到的词汇模式(“被告患有精神分裂症”),以识别精神健康障碍(“精神分裂症”),单词“被告”(POI)通过包含表示POI的术语变体的字典进行匹配(参见
),其中“is suffering from”是一种半冻结的表达,用于识别所提及的精神健康障碍,而“精神分裂症”则通过包含各种精神健康障碍术语(官方和非官方)的字典进行匹配。词汇模式利用(1)固定的词汇表达作为某些元素的锚,这些元素由特定的动词、名词短语和介词构成(例如,“被告遭受痛苦”);(2)语义占位符(通过手工制作的字典的应用来识别(例如,所有表征个体为受害者的潜在同义词,如“受害者”,“vic”,“pn”)表明存在精神健康障碍。字典的名字 | 大小、n | 描述 | 例子 |
形容词 | 84 | 用于表示精神错乱的形容词 | 酗酒精神分裂躁郁症自闭 |
是 | 4 | 动词be的现在时和过去时的变位 | 是,是,是,是 |
药物成瘾 | 58 | 已知会导致上瘾的非法药物 | 大麻,海洛因,冰毒,冰 |
药物名称 | 228 | 治疗精神疾病的处方药 | 阿普唑仑,安定,斯特拉嗪,舒张 |
药物类型 | 26 | 用于治疗精神健康障碍的药物类别 | 抗焦虑,抗抑郁药,抗精神病药,情绪稳定剂 |
家庭 | 31 | 表示家庭关系的术语 | 表哥,爸爸,妈妈,爷爷 |
有 | 5 | 动词have的现在时和过去时的变位 | 曾经,曾经,曾经,曾经 |
历史 | 20. | 心理健康史的变化 | 短的历史,hx,严重的历史,广泛的h/o |
精神障碍 | 594 | 《国际疾病分类第十版》(ICD-10)中出现的精神健康障碍术语,包括创伤性脑损伤和痴呆症,以及在警察事件中观察到的非正式术语、缩写和同义词 | 情绪障碍,自杀倾向,人格分裂 |
否定 | 11 | 表示否定上下文的术语 | 没有,否认,没有 |
有关人士(POI) | 18 | 描述家庭暴力事件中POI的术语 | 被告,POI, POI被告 |
动词 | 75 | 以常见的词汇模式出现的动词,表明poi和受害者有精神健康障碍 | 承认,挣扎,痛苦,出现 |
受害者 | 19 | 描述家庭暴力事件受害者的术语 | 受害者,受害者,pn, pinop |
概念枚举也被实施,因为它经常出现在训练数据中(例如,“POI有抑郁、自残和自杀倾向的历史[POI提到的精神健康障碍]”)。事件报告中可能匹配多个词汇模式,并可能涉及受害者、POI或两者的一个或多个障碍提及(可以是重复的)。
对于规则的生成和实现,我们使用了文本工程通用体系结构(GATE) [
,一个文本挖掘框架,用于注释和分类文本,从而能够识别目标信息。选择GATE是因为它支持基于规则的文本挖掘方法。使用Java注释模式引擎(Java Annotations Pattern Engine, JAPE) (GATE的模式匹配语言)将文本中观察到的模式转换为规则。总共创建了264条规则,其中POI的规则137条,受害者的规则127条。 显示识别精神健康障碍的规则示例。规则使用宽松的令牌匹配(小写或大写),例如{token .string==~ " (?i)to "}匹配" to ";各种词典包含感兴趣的术语的变体、缩写和同义词,例如(受害者)、(POI)和(动词)包含受害者、POI的术语,以及以各种形式和时态描述患有精神健康障碍的受害者或POI的动词(参见
);({Token!Lookup.majorType== " negated "})[0,1]将匹配不属于字典" negated "(其中包含否定的指示符,如" not ")的任何标记;而“?”,表示它的非条件性质(即,它可以出现在文本中,也可以不出现在文本中)。《国际疾病分类》第十版摘录的精神健康障碍的地图
由于所提取的精神健康障碍的提及是高度可变的(同义词,拼写错误),任何进一步的分析都需要将它们映射到标准的精神健康概念,如icd -精神和行为障碍类别。这是通过一个启发式算法自动完成的,该算法依赖于代表各种术语的组icd -类别。如果一个给定的提及匹配一个特定的术语icd -类别,然后它被映射到那个类别。
映射在四个层次上完成(见
).第一级是最一般的(26类),代表精神健康障碍的总体类型icd -(见 ).最初的icd -使用八个自定义类别进行扩展,以映射没有直接映射明显的提及。这八个类别中有四个涉及到精神药物(“药物-抗抑郁药”,“药物-抗焦虑药”,“药物-抗精神病药”,“药物-神经安定药”)。例如,在指定了药物类别(如抗抑郁药物)或品牌名称(如“Zoloft”)的事件叙述中,我们将它们映射到称为“药物-抗抑郁药物”的类别中。其他四个类别包括“药物处方滥用”、“药物滥用(未指明)”、“创伤性脑损伤”和“未指明药物引起的疾病”。我们确认受害者或POI患有未知的精神健康障碍或未知的药物引起的精神障碍的病例,分别被归入“未指明的精神障碍”或“未指明的药物引起的精神障碍”类别。提取心理健康障碍提及 | 标准化精神健康障碍 | icd - | ||
第一级 | 二级 | 第三个层次 | ||
对立违抗性障碍 | 对立违抗障碍 | 行为和情绪障碍,通常发生在儿童和青少年时期 | 行为障碍 | 对立违抗障碍 |
智力障碍 | 智力障碍 | 智障人士 | 智力残疾,未指明 | N/A一个 |
自我伤害的问题 | 自残 | 故意自残 | N/A | N/A |
“Scitzophrenia” | 精神分裂症 | 精神分裂症、分裂型、妄想症和其他非情绪性精神病 | 精神分裂症 | 精神分裂症、未指明的 |
分裂型障碍 | 分裂型障碍 | 精神分裂症、分裂型、妄想症和其他非情绪性精神病 | 分裂型障碍 | N/A |
心理健康问题 | 未指明的精神疾病 | 未指明的精神疾病 | N/A | N/A |
产后抑郁症 | 产后抑郁症 | 情绪(情感)障碍 | 重度抑郁症,单次发作 | 产后抑郁症 |
左洛复 | 左洛复 | Medications-antidepressants | N/A | N/A |
自恋 | 自恋的 | 成人人格和行为障碍 | 特定人格障碍 | 自恋型人格障碍 |
间歇性爆发性障碍 | 间歇性爆发性障碍 | 成人人格和行为障碍 | 冲动障碍 | 间歇性爆发性障碍一个 |
一个N/A:不适用。
b“间歇性爆发性精神障碍”是ICD-10的第四级分类;出于报告目的,我们将第四个层次作为第三个层次。
精神健康障碍提到更具体的病例被映射到更低的水平icd -类别。第二级和第三级分别有62个和98个类别。例如,“偏执型精神分裂症”被归类为第三级“偏执型精神分裂症”icd -模式。因为提到了第三层映射icd -,这表明它也可以向后映射到第二个层次(“精神分裂症”)和第一个层次(“精神分裂症,分裂型,妄想症和其他非情绪性精神障碍”)。水平之间的映射是由精神病学(PS)领域的专家手动完成的。
第四级icd -部分叙述中记录了分类(27类)。但是,为了在我们的论文中报告结果,我们将该级别与第三个分类级别合并。例如,我们没有报告“其他冲动障碍”(第三级),而是在第三级分类中包括“间歇性爆发性障碍”(第四级),仅用于结果的表示。因此,虽然没有明确提到“其他冲动障碍”(例如),但这种映射并没有导致任何关于提到精神健康障碍的信息丢失。
显示了一些提取的精神健康障碍的例子映射到icd -模式。映射后提取的心理健康提法纳入icd -类别,我们消除了叙事层面的重复。重复的消除导致叙述层面的统一,因为在每个事件中都单独提到了受害者或poi的精神健康障碍。
结果
主要研究结果
该系统根据一组100个未见过的、随机选择的、提到精神健康障碍的家庭暴力事件进行评估。该集由两位领域专家(DV (CG)和精神病学(PS))手动检查和注释,他们确定了poi和受害者的精神健康障碍。注释者之间的一致性为90%,计算为绝对一致性率[
],建议专家给出一致可靠的注释。我们的方法的表现在叙述层面进行评估(在映射和消除任何重复的精神健康障碍之后)。我们使用标准定义计算了与poi和受害者相关的精神健康障碍提及的精确度、回忆率和F-score [
) ( ). 显示在评估集上的总结结果,以及在培训和发展集上的表现。f得分大于80%,表明结果可靠,其中与poi相关的提及占87%,与受害者相关的提及占81%。精度范围从87%到97%,这表明与我们的开发集相比,性能只有很小的下降(1.2%-1.8%)。POI的回忆相对稳定在79%(下降0.3%),尽管受害者的回忆显著下降了11%,这是意料之中的,因为我们的目标是在避免噪音的同时,在叙述层面准确捕捉精神健康障碍的提及。应该指出的是,与poi相比,受害者在叙述层面提到的精神健康障碍较少(分别为36对154)。错误提取或不识别与受害者相关的精神健康障碍比单一poi更能影响受害者的整体提取表现。因此,应谨慎对待受害者的精度、召回率和F-score值。
大规模语料库应用
鉴于该方法在可靠地识别精神健康障碍方面的结果相对准确,我们将其应用于所有492,393起家庭暴力事件。结果显示77,995(15.83%,77,995/492,393)家暴事件涉及POI、受害者或两者都涉及精神健康障碍。超过四分之三(76.96%,600,032 /77,995)的家庭暴力事件包括与poi相关的精神健康障碍,而受害者为16.47%(12,852/77,995)。共有5111例(6.55%)家庭暴力事件的受害者和POI都有精神健康障碍(
).标准化的精神健康障碍被分组到各自的icd -类别(包括我们自己定制的)分为三个级别:第一、第二和第三。例如,如果一个事件叙述提到“反社会人格障碍”,它就会被映射到三个层次(第三个层次:反社会人格障碍;第二:特异性人格障碍;第一:成人人格和行为障碍)。
集 | 精度 | 回忆 | f值 | TP | 《外交政策》 | FN | |
评价集 | |||||||
芋泥 | 97.5 | 78.5 | 86.9 | 121 | 3. | 33 | |
受害者 | 87.1 | 79.0 | 80.6 | 27 | 4 | 9 | |
训练集 | |||||||
芋泥 | 99.3 | 84.6 | 91.3 | 149 | 1 | 27 | |
受害者 | 96.1 | 92.5 | 94.2 | 50 | 2 | 4 | |
开发集 | |||||||
芋泥 | 98.7 | 78.8 | 87.6 | 164 | 2 | 44 | |
受害者 | 88.9 | 90.2 | 89.5 | 37 | 5 | 4 |
POI或受害者 | 事件,n | 精神健康障碍提到,名词 | ||
第三个层次 | 二级 | 第一级 | ||
POIs只 | 60032年 | 21127年 | 47831年 | 81942年 |
受害者只 | 12852年 | 7268 | 14695年 | 21290年 |
poi和受害者 | 5111 | N/A一个 | N/A | N/A |
总计 | 77995年 | 32479年 | 62526年 | 103232年 |
一个N/A:不适用。
所有精神健康疾病都被划分到第一级,但并非所有疾病都包含足够的细节,能够划分到第二级和第三级(例如,“未指明的精神疾病”、“未指明的智力残疾”)。第一级分类的精神健康障碍提及总数为103,232例,而62,526例精神健康障碍提及包含足够的信息,可以将它们映射到第二级,其中三分之一的提及(32,479例,31.46%)映射到第三级(
).在第一层(
),在POI中提到的81,942例精神健康障碍中,近三分之一(32.46%,26,598例),五分之一(22.79%,4851例)受害者患有"未指明的精神健康障碍",主治警官的叙述中没有明确记录。在poi(15330例,18.71%)和受害者(4946例,23.23%)中,“情绪(情感)障碍”(如双相情感障碍、抑郁症)的提及次数最多,“使用精神活性物质引起的精神和行为障碍”(包括酗酒)在poi(6790例,8.29%)和受害者(1259例,5.91%)中分别排在第四位和第五位。总之,12.02%的poi(9848人)和10.45%的受害者(2224人)提到“通常发生在儿童和青少年时期的行为和情绪障碍”(例如,“注意缺陷多动障碍”,“品行障碍”)是poi和受害者的第三和第四大障碍组。尽管POIs中提到“智力残疾”的人数(1517人,1.85%)高于受害者(939人,4.41%),但受害者的比例高于POIs。0.84%的poi和1.17%的受害者(分别有688和250次提及)提到了创伤性脑损伤(例如,“受害者因车祸而遭受脑损伤”)。在第二级类别中(
), "酗酒"是poi中第二大精神健康障碍(5829例,12.19%),是受害者中第五大精神健康障碍(1180例,8.03%),加强了家庭暴力与酗酒之间的既定联系[ - ].此外,有644名受害者患有“痴呆症,不明”(4.38%,644/ 14609)和546名POI患者(1.14%,546/47,600)。精神健康障碍(一级) | 提到,n | |
芋泥 | 受害者 | |
未指明的精神障碍 | 26598年 | 4851 |
情绪(情感)障碍 | 15330年 | 4946 |
行为和情绪障碍,通常发生在儿童和青少年时期 | 9848 | 2224 |
焦虑、分离、压力相关、躯体形式和其他非精神病性精神障碍 | 3755 | 2261 |
使用精神活性物质导致的精神和行为障碍 | 6790 | 1259 |
精神分裂症、分裂型、妄想症和其他非情绪性精神障碍 | 5771 | 1032 |
故意自残 | 3271 | 949 |
智力障碍 | 1517 | 939 |
由已知生理状况引起的精神障碍 | 559 | 649 |
广泛性和特异性发育障碍 | 1775 | 485 |
成人人格和行为障碍 | 1340 | 420 |
药物滥用 | 2852 | 370 |
身体不明部位受伤 | 800 | 265 |
创伤性脑损伤 | 688 | 250 |
Medications-antidepressants | 400 | 130 |
症状、体征以及异常的临床和实验室检查结果 | 189 | 79 |
神经系统的其他退化性疾病 | 62 | 52 |
染色体异常,其他地方没有分类 | 53 | 39 |
Medications-anxiety | 91 | 24 |
与生理障碍和物理因素相关的行为综合征 | 31 | 23 |
Medications-antipsychotics | 142 | 16 |
不明药物引起的疾病 | 57 | 1 |
滥用药物处方 | 5 | 1 |
Medications-neuroleptics | 1 | 0 |
主要影响中枢神经系统的系统性萎缩 | 11 | 6 |
神经系统疾病神经系统的不明疾病 | 6 | 3. |
精神健康障碍(二级) | 提到,n | |
POIs | 受害者 | |
重度抑郁症,单次发作 | 8944 | 3269 |
酒精滥用 | 5829 | 1180 |
双相情感障碍 | 5449 | 1553 |
其他通常发生在儿童和青少年时期的行为和情绪障碍 | 4888 | 776 |
精神分裂症 | 4852 | 849 |
注意缺陷多动障碍 | 3980 | 1312 |
其他焦虑症 | 2446 | 1714 |
广泛性发育障碍 | 1721 | 477 |
特定人格障碍 | 1310 | 372 |
智力残疾,未指明 | 1225 | 779 |
行为障碍 | 903 | 121 |
身体不明部位受伤 | 800 | 265 |
对严重压力的反应,以及适应障碍 | 790 | 388 |
持续性情绪障碍 | 781 | 90 |
非由某种物质或已知的生理状况引起的未指明的精神病 | 648 | 124 |
痴呆,不明 | 546 | 644 |
其他与精神活性物质有关的疾病一个 | 370 | 23 |
强迫症 | 314 | 81 |
其他与兴奋剂相关的疾病一个 | 248 | 18 |
滥用大麻一个 | 234 | 18 |
智力障碍,轻度b | 153 | 83 |
涉及情绪状态的症状和体征b | 189 | 79 |
严重智力残疾b | 61 | 51 |
一个心理健康障碍不在受害者的前20名之列。
b心理健康障碍不在POIs的前20名之列。
在第三层次类别中(
),“双相情感障碍,未指明”在poi(5445, 21.59%)和受害者(1553,21.36%)的提及率中排名第一。然而,在poi中,与患有“焦虑障碍,不确定”(1459,20.07%)的受害者不同,“不确定的行为和情绪障碍,通常发生在儿童和青少年时期”被提及次数排在第二位(4888,19.38%)。精神健康障碍(第三级) | 提到,n | |
POIs | 受害者 | |
双相情感障碍,未指明 | 5445 | 1553 |
不明确的行为和情绪障碍,通常发生在儿童和青少年时期 | 4888 | 776 |
精神分裂症、未指明的 | 4630 | 821 |
焦虑症,未指明 | 2336 | 1459 |
自闭症 | 956 | 329 |
对立违抗性障碍 | 811 | 114 |
企图自杀 | 800 | 265 |
循环性障碍 | 780 | 90 |
创伤后应激障碍 | 767 | 379 |
阿斯伯格综合症 | 758 | 146 |
偏执型人格障碍 | 638 | 157 |
强迫症,未明确 | 314 | 81 |
人格障碍,未指明 | 299 | 102 |
边缘性人格障碍 | 271 | 92 |
产后抑郁症 | 261 | 265 |
偏执型分裂症一个 | 249 | 28 |
自杀意念 | 189 | 79 |
分离性身份识别障碍 | 143 | 44 |
恐慌症 | 104 | 253 |
品行障碍,未指明一个 | 92 | 7 |
阿尔茨海默病,未知b | 54 | 51 |
唐氏综合症,未指明b | 53 | 39 |
一个心理健康障碍不在受害者的前20名之列。
b心理健康障碍不在POIs的前20名之列。
讨论
概述
通过对警察事件叙述的文本挖掘,获得了关于家庭暴力事件中受害者和poi心理健康状况的丰富数据,这些数据可能有助于政策的制定和预防,而迄今为止这些数据还没有得到。通过挖掘大量的家暴警察事件,我们确定了许多涉及poi和受害者的精神健康障碍,突出了精神健康障碍在家暴中的可能作用。研究表明,精神疾病会增加处于虐待关系中的可能性[
, ],这与受害者提到的较高的精神健康障碍患病率(16%)相一致。我们的目标是在叙事层面上识别和分配精神健康障碍给poi和涉及家庭暴力事件的受害者。因此,我们的规则侧重于精确性,以便能够将各自的疾病分配给poi或受害者。在一个单一的叙述中,许多精神健康的提及是对同一个人的同一种疾病的(不同的)提及。这解释了与召回率(78.5%-79.0%)相比,更高的精度(87.1%-97.5%)。
误差分析
我们检查了评估集的假阳性和假阴性错误来源提取精神健康障碍的提及。报告中提到的POI或受害者的精神健康障碍的假阳性数量有限。在某些情况下,规则中使用的词汇模式是模糊的,并将精神健康障碍定义为错误的人。例如,在下面这句话中,“POI由于酗酒而有可能对受害者采取暴力行为”,“酗酒”被错误地提取为受害者的精神健康障碍,而不是POI。在其他情况下,具体提到的不是实际的精神健康问题,规则错误地确定了提到的精神健康障碍,因为具体情况的性质模糊,映射到精神健康障碍词典中的一个术语(例如,“由于地板上的玻璃,被告割伤了自己[POI假阳性]”)。
在三分之一的假阴性案例(33%)中,词汇模式没有被纳入,因为它们以前在培训和发展集中未见过(例如,“有酗酒史[假阴性:POI提到精神健康障碍]和被告犯下的恶意损害,”“受害者还向警方陈述,在POI期间,她喝醉了,因为她有酒精成瘾[假阴性:受害者提及精神健康障碍]”)。此外,在近40%的假阴性中,由于缺乏指定个体角色的语义锚,规则忽略了与POI或受害者相关的正确精神健康障碍(例如,“XXX[受害者的名字]因抑郁症和厌食症住进YYY院[假阴性:受害者提到精神健康障碍],”“她孩子的行为是因为多动症[假阴性:POI提到精神健康障碍]”)。在这种情况下,我们选择不设计任何规则,以保护系统的准确性,并避免对可能涉及家庭暴力事件并患有精神障碍的潜在其他人(如证人、危险儿童、朋友、邻居)产生误报。
局限性和未来工作
我们在检查和探索了一个相对较小的训练和发展集之后设计了这些规则。然而,这些集包含了大量的精神健康障碍(
).尽管如此,评估集中受害者提及的总数明显低于POI(几乎低三倍),这可能解释了受害者提及的相对较低的表现。有可能,一套只侧重于提及受害者的规则(而不是一套既提及poi也提及受害者的精神健康规则)可能有助于为受害者确定精神健康障碍建立更广泛的规则网。由于我们的规则是基于常见的词汇模式,它们可能被用来处理类似类型的警察记录叙述(例如,性侵犯和其他记录犯罪)。尽管这些规则可能适用于其他数据,但它们可能需要在词汇和词典覆盖范围方面进行进一步调整(例如,非精神健康疾病的识别)。我们不知道摘录的精神健康障碍的提及是否有效,因为它们是由不是精神健康专家的警察记录的,因此在解释调查结果时应谨慎。受害者、poi和证人可以向警方提供有关精神健康状况的信息。我们计划通过使用行政数据收集中包含的正式诊断来检查这些“非正式”提到的精神健康障碍的真实性。
我们还将从警方叙述中扩大我们的目标信息集,以评估高风险群体(如老年人、同性关系中的人以及照顾者关系中的人)的poi和受害者的特征。提取的信息可用于设计预测模型,以研究我们是否可以预测高危群体的DV复发事件,并为预防策略提供信息。
结论
我们设计、实施和评估了一种基于规则的方法,用于提取由NSWPF在事件叙述中记录的无法大规模手动检查的poi和家庭暴力事件受害者的精神健康障碍。性能很有希望,对受害者的精度为87.1%,对poi的精度为97.5%。结果令人鼓舞,并表明自动文本挖掘方法可以从警察叙述中提取重要信息。从一组大规模的家庭暴力报告中提取的信息使我们能够确定和确认家庭暴力事件与精神健康障碍之间的模式和联系。确定的信息可用于进一步的研究,旨在评估家庭暴力事件中受害者和poi的特征和特征。
致谢
作者要感谢来自NSWPF的以下个人,他们帮助访问有关警察程序的数据和建议:Chris Devery博士,Christie Wallace博士,John Blanchette, Erin Sharland和Nicole Grant。本研究得到了澳大利亚犯罪学研究所/犯罪学研究基金(34/15-16)的支持。
利益冲突
没有宣布。
多媒体
评估指标用于我们的方法。真阳性(TP)是指在事件中发现正确提及精神健康障碍。假阳性(FP)是对任何没有手动注释的不相关提及的提取。假阴性(FN)是指该方法未检测到的正确精神健康障碍。真阴性(TN)是指当该方法没有确定任何精神健康障碍提到,没有注释。系统性能的计算使用标准定义的精密度(TP的数量与TP和FN的数量之比),召回率(TP的数量与FN和TP的数量之比)和f得分(精密度和召回率之间的调和平均值[
])。PNG文件,19KB参考文献
- 内政部统计公报。伦敦:内政部;2008年7月英格兰和威尔士犯罪2007/08:来自英国犯罪调查和警方记录的犯罪调查结果网址:http://news.bbc.co.uk/1/shared/bsp/hi/pdfs/17_07_08_crime_statistics_200708.pdf[访问时间:2018-08-30][WebCite缓存]
- 悉尼,2017年。家庭暴力网址:http://www.cityofsydney.nsw.gov.au/community/health-and-safety/domestic-violence[访问时间:2018-09-04][WebCite缓存]
- Howard LM, Trevillion K, Khalifeh H, Woodall A, Agnew-Davies R, Feder G.家庭暴力与严重精神障碍:患病率和干预。精神医学2010 6;40(6):881-893。[CrossRef] [Medline]
- Robinson L, Spilsbury K.对成年家庭暴力受害者获得卫生服务的看法和经验的系统回顾。健康社会护理社区2008年1月16日(1):16-30。[CrossRef] [Medline]
- 崔维良K, Oram S, Feder G, Howard LM。家庭暴力和精神障碍的经历:系统回顾和元分析。PLoS One 2012;7(12):e51740 [免费全文] [CrossRef] [Medline]
- 澳大利亚统计局,2017。2014年澳大利亚犯罪受害者记录http://www.abs.gov.au/ausstats/abs@.nsf/Lookup/by%20Subject/4510.0~2014~Main%20Features~Experimental%20Family%20and%20Domestic%20Violence%20Statistics~10000[访问时间:2018-07-11][WebCite缓存]
- 毕马威(KPMG)。《澳大利亚暴力侵害妇女及其儿童的代价》2016年5月。URL:https://www.dss.gov.au/sites/default/files/documents/08_2016/the_cost_of_violence_against_women_and_their_children_in_australia_-_summary_report_may_2016.pdf[访问时间:2018-08-30][WebCite缓存]
- 赫伯特·b·费施巴赫(Fischbach RL),《家庭暴力与心理健康:文化内部和跨文化的关联和难题》。社会科学与医学1997 10月;45(8):1161-1176。[Medline]
- Khalifeh, Dean K.,严重精神疾病患者的性别和暴力行为。精神病学2010;22(5):535-546。[CrossRef] [Medline]
- 范多恩R,沃拉夫卡J,约翰逊N.精神障碍与暴力:除了药物使用之外还有关系吗?社会精神病学和精神病学流行病学2012年3月;47(3):487-503。[CrossRef] [Medline]
- 美国犯罪统计与研究局,2014。了解欺诈:新南威尔士州警方记录的欺诈犯罪的性质网址:http://www.bocsar.nsw.gov.au/Pages/bocsar_pages/Fraud.aspx[访问时间:2018-08-31][WebCite缓存]
- 张志刚,张志刚,张志刚。文本挖掘技术在精神病学研究中的应用。精神病学杂志2016年12月;25(2):86-100。[CrossRef] [Medline]
- 李志强,李志强,李志强,等。基于自然语言处理的临床文献自动编码。中国医学信息杂志2004;11(5):392-402 [免费全文] [CrossRef] [Medline]
- Savova GK, Masanz JJ, oggren PV, Zheng J, Sohn S, Kipper-Schuler KC,等。梅奥临床文本分析和知识提取系统(cTAKES):架构,组件评估和应用。中国医学信息杂志2010;17(5):507-513 [免费全文] [CrossRef] [Medline]
- spasiic I, Livsey J, Keane JA, nenadiic G.癌症相关信息的文本挖掘研究现状及未来发展方向。国际医学杂志2014年9月;83(9):605-623 [免费全文] [CrossRef] [Medline]
- 马托G, Mwangoka J.利用文本挖掘检测斯瓦西里语报纸的犯罪模式。IJKEDM 2017; 4(2): 145。[CrossRef]
- 杨艳,王晓明,杨晓明。基于文本挖掘的身份威胁行为建模与分析。计算安全2017 Mar;65(4):50-63 [免费全文] [CrossRef]
- 周敏,徐俊,陈辉。从警察叙事报告中提取有意义的实体。2002年5月22日发表于:全国数字政府研究年会;2002年5月19-22日;洛杉矶,加州。
- 基于文本挖掘的犯罪模式分析。2004年发表于:第十届美洲信息系统会议,AMCIS 2004;2004年8月6日至8日;纽约第236页。
- 李文杰,李文杰,李文杰。家庭暴力的概念分析。专家系统应用2011年4月;38(4):3116-3130 [免费全文] [CrossRef]
- 孙S, Kocher JA, Chute CG, Savova GK。从精神病学和心理学患者的临床叙述中提取药物副作用。美国医学信息学会2011年12月18日增刊1:i144-i149 [免费全文] [CrossRef] [Medline]
- Perlis RH, Iosifescu DV, Castro VM, Murphy SN, Gainer VS, Minnier J,等。使用电子病历使精神病学的大规模研究成为可能:以治疗难治性抑郁症为模型。精神医学2012 Jan;42(1):41-50 [免费全文] [CrossRef] [Medline]
- Cunningham H, Tablan V, Roberts A, Bontcheva K.使用GATE的全生命周期开源文本分析从生物医学文档中获得更多信息。计算机科学进展,2013;29 (2):e1002854 [免费全文] [CrossRef] [Medline]
- Eriksson R, Jensen PB, Frankild S, Jensen LJ, Brunak S.丹麦临床叙事文本中可能的药物不良事件的词典构建与识别。中国医学杂志2013;20(5):947-953 [免费全文] [CrossRef] [Medline]
- 伊克巴尔E,马拉R,杰克逊RG,鲍尔M,易卜拉欣ZM,布罗德本特M,等。从免费文本电子患者记录和大型精神健康病例登记册中的信息中识别药物不良事件。PLoS One 2015;10(8):e0134208 [免费全文] [CrossRef] [Medline]
- Jackson RG, Patel R, Jayatilleke N, Kolliakou A, Ball M, Gorrell G,等。从临床文本中提取严重精神疾病症状的自然语言处理:临床记录交互搜索综合数据提取(criscode)项目。英国医学杂志公开赛2017年12月17日;7(1):e012012 [免费全文] [CrossRef] [Medline]
- Karystianis G, Nevado AJ, Kim C, Dehghan A, Keane JA, Nenadic G.从精神病学评估记录中自动挖掘症状严重程度。Int J Methods精神病学研究2018年3月27日(1):1 [免费全文] [CrossRef] [Medline]
- ICD10Data.com。2017.ICD-10-CM代码:精神、行为和神经发育障碍https://www.icd10data.com/ICD10CM/Codes/F01-F99[访问时间:2018-07-11][WebCite缓存]
- 金特里。语料库及其注释。在:Ananiadou S, mcaught J,编辑。生物与生物医学文本挖掘“,”马萨诸塞州诺伍德:艺术屋;2006:179 - 212。
- 刘志强,王志强,王志强。文本挖掘技术及其在系统生物学中的应用。生物技术,2006年12月24日(12):571-579。[CrossRef] [Medline]
- 纳贾维茨·LM,索恩·J,沃尔什·M,魏斯·RD.创伤后应激障碍和药物滥用女性的家庭暴力。成瘾行为杂志2004 Jun;29(4):707-715。[CrossRef] [Medline]
- Bhatt房车。家庭暴力和药物滥用。中华妇产科杂志1998年12月;63增刊1:S25-S31。[Medline]
- 齐尔伯曼,布鲁姆,家庭暴力,酗酒和滥用药物。Rev Bras Psiquiatr 2005 10月27日(增刊2):s51-s55。[CrossRef]
缩写
警察:电脑化警务行动系统 |
DV:家庭暴力 |
门:工程通用架构 |
诊断结果:《国际疾病分类》第十版 |
开玩笑:Java注解模式引擎 |
NSMHWB:全国心理健康和幸福调查 |
NSWPF:新南威尔士州警察局 |
人:世界卫生组织 |
G·艾森巴赫(G Eysenbach)编辑;提交12.07.18;D Bradford, B Bie, M Birk同行评审;对作者15.08.18的评论;订正版本收到21.08.18;接受22.08.18;发表13.09.18
版权©George Karystianis, Armita Adily, Peter Schofield, Lee Knight, Clara Galdon, David Greenberg, Louisa Jorm, Goran Nenadic, Tony Butler。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2018年9月13日。
这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。