JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v21i3e13067 30860490 10.2196/13067 原始论文 原始论文 家庭暴力警察报告的自动分析,以探索虐待类型和受害者伤害:文本挖掘研究 Eysenbach 冈瑟 Spasic Irena Davoudi 茴香酒 Karystianis 乔治 理学士、理学硕士、博士 1
柯比研究所 医学院 新南威尔士大学 华莱士·伍尔特大厦6层 高街,肯辛顿新南威尔士州 悉尼,2052年 澳大利亚 61 (2) 9385 0900 gkarystianis@kirby.unsw.edu.au
http://orcid.org/0000-0003-3491-361X
阿迪 Armita 医学学士,公共卫生硕士,博士 1 http://orcid.org/0000-0003-0722-3293 斯科菲尔德 彼得·W 理学士(荣誉),理学士,理学硕士,医学博士 2 http://orcid.org/0000-0003-2967-9662 格林伯格 大卫 MB, ChB, FFPsych (SA), FRCPC, FRANZCP, MMed 3. http://orcid.org/0000-0001-8658-2352 Jorm 路易莎 BVSc, MSc, PhD 4 http://orcid.org/0000-0003-0390-661X Nenadic Goran 理学士、理学硕士、博士 5 http://orcid.org/0000-0003-0795-5363 巴特勒 托尼 理学士、理学硕士、博士 1 http://orcid.org/0000-0002-2679-2769
柯比研究所 医学院 新南威尔士大学 悉尼 澳大利亚 神经精神病学服务 亨特新英格兰健康 纽卡斯尔 澳大利亚 精神病学学院 新南威尔士大学 悉尼 澳大利亚 健康大数据研究中心 新南威尔士大学 悉尼 澳大利亚 计算机科学学院 曼彻斯特大学 曼彻斯特 联合王国 通讯作者:George Karystianis gkarystianis@kirby.unsw.edu.au 03 2019 12 03 2019 21 3. e13067 11 12 2018 5 1 2019 31 1 2019 10 2 2019 ©George Karystianis, Armita Adily, Peter W Schofield, David Greenberg, Louisa Jorm, Goran Nenadic, Tony Butler。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2019年12月3日。 2019

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

警察每年都会参加大量的家庭暴力事件,记录这些事件的细节,包括结构化(编码)数据和非结构化的自由文本叙述。由相关人员(POIs)实施的虐待类型(包括身体、心理、情感和经济)以及受害者遭受的任何伤害通常都记录在长篇描述性叙述中。

客观的

我们的目标是确定一种自动文本挖掘方法是否可以在新南威尔士州警察局的大型警察数据集中的叙述中识别家庭暴力受害者遭受的虐待类型和任何伤害。

方法

我们使用200个有记录的家庭暴力事件的训练集,根据文本中的语法模式设计了一种知识驱动的方法,然后将这种方法应用于大量的警察报告。

结果

在100个家庭暴力事件的评估集上测试我们的方法,虐待类型和受害者伤害的精度值分别为90.2%和85.0%。在492,393份家庭暴力报告中,我们发现71.32%(351,178)的事件提到了虐待类型,超过三分之一(177,117件;35.97%)含有受害者伤害。“情感/言语虐待”(33.46%;117,488次)是最常见的虐待类型,其次是“打人”(86,322次;24.58%)和“财产损害”(22.27%;78203事件)。“瘀伤”是最常见的伤害形式(51,455起;29.03%),以“切割/磨损”为主(28.93%;51,284件事件)和“红色标记/标志”(23.71%; 42,038 events) ranking second and third, respectively.

结论

结果表明,文本挖掘可以自动从警方记录的家庭暴力事件中提取信息,这些信息可以支持对家庭暴力的进一步公共卫生研究,例如研究虐待类型与受害者伤害的关系,以及性别和虐待类型与家庭暴力受害者风险升级的关系。这种提取的信息也有可能与关于心理健康状况的信息联系起来。

家庭暴力 受伤 虐待类型 文本挖掘 基于规则的方法 警察故事
简介 背景

家庭暴力是一种全球性的社会和公共卫生现象,每年对数以千计的人造成严重的健康后果[ 1- 3.].它可以被定义为“成年人之间的任何威胁行为、暴力(或心理、身体、性、经济、情感)虐待事件,无论他们是或曾经是亲密伴侣或家庭成员,不论性别或性取向”[ 4- 6].然而,家庭暴力也可能发生在其他关系结构中,例如照顾者与受抚养人(包括儿童)之间,或在家庭中共同生活但没有亲密关系的人之间[ 4 5].世界卫生组织进行的一项多国暴力研究估计,针对妇女的身体暴力和性伴侣暴力的发生率为15%-71% [ 1 3.].在澳大利亚,2018年,六分之一的女性和十六分之一的男性遭受现任或前任伴侣的身体或性暴力[ 7].家庭暴力有多种形式,从身体虐待到精神虐待和言语虐待。受到和实施的虐待类型可能因性别而异,每种类型都对受害者的短期和长期(身心)健康造成影响[ 8- 11].家庭暴力造成了巨大的经济损失:仅在澳大利亚,2015-2016年针对妇女的暴力行为造成的损失约为222亿澳元[ 2 3. 12].

2017年,新南威尔士州警察部队(NSWPF)在WebCOPS(网络计算机化作战警务系统)中记录了123,330起与家庭暴力有关的事件,该系统为警察系统提供了一个基于Web的界面,使警察能够在整个组织范围内捕获和分析犯罪信息[ 13].WebCOPS包含家庭暴力事件的详细信息,包括结构化字段(出生日期、土著身份、是否使用武器等)和称为“事件叙述”的自由非结构化文本。一个事件可以包含多个文本叙述,详细描述相关人员(POI)和受害者之间发生的所谓事件、有关事件情况的信息以及警方采取的任何行动。叙事经常没有特定的结构,有各种拼写错误、排版和语法错误,(有时是非正式的)缩略语和缩写词,根据上下文可以有不同的含义[[ 13].

家庭暴力事件叙述中包含大量关于伤害和虐待类型的重要信息,除非寻求医疗护理,否则在医疗记录中找不到这些信息,尽管即使获得医疗护理也可能不会被标记为与家庭暴力有关。然而,大量的记录数据以及相关的冗长的非结构化叙述,使得通过传统的民族志/定性研究方法(包括目测记录)很难识别潜在的有意义的信息。一篇研究论文最近评论道:“……除了人工审查,没有系统的方法从这些(警察)叙述中提取信息”[ 14].

之前的工作

需要能够在短时间内自动从大量数据中提取感兴趣的信息的方法。文本挖掘在许多领域已经被用于从非结构化文本中获取信息超过30年,特别是在生物医学领域[ 15- 20.].最近的努力试图从在线媒体出版物中获取与地雷犯罪有关的信息[ 21- 23],而处理警方报告的尝试有限[ 13 24- 28].以前的工作通过命名实体提取提取姓名、麻醉药品和武器的数据,取得了不同程度的成功(f1得分从46%到81%不等)[ 24 25]和警方报告事件分类为家庭暴力或非家庭暴力相关,使用无监督聚类技术,正确分类44%的报告留作人工检查[ 26].其他努力包括通过字典和规则从证人叙述中识别与犯罪相关的信息(如毒品、武器和面部特征),f1得分从82%到93% [ 27 28].最近,Karystianis等人应用了一种基于规则的方法,结合手工制作的字典,从记录在案的家庭暴力事件的警察文本叙述中提取poi和受害者的精神疾病提及,平均一级得分为84% [ 13].

目的

在本文中,我们研究了文本挖掘方法的应用是否可以从492,393起家庭暴力事件的大规模语料中自动提取虐待类型(由poi进行)和持续的受害者伤害。

方法 数据

我们使用了NSWPF提供给研究人员的492,393起家庭暴力事件的语料库,这些事件发生在2005年1月至2016年12月[ 13].WebCOPS将家庭暴力事件标记为“家庭暴力相关”,对暴力的描述被编码为“家庭暴力”,受害者与POI之间的关系包括以下任何一种:“配偶/伴侣”(包括前配偶/前伴侣),“男朋友/女朋友”(包括前男友/前女友),“父母/监护人”(包括继亲/寄养),“孩子”(包括继亲/寄养),“兄弟姐妹”,“其他家庭成员”(包括亲属),或“照顾者”。这些事件包括以下几类:各种类型的攻击;违反暴力拘捕令;杀人;恶意损坏财产;恐吓、绑架、绑架、骚扰等对他人的犯罪行为。这些数据只包括有记录的身体攻击事件,不包括跟踪、性侵犯和年轻的poi案件。

经新南威尔士大学人类研究伦理委员会(参考编号:HC16558)的伦理批准后,NSWPF允许访问这些叙述。由于叙述中包含敏感和个人信息(如姓名、姓氏和地址),所有处理工作都在NSWPF总部进行。只有去识别、提取的产出被允许带离现场作进一步分析。

我们总共使用了300个叙述用于培训、开发(用于增强规则的性能)和评估目的(各100个)。这些集合在我们之前的工作中有更详细的描述[ 13].一个假设的去识别叙述显示在 图1

滥用类型分类

我们使用几个来源将特定的虐待类型(即虐待行为的细节)分为九类[ 12 29 30.]及44种虐待类型( 表1).虽然所提供的数据不包括涉及性侵犯和跟踪的家庭暴力事件,但仍有案例在事件中描述了这些类型的虐待。一些非特定形式的暴力(如“殴打”、“拍打”、“攻击”和“剪辑”)被归类为“攻击(未指明)”。中提供了关于滥用类型的更详细的解释 多媒体附件1.共检查了17种常见的损伤类型,包括抓伤、擦伤、红痕/记号、撕扯(指甲)、瘀伤、割伤/擦伤、肿胀、肿块、其他、骨折、黑眼圈、断牙、烧伤痕、刺伤、咬痕、疼痛和出血。

一个假想的家庭暴力事件的例子,由新南威尔士州警察部队记录。蓝色高亮的术语表示标注的受害者伤害,黄色高亮的术语表示虐待类型。

虐待的种类和类型。

滥用类别 虐待类型
物理攻击 攻击(未指明),咬伤,阻塞,窒息,命令狗攻击,拖拽,肘击,试图纵火,塞口,抓,扯头发,头撞,锁头,踢,膝盖,身体限制,拉,拳打,推,抓,摇晃,扇耳光,吐痰,刺,受害者被甩来甩去,肢体扭曲,试图用物体或武器伤害受害者,用物体或武器殴打受害者
威胁 恐吓(通过肢体语言)或明确威胁如果受害者不服从,将对其进行身体伤害、性侵犯和自残
性侵犯 性侵犯(如强奸)
情感/辱骂 当受害者不听话时自残,大喊脏话,以及其他情感/言语虐待
跟踪 跟踪,骚扰,强行闯入
金融滥用 财务控制(例如,不能使用信用卡)
社会滥用 社会限制,防止/限制儿童进入
不保密的 违反家庭暴力法令,追逐,猛扑,其他和拥有个人物品(如电话和车钥匙)
财产损失 财产损失(从损坏物品到损坏房屋或车辆)
基于规则的系统开发 概述

我们的方法涉及基于规则的语言表达模式的设计和实现,结合字典术语,在叙事层面上识别虐待类型和受害者伤害。它包括以下步骤( 图2):(1)创建相关词典以识别虐待类型和受害者伤害的提及,(2)设计和实施规则以捕捉上下文中虐待类型和受害者伤害的提及,(3)在每个叙述中聚合多个提及,以达到家庭暴力事件级注释。

字典

我们通过开发22个定制字典( 表2).这些词典是由第一作者(GK)手工制作的,通过检查描述虐待类型(由poi进行)和受害者伤害的术语和表达的训练和发展集,并由其他两位作者(AA和PS)检查,以确保一致性。我们使用了系统变异(如复数、过去时和现在时),也包括了常见的拼写错误(例如,“stuck”而不是“struck”、“harassment”和“assalting”)。虽然大多数术语都是名词短语,但在“威胁”词典中,我们包括了由poi发出的口头威胁,并通过改变名词来手动扩展变体(例如,“你的孩子将没有。 父亲”变成"你的孩子不会有 妈妈:“)和表面表达式( “你的死” “你死”或 “你是死”)。

用于从家庭暴力警察事件叙述中识别虐待类型和受害者伤害的文本挖掘方法的概述。家庭暴力;GATE:工程通用架构;WebCOPS:网络电脑警务操作系统。

手工制作的字典及其各自的大小(包括术语的数量)用于识别虐待类型和受害者的伤害。

字典的名字 大小 描述 例子
解剖学 108 受害者被POI伤害的人体解剖部位一个 胸部,腿,头,脖子
攻击 18 表示非特定的物理攻击的动词 攻击,剪切,拍打,猛击
尝试 6 这些动词表明了POI对受害者的身体伤害 尝试,瞄准,尝试,尝试
4 动词be的现在时和过去时的变化 是,是,是,是
没收 8 用来描述罪犯对受害者的没收行为的动词 没收,抢,抢,抢
损害 22 表示POI的财产损害行为的动词 裂了,烧了,裂了,撕了
学位 14 描述受害者伤口的形容词 肤浅的,广泛的,次要的,主要的
描述 59 描述一个物体的各种属性的术语(多为形容词),如颜色或材料的类型 黄色,木质,上桌,油炸
家庭 31 表示个体之间关系的各种名词 男朋友,妈妈,爸爸,表哥
第一人称威胁 123 POI对受害者的威胁 "我要杀了你" "我要把你埋了" "我要找到你杀了你" "有人要杀了你"
8 用来描述罪犯对受害者进行肢体约束的动词 强迫,固定,固定,保留
位置 15 房子的位置,DVb事件发生于 厕所,休息室,墙壁,走廊
数量 10 文字中的数字,表示对罪犯的刑事指控的数量 一、二、四、六
对象 174 在DV事件中损坏或使用的各种物体 桌腿,杯子,后门,窗户
芋泥 18 在家庭暴力事件中描述罪犯的术语 被告,相关人员(罪犯),被告
前提 6 描述住宅的术语 单位、露台、公寓、处所
介词 44 各种介词,暗示死者解剖部位受伤的存在 左下,下,上,前
开始 7 表示犯罪者行为开始或继续的动词 开始,开始,继续,开始
创伤 14 指罪犯对受害者使用的武器/物体造成的伤口的术语 伤口,割伤,创伤,骨折
受害者 19 描述家暴受害者的术语 受害者,受害者,pinop(需要保护的人的缩写)pn (pinop的缩写)
武器 155 犯罪者用来对受害人造成伤害或威胁造成伤害的物品 军刀,手电筒,书,猎枪

一个POI:嫌疑人。

b家庭暴力。

规则

我们的规则基于在训练和发展集中确定的语法模式,表明存在虐待类型或受害者伤害。这项工作遵循了我们之前开发的相同的方法[ 13].句法模式包括固定的句法表达式,作为通过特定动词、名词短语和介词(例如,“开始窒息”)构建的某些元素的锚,以及通过应用手工制作的字典识别的语义占位符(描述受害者的所有可能的同义词,例如“受害者”、“vic”和“pinop”)。我们特别使用了概念枚举,因为它经常出现在训练和发展集(例如,“伤害: 肿的手 疼痛而且 左眼下划痕(提到受害者的伤势)”)。

文字工程通用架构[ 31],一个文本挖掘框架,用于注释和分类文本,实现信息识别,用于创建和应用我们的规则。观察到的语法模式通过Java注解模式引擎(GATE的模式匹配语言)转换为规则。总共创建了64条规则( 多媒体附件2).

重复提及的消除

事件叙述中可能匹配多个句法模式,并可能涉及一个或多个受害者伤害的虐待类型(可以是重复的)。这导致了对虐待类型和受害者伤害的高度可变提及的提取(例如,“打拳”、“打拳”和“打拳”是同一种虐待类型的变体[“打拳”];“淤青”、“淤青”和“紫痕”都是同一种损伤(“bruising”)的变体。因此,每一个提及都被映射到它的“规范”代表,每一种虐待类型或伤害只被保留一个提及,并用于“标记”家庭暴力叙述。例如,如果在一个家庭暴力事件报告中,我们提取了三次提到的虐待类型“打拳”和两次提到的虐待类型“踢脚”,那么在家庭暴力事件级别上,我们只注释了两种虐待类型——“打拳”和“踢脚”。

结果 评价

文本挖掘系统根据100份以前未见过的、随机选择的家庭暴力事件报告进行评估。该集合由第一和第二作者(GK和AA)手动检查和注释,他们确定了虐待和受害者伤害的类型。注释者之间的一致性计算为绝对一致率[ 32为91%,这表明注释是可靠的。该方法的表现在叙事层面进行评估(在消除任何多个特征的提及后)。我们使用标准定义计算了家暴事件水平上的精密度(真阳性的数量与真阳性和假阳性的数量之比)、回忆率(真阳性的数量与真阳性和假阴性的数量之比)和f1得分(精密度和回忆率之间的调和平均值)[ 33].我们将真积极定义为发现事件中的正确提及;假阳性为提取任何不相关的提及,没有人工注释;假阴性是指我们的方法没有检测到的正确提及;真否定是指我们的方法在没有注释的情况下没有识别任何提及。

结果显示在 表3.伤害和虐待类型的f1得分高于85%,这表明与训练组(分别为5.5%和9.6%)和发展组(分别为3.9%和6.7%)相比,结果是可靠和一致的,但下降幅度较小。特别是,虐待类型的精度为90.2%,受害者伤害的精度为85.0%,与发展集相比略有下降(分别为2.6%和5.2%)。以类似的方式,虐待类型和受害者伤害的回忆率分别为89.6%和86.3%,与发展集的值相比,分别下降了5.2%和8.0%。然而,与发展集(n=88)和训练集(n=83)相比,评估集有明显较少的受害者伤害提及(n=66);因此,应谨慎考虑其召回值。

大规模语料库分析

鉴于该方法在识别虐待类型和受害者伤害方面的相对准确结果,我们将该方法应用于492,393起家庭暴力事件的资料库。超过71.32%的事件(351,178)具有报告中提到的已确定的虐待类型,而超过三分之一的事件(177,607;36.07%)包含受害人伤害( 表4).

在44种虐待类型中,“情感/言语虐待”(117,488;33.46%)是最常见的,其次是“打卡”(86,322;24.58%)和“财产损害”(78,203;22.27%)。共有35.45%(124,498件)的家庭暴力事件只包含一种已确定的虐待类型,而33.83%(118,819件)的家庭暴力事件包含三至五种不同的虐待类型( 表5).

最常见的损伤类型是“擦伤”(51455例;29.03%),其次是“切割/磨损”(51,284;28.93%)及“红色标记/标志”(42,038;23.71%) ( 表6).共有105493起家庭暴力事件(59.56%)只有一种形式的伤害,24.48%(43373起)的家庭暴力事件有两种形式的伤害( 表7).

该系统在培训、开发和评估集上的表现,用于识别虐待类型和具有真阳性、假阳性和假阴性结果的受害者伤害。

集合与特征 精度(%) 回忆(%) F1-score (%) 真阳性(%) 假阳性(%) 假阴性(%)
评价
虐待类型 90.2 89.6 89.8 259 28 30.
受伤 85.0 86.3 85.6 57 10 9
发展
虐待类型 92.8 94.8 93.7 310 24 17
受伤 90.2 94.3 92.3 83 9 5
培训
虐待类型 93.9 96.3 95.3 293 19 11
受伤 93.1 97.5 95.2 81 6 2

包含各种虐待类型的家庭暴力事件数量(n=351,178)。

虐待类型 事件,n (%)
攻击(不明) 171323 (48.79)
情感/辱骂 117488 (33.46)
86322 (24.58)
财产损失 78203 (22.27)
恐吓 75662 (21.55)
抓住 66728 (19.00)
62794 (17.88)
20493 (5.84)
物理限制 20014 (5.70)
19435 (5.53)
拍打 17474 (4.98)
ADVO一个违反 16903 (4.81)
企图用物体或武器攻击的 13592 (3.87)
拉头发/拉头发 13048 (3.72)
令人窒息的 11325 (3.22)
随地吐痰 9341 (2.66)
用物体或武器攻击 8387 (2.39)
其他 7135 (2.03)
6373 (1.81)
受害者被扔来扔去 5255 (1.50)
4685 (1.33)
拥有个人物品 3265 (0.93)
阻塞 3163 (0.90)
骚扰 3100 (0.88)
跟踪 2940 (0.84)
自我伤害 2597 (0.74)
2285 (0.65)
2216 (0.63)
摇晃 2098 (0.60)
1903 (0.54)
强行进入 1779 (0.51)
夹头 1482 (0.42)
追逐 1324 (0.38)
1321 (0.38)
矫正 1161 (0.33)
肘击 225 (0.06)
肢体扭曲 173 (0.05)
头撞 148 (0.04)
性侵犯 125 (0.04)
防止儿童访问 91 (0.03)
社会的限制 40 (0.01)
财务控制 29 (0.01)
企图纵火 28日(0.01)
命令狗攻击 1 (0.00)

一个警告:家庭暴力逮捕令。

家庭暴力事件按虐待类型数量分类(n= 351178)。

滥用类型数目(个) 事件,n (%)
1 124498 (35.45)
2 89342 (25.44)
3 - 5 118819 (33.83)
6 - 9 17951 (5.11)
> 10 568 (0.16)
总计 351178 (100.0)

包含各种伤害类型的事件数(n=177,607)。

伤害类型 事件,n (%)
瘀伤 51455 (29.03)
切/磨损 51284 (28.93)
红色标记(年代) 42038 (23.71)
肿胀 32581 (18.38)
疼痛 26729 (15.08)
其他 19778 (11.16)
出血 19154 (10.81)
骨折(s) 17531 (9.89)
肿块 9482 (5.35)
放牧 7305 (4.12)
黑眼圈(s) 2994 (1.69)
2399 (1.35)
咬痕(s) 2350 (1.33)
刺伤的伤口(s) 2346 (1.32)
烧痕(s) 1382 (0.78)
破碎的牙齿 620 (0.35)
撕掉指甲 7 (0.00)

按受害人伤害类型数量分类的家庭暴力事件(n=177,607)。

伤害类型数量 事件,n (%)
1 105493 (59.56)
2 43373 (24.49)
3 - 4 25678 (14.49)
5 - 6 2484 (1.40)
≥7 89 (0.05)
总计 177117 (100.0)
讨论 主要结果

据我们所知,这一分析是第一次尝试利用警方记录的大规模、人口水平的家庭暴力事件语料来捕捉与家庭暴力相关的虐待和受害者伤害。WebCOPS数据库字段的结构化信息没有记录家庭暴力纠纷中poi实施的虐待类型和受害者遭受的各种伤害。因此,我们将重点放在叙述部分,在该部分中,我们的知识驱动方法的应用已经识别出丰富的信息,并有可能用于更好地理解家庭暴力和制定相关的预防干预措施、监测和报告。

我们从文本挖掘中得到的发现,为家庭暴力事件中发生的伤害和虐待类型提供了更详细的描述。在我们的数据集中,最常见的虐待类型是非身体的,涉及“情感/言语虐待”,这与最近的研究结果一致,表明非身体虐待类型比身体虐待更普遍[ 34]而且家庭暴力虐待的受害者比其他人更有可能遭受某些类型的伤害,如割伤和骨折[ 34 35].家庭暴力还可以采取多种身体形式,从恐吓受害者到由特定类型的虐待(如“拳打脚打”、“刺伤”和“窒息”)造成严重和严重身体伤害,对身心健康造成短期和长期后果[ 9- 11].

通过识别各种虐待类型和相关的受害者伤害,有可能通过将这些信息与保健服务机构持有的诊断数据联系起来,制定预防和干预准则,以便对受害者进行监测和监测。也有可能追踪受害者被虐待的任何潜在时间线。此外,文本挖掘方法可以不断更新,以监测趋势并为风险分层算法提供信息,从而推动针对特定群体的家庭暴力预防策略。

随着将家庭暴力纳入世卫组织的可持续发展目标,有必要在这方面进行准确的报告[ 36].文本挖掘警察的家庭暴力事件叙述可能是获得关于这一主题的非常微妙的信息的来源,包括事件的原因,精神疾病和药物使用在事件中的潜在作用,所犯下的虐待类型,所遭受的伤害,所使用的武器,以及关于关系状态的信息。这一宝贵信息可用于为特定群体提供预防服务的人员制定预防战略,并为卫生保健提供者识别警告信号。最近一份报告显示,在澳大利亚,2012-2013年至2013-2014年期间,每周都有一名妇女和一名男子死于现任或前任伴侣的暴力行为[ 7].对这一丰富信息的后续分析将旨在研究这些问题,并确定虐待和家庭暴力事件的早期预警信号,这可能有助于预防家庭暴力环境下的杀人事件。

误差分析

虽然对于确定家庭暴力事件趋势的大规模分析的准确性水平是可以接受的,但在个别叙述报告的层面上,虐待类型和受害者伤害仍然存在一些错误。通过检查评估集,我们观察到系统错误地将几个POI伤害的少数实例(5个案例)提取为受害者伤害,因为规则是针对POI触发的(例如, “右肩轻微擦伤(受伤假阳性)的POI”)。在其他情况下(4例),当受害者伤害实际上指的是财产损害时,却被错误地识别出来,使用的是表示伤害的模棱两可的词语和句法模式组合(例如,"伤害/医疗/财产损害: 桌腿断了[受害者受伤假阳性]”)。在12起家庭暴力事件中,当受害者反击POI时,受害者的任何自卫行为都被错误地提取为虐待类型(例如,“证人介入并 抓住了[滥用类型假阳性]POI和 把他按倒在地[虐待类型的假阳性]直到他冷静下来”和“……承认她身体上 使他[虐待类型假阳性]他回来后(虐待类型的真阳性)。很少有虐待类型被识别但没有家庭暴力背景的情况(例如,“被告被关在笼子里,他开始的地方(虐待类型的假阳性)站在门口,对警察大喊大叫……”),而其他事件虽然没有发生,但未来可能会发生(例如,“受害者认为,如果她留在住所,她肯定会在那里 猛击[虐待类型的假阳性]由被告和可能[滥用类型假阳性]”)。

尽管我们根据陈述受害者伤害和虐待类型的通用句法模式设计了规则,但这些规则忽略了有限数量的伤害提及,因为它们没有明确地陈述受害者所遭受的伤害(例如, “红[受伤假阴性]和 啃食[受伤假阴性]背部可见, 干血(损伤假阴性)在嘴唇上”)。一些例子(8个案例)更加隐式,需要使用一些相关术语(例如,“POI”)进行额外的推断 把他的手放在受害者胸骨中间用力[受伤假阴性]导致她疼痛和呼吸短促”)。像这样的案例是大多数虐待类型的假阴性,这表明“抓”和“打”等虐待类型在叙述中可能有相当多的词汇变化,这表明上下文的丰富性。

此外,伴随着受害者姓氏的伤害或虐待类型的提及(6个案例)被排除在我们的规则设计之外,因为如果不使用记录的结构化部分(例如,“xxx有一个 鼻子出血[受伤假阴性]”和“xxx喊道 言语虐待(虐待类型的假阴性)”)。

限制

我们的文本挖掘系统可能会因为家庭暴力事件中更专业或更明确地提到虐待类型而错过一些案例,因为我们的提取规则是基于仅包含在200个叙述中的信息。尽管包含了所有类型的虐待,但仍有可能在某些情况下,我们可能没有确定明确的类型。评估集中提到的伤害数量相对较少(与其中一种虐待类型相比)可以解释伤害的较低表现。尽管如此,我们基于常见的句法模式设计了我们的规则,将虐待类型/伤害分别归为poi和受害者,以避免产生假阴性;因此,我们的召回率高于所有三个数据集的精度。尽管如此,这种方法能够识别受害者的行为是POI的虐待类型,以及在某些情况下,POI的伤害是受害者的伤害。这表明更具体的设计规则可以解决这个问题。同样,尽管我们包括了最基本和最常见的伤害形式,但仍有一些情况包含其他伤害原因或导致特定伤害的特定虐待类型,这些情况可能已经被排除在我们的方法之外。此外,拼写检查算法的实现可以帮助识别任何拼写错误的滥用类型或伤害,并有可能提高性能。

我们对大量家庭暴力事件的分析结果仅限于虐待类型和受害者的伤害。我们计划将这些信息与有关精神疾病的行政数据收集结合起来使用,以进一步研究精神疾病与家庭暴力之间的联系,并探索虐待类型与性别和受害者伤害之间的关系。在这个跨越10年的大规模数据集中,有精神疾病的家庭暴力受害者是否比没有精神疾病的家庭暴力受害者更容易受到伤害,以确定新的情报。结合人口统计学变量对结果进行进一步分析,可以显示家庭暴力领域数据的有趣方面,从特定群体的患病率和发生率到家庭暴力事件发生(或复发)的风险因素。结合医疗服务接触所造成的临床数据中的受害者伤害,可有助于早期识别受害者受虐待情况并实施干预战略。建模将用于调查POI特征是否可以预测虐待的严重程度,类似地,某些受害者表型是否倾向于特定类型的虐待。

结论

我们证明了一种知识驱动的方法可以用于家庭暴力事件中涉及的虐待类型和受害者伤害的自动提取。表现令人鼓舞,滥用类型和伤害的精度分别为90.2%和85.0%,进一步表明文本挖掘可以用于大规模地从这些非结构化数据中提取有意义的信息。已确定的信息使我们能够确认受害者在家庭暴力中遭受虐待的程度。研究结果可用于支持进一步的公共卫生研究,旨在评估涉及家庭暴力事件的poi的概况,并改变针对虐待受害者的现有干预政策。

多媒体附件1

简要描述所提取的滥用类型。

多媒体附件2

虐待类型和受害者伤害识别的规则示例。

缩写 ADVO

家庭暴力逮捕令

DV

家庭暴力

工程通用架构

NSWPF

新南威尔士州警察局

芋泥

相关人士

WebCOPS

网络计算机化警务系统

作者要感谢NSWPF对这个项目的帮助,特别是Chris Devery博士,Christie Wallace博士,John Blanchette, Erin Sharland和Nicole Grant。本研究得到了澳大利亚犯罪学研究所/犯罪学研究基金(34/15-16)的支持。

没有宣布。

霍华德 LM 而特 K Khalifeh H 伍德奥 一个 Agnew-Davies R 菲德尔 G 家庭暴力和严重精神障碍:流行程度和干预措施 Psychol地中海 2010 06 40 6 881 93 10.1017 / S0033291709991589 19891808 S0033291709991589 罗宾逊 l Spilsbury K 系统审查家庭暴力成年受害者对获得保健服务的看法和经验 卫生社会保健社区 2008 01 16 1 16 30. 10.1111 / j.1365-2524.2007.00721.x 18181812 HSC721 而特 K 舞台监督 年代 菲德尔 G 霍华德 LM 家庭暴力和精神障碍的经历:系统回顾和元分析 《公共科学图书馆•综合》 2012 7 12 e51740 10.1371 / journal.pone.0051740 23300562 玉米饼- d - 12 - 27556 PMC3530507 内政部统计公报 2008 2019-02-22 英格兰和威尔士犯罪2007/08:调查结果来自英国犯罪调查和警察记录的犯罪 http://news.bbc.co.uk/2/shared/bsp/hi/pdfs/17_07_08_crime_statistics_200708.pdf Briodi 一个 悉尼市议会和NSWPF 2010 2018-07-11 家庭暴力是一种犯罪电子资源 https://catalogue.nla.gov.au/Record/4984779 澳大利亚政府-社会服务部 2019-02-28 2010-2022年减少暴力侵害妇女及其儿童行为国家计划 https://www.dss.gov.au/women/programs-services/reducing-violence/the-national-plan-to-reduce-violence-against-women-and-their-children-2010-2022 澳大利亚卫生和福利研究所 2018 2018-12-07 澳大利亚的家庭、家庭和性暴力 https://www.aihw.gov.au/reports/domestic-violence/family-domestic-sexual-violence-in-australia-2018/contents/summary Foshee V 青少年约会虐待的流行、类型和伤害的性别差异 健康教育决议 1996 11 3. 275 286 10.1093 /她/ 11.3.275-a 凯利 J 约翰逊 亲密伴侣暴力类型的区别:研究更新和干预的意义 家事法庭覆核 2008 07 46 3. 476 499 10.1111 / j.1744-1617.2008.00215.x Capaldi D Shortt J H 威尔逊 J 克罗斯比 l Tucci 年代 官方家庭暴力事件:类型、伤害和与非官方夫妻攻击的关联 暴力与受害者 2009 24 4 502 19694354 Cleak H 斯科菲尔德 Axelsen l Bickerdike 一个 筛查家庭调解客户中的伴侣暴力:区分虐待类型 J暴力 2018 04 33 7 1118 1146 10.1177 / 0886260515614559 26681786 0886260515614559 毕马威(KPMG) 2016 2019-03-01 澳大利亚妇女和儿童遭受暴力的代价 https://www.dss.gov.au/sites/default/files/documents/08_2016/the_cost_of_violence_against_women_and_their_children_in_australia_-_summary_report_may_2016.pdf Karystianis G 阿迪 一个 斯科菲尔德 P 骑士 l Galdon C 格林伯格 D Jorm l Nenadic G 巴特勒 T 家庭暴力警察叙事中心理健康障碍的自动提取:文本挖掘研究 J医疗互联网服务 2018 09 13 20. 9 e11548 10.2196/11548 30213778 v20i9e11548 PMC6231811 麦克唐纳 W 菲茨杰拉德 J 新南威尔士州政府:司法-犯罪统计和研究局 2014 2019-02-22 理解欺诈:新南威尔士州警方记录的欺诈犯罪的性质 https://www.bocsar.nsw.gov.au/Pages/bocsar_pages/Fraud.aspx 阿贝 一个 Grouin C Zweigenbaum P Falissard B 文本挖掘在精神病学中的应用:系统的文献综述 Int J方法精神病学研究 2016 12 25 2 86 One hundred. 10.1002 / mpr.1481 26184780 弗里德曼 C Shagina l 西尔 Y Hripcsak G 基于自然语言处理的临床文献自动编码 美国医学信息协会 2004 11 5 392 402 10.1197 / jamia.M1552 15187068 M1552 PMC516246 Savova 门将 Masanz JJ Ogren 光伏 J 年代 Kipper-Schuler KC 斜槽 CG 梅奥临床文本分析和知识提取系统(cTAKES):架构,组件评估和应用 美国医学信息协会 2010 17 5 507 13 10.1136 / jamia.2009.001560 20819853 17/5/507 PMC2995668 Spasić Livsey J 基恩 晶澳 Nenadić G 癌症相关信息的文本挖掘:现状与未来方向综述 国际医学杂志 2014 09 83 9 605 23 10.1016 / j.ijmedinf.2014.06.009 25008281 s1386 - 5056 (14) 00110 - 5 Y l Rastegar-Mojarad 月亮 年代 F 阿夫扎尔 N 年代 Y Mehrabi 年代 年代 H 临床信息提取应用:文献综述 J生物医学信息 2018 01 77 34 49 10.1016 / j.jbi.2017.11.011 29162496 s1532 - 0464 (17) 30256 - 3 PMC5771858 Karystianis G Dehghan 一个 Kovacevic 一个 基恩 晶澳 Nenadic G 在临床记录中使用局部词汇化规则识别心脏病危险因素 J生物医学信息 2015 12 58增刊 S183 8 10.1016 / j.jbi.2015.06.013 26133479 s1532 - 0464 (15) 00123 - 9 PMC4974302 热带丛林 G Mwangoka J 利用文本挖掘从斯瓦希里语报纸中检测犯罪模式 IJKEDM 2017 4 2 145 156 10.1504 / IJKEDM.2017.086244 Nokhbeh Zaeem R Manoharan Y 理发师 K 身份盗窃故事文本挖掘的身份威胁行为建模与分析 计算机与安全 2017 03 65 50 63 10.1016 / j.cose.2016.11.002 Arulanandam R Savarimuthu B 普维斯 从网上报纸文章中提取犯罪信息 2014 01 20. 第二届澳大拉西亚网络会议论文集第155卷 2014 新西兰奥克兰 J H 从警方叙述报告中提取有意义的实体 2002 05 19 数字政府研究年度全国会议论文集 2002 美国洛杉矶 Ananyan 年代 AMCIS 2004会议记录 2004 2019-03-01 文本挖掘犯罪模式分析 https://aisel.aisnet.org/amcis2004/236/ Poelmans J Elzinga P Viaene 年代 Dedene G 正式分析家庭暴力的概念 专家系统与应用 2011 4 38 4 3116 3130 10.1016 / j.eswa.2010.08.103 Ku C Iriberri 一个 勒罗伊 G 从警方和目击者的叙述报告中提取犯罪信息 2008 国土安全技术,IEEE会议 2008 美国波士顿 Iriberri 一个 勒罗伊 G 自然语言处理与电子政务:提取可重复使用的犯罪报告信息 2007 信息复用与集成,IEEE国际会议 2007 美国拉斯维加斯 澳大利亚白丝带 2018 身体虐待 https://www.whiteribbon.org.au/understand-domestic-violence/types-of-abuse/physical-abuse/ Mouzos J Makkai T 澳大利亚犯罪学研究所 2004 2019-03-01 女性遭受男性暴力的经历:国际暴力侵害妇女调查(IVAWS)澳大利亚部分的调查结果 https://aic.gov.au/publications/rpp/rpp56 坎宁安 H Tablan V 罗伯茨 一个 Bontcheva K 利用GATE的全生命周期开源文本分析,从生物医学文档中获得更多信息 PLoS计算生物学 2013 9 2 e1002854 10.1371 / journal.pcbi.1002854 23408875 pcompbiol - d - 12 - 00425 PMC3567135 Ananiadou 年代 麦克诺特 J 生物与生物医学文本挖掘“, 2006 波士顿 Artec House Publishers Ananiadou 年代 凯尔 DB 辻井 J 文本挖掘及其在系统生物学中的潜在应用 生物科技趋势》 2006 12 24 12 571 9 10.1016 / j.tibtech.2006.10.002 17045684 s0167 - 7799 (06) 00242 - 3 不法之徒 没有一种类型的亲密伴侣虐待:探索亲密伴侣之间的身体和非身体虐待 J Fam提琴 2009 2 27 24 4 263 272 10.1007 / s10896 - 009 - 9228 - 5 Muelleman R Lenaghan P Pakieser R 受虐妇女:受伤地点和类型 急诊医学年鉴 1996 28 5 486 492 8909268 世界卫生组织 2018-12-07 可持续发展目标(SDG)与暴力预防:二者如何关联?2018; https://www.who.int/violence_injury_prevention/violence/7th_milestones_meeting/Butchart_SDGs_and_violence_prevention.pdf?ua=1
Baidu
map