这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
警察每年都会参加大量的家庭暴力事件,记录这些事件的细节,包括结构化(编码)数据和非结构化的自由文本叙述。由相关人员(POIs)实施的虐待类型(包括身体、心理、情感和经济)以及受害者遭受的任何伤害通常都记录在长篇描述性叙述中。
我们的目标是确定一种自动文本挖掘方法是否可以在新南威尔士州警察局的大型警察数据集中的叙述中识别家庭暴力受害者遭受的虐待类型和任何伤害。
我们使用200个有记录的家庭暴力事件的训练集,根据文本中的语法模式设计了一种知识驱动的方法,然后将这种方法应用于大量的警察报告。
在100个家庭暴力事件的评估集上测试我们的方法,虐待类型和受害者伤害的精度值分别为90.2%和85.0%。在492,393份家庭暴力报告中,我们发现71.32%(351,178)的事件提到了虐待类型,超过三分之一(177,117件;35.97%)含有受害者伤害。“情感/言语虐待”(33.46%;117,488次)是最常见的虐待类型,其次是“打人”(86,322次;24.58%)和“财产损害”(22.27%;78203事件)。“瘀伤”是最常见的伤害形式(51,455起;29.03%),以“切割/磨损”为主(28.93%;51,284件事件)和“红色标记/标志”(23.71%; 42,038 events) ranking second and third, respectively.
结果表明,文本挖掘可以自动从警方记录的家庭暴力事件中提取信息,这些信息可以支持对家庭暴力的进一步公共卫生研究,例如研究虐待类型与受害者伤害的关系,以及性别和虐待类型与家庭暴力受害者风险升级的关系。这种提取的信息也有可能与关于心理健康状况的信息联系起来。
家庭暴力是一种全球性的社会和公共卫生现象,每年对数以千计的人造成严重的健康后果[
2017年,新南威尔士州警察部队(NSWPF)在WebCOPS(网络计算机化作战警务系统)中记录了123,330起与家庭暴力有关的事件,该系统为警察系统提供了一个基于Web的界面,使警察能够在整个组织范围内捕获和分析犯罪信息[
家庭暴力事件叙述中包含大量关于伤害和虐待类型的重要信息,除非寻求医疗护理,否则在医疗记录中找不到这些信息,尽管即使获得医疗护理也可能不会被标记为与家庭暴力有关。然而,大量的记录数据以及相关的冗长的非结构化叙述,使得通过传统的民族志/定性研究方法(包括目测记录)很难识别潜在的有意义的信息。一篇研究论文最近评论道:“……除了人工审查,没有系统的方法从这些(警察)叙述中提取信息”[
需要能够在短时间内自动从大量数据中提取感兴趣的信息的方法。文本挖掘在许多领域已经被用于从非结构化文本中获取信息超过30年,特别是在生物医学领域[
在本文中,我们研究了文本挖掘方法的应用是否可以从492,393起家庭暴力事件的大规模语料中自动提取虐待类型(由poi进行)和持续的受害者伤害。
我们使用了NSWPF提供给研究人员的492,393起家庭暴力事件的语料库,这些事件发生在2005年1月至2016年12月[
经新南威尔士大学人类研究伦理委员会(参考编号:HC16558)的伦理批准后,NSWPF允许访问这些叙述。由于叙述中包含敏感和个人信息(如姓名、姓氏和地址),所有处理工作都在NSWPF总部进行。只有去识别、提取的产出被允许带离现场作进一步分析。
我们总共使用了300个叙述用于培训、开发(用于增强规则的性能)和评估目的(各100个)。这些集合在我们之前的工作中有更详细的描述[
我们使用几个来源将特定的虐待类型(即虐待行为的细节)分为九类[
一个假想的家庭暴力事件的例子,由新南威尔士州警察部队记录。蓝色高亮的术语表示标注的受害者伤害,黄色高亮的术语表示虐待类型。
虐待的种类和类型。
滥用类别 | 虐待类型 |
物理攻击 | 攻击(未指明),咬伤,阻塞,窒息,命令狗攻击,拖拽,肘击,试图纵火,塞口,抓,扯头发,头撞,锁头,踢,膝盖,身体限制,拉,拳打,推,抓,摇晃,扇耳光,吐痰,刺,受害者被甩来甩去,肢体扭曲,试图用物体或武器伤害受害者,用物体或武器殴打受害者 |
威胁 | 恐吓(通过肢体语言)或明确威胁如果受害者不服从,将对其进行身体伤害、性侵犯和自残 |
性侵犯 | 性侵犯(如强奸) |
情感/辱骂 | 当受害者不听话时自残,大喊脏话,以及其他情感/言语虐待 |
跟踪 | 跟踪,骚扰,强行闯入 |
金融滥用 | 财务控制(例如,不能使用信用卡) |
社会滥用 | 社会限制,防止/限制儿童进入 |
不保密的 | 违反家庭暴力法令,追逐,猛扑,其他和拥有个人物品(如电话和车钥匙) |
财产损失 | 财产损失(从损坏物品到损坏房屋或车辆) |
我们的方法涉及基于规则的语言表达模式的设计和实现,结合字典术语,在叙事层面上识别虐待类型和受害者伤害。它包括以下步骤(
我们通过开发22个定制字典(
用于从家庭暴力警察事件叙述中识别虐待类型和受害者伤害的文本挖掘方法的概述。家庭暴力;GATE:工程通用架构;WebCOPS:网络电脑警务操作系统。
手工制作的字典及其各自的大小(包括术语的数量)用于识别虐待类型和受害者的伤害。
字典的名字 | 大小 | 描述 | 例子 |
解剖学 | 108 | 受害者被POI伤害的人体解剖部位一个 | 胸部,腿,头,脖子 |
攻击 | 18 | 表示非特定的物理攻击的动词 | 攻击,剪切,拍打,猛击 |
尝试 | 6 | 这些动词表明了POI对受害者的身体伤害 | 尝试,瞄准,尝试,尝试 |
是 | 4 | 动词be的现在时和过去时的变化 | 是,是,是,是 |
没收 | 8 | 用来描述罪犯对受害者的没收行为的动词 | 没收,抢,抢,抢 |
损害 | 22 | 表示POI的财产损害行为的动词 | 裂了,烧了,裂了,撕了 |
学位 | 14 | 描述受害者伤口的形容词 | 肤浅的,广泛的,次要的,主要的 |
描述 | 59 | 描述一个物体的各种属性的术语(多为形容词),如颜色或材料的类型 | 黄色,木质,上桌,油炸 |
家庭 | 31 | 表示个体之间关系的各种名词 | 男朋友,妈妈,爸爸,表哥 |
第一人称威胁 | 123 | POI对受害者的威胁 | "我要杀了你" "我要把你埋了" "我要找到你杀了你" "有人要杀了你" |
力 | 8 | 用来描述罪犯对受害者进行肢体约束的动词 | 强迫,固定,固定,保留 |
位置 | 15 | 房子的位置,DVb事件发生于 | 厕所,休息室,墙壁,走廊 |
数量 | 10 | 文字中的数字,表示对罪犯的刑事指控的数量 | 一、二、四、六 |
对象 | 174 | 在DV事件中损坏或使用的各种物体 | 桌腿,杯子,后门,窗户 |
芋泥 | 18 | 在家庭暴力事件中描述罪犯的术语 | 被告,相关人员(罪犯),被告 |
前提 | 6 | 描述住宅的术语 | 单位、露台、公寓、处所 |
介词 | 44 | 各种介词,暗示死者解剖部位受伤的存在 | 左下,下,上,前 |
开始 | 7 | 表示犯罪者行为开始或继续的动词 | 开始,开始,继续,开始 |
创伤 | 14 | 指罪犯对受害者使用的武器/物体造成的伤口的术语 | 伤口,割伤,创伤,骨折 |
受害者 | 19 | 描述家暴受害者的术语 | 受害者,受害者,pinop(需要保护的人的缩写)pn (pinop的缩写) |
武器 | 155 | 犯罪者用来对受害人造成伤害或威胁造成伤害的物品 | 军刀,手电筒,书,猎枪 |
一个POI:嫌疑人。
b家庭暴力。
我们的规则基于在训练和发展集中确定的语法模式,表明存在虐待类型或受害者伤害。这项工作遵循了我们之前开发的相同的方法[
文字工程通用架构[
事件叙述中可能匹配多个句法模式,并可能涉及一个或多个受害者伤害的虐待类型(可以是重复的)。这导致了对虐待类型和受害者伤害的高度可变提及的提取(例如,“打拳”、“打拳”和“打拳”是同一种虐待类型的变体[“打拳”];“淤青”、“淤青”和“紫痕”都是同一种损伤(“bruising”)的变体。因此,每一个提及都被映射到它的“规范”代表,每一种虐待类型或伤害只被保留一个提及,并用于“标记”家庭暴力叙述。例如,如果在一个家庭暴力事件报告中,我们提取了三次提到的虐待类型“打拳”和两次提到的虐待类型“踢脚”,那么在家庭暴力事件级别上,我们只注释了两种虐待类型——“打拳”和“踢脚”。
文本挖掘系统根据100份以前未见过的、随机选择的家庭暴力事件报告进行评估。该集合由第一和第二作者(GK和AA)手动检查和注释,他们确定了虐待和受害者伤害的类型。注释者之间的一致性计算为绝对一致率[
结果显示在
鉴于该方法在识别虐待类型和受害者伤害方面的相对准确结果,我们将该方法应用于492,393起家庭暴力事件的资料库。超过71.32%的事件(351,178)具有报告中提到的已确定的虐待类型,而超过三分之一的事件(177,607;36.07%)包含受害人伤害(
在44种虐待类型中,“情感/言语虐待”(117,488;33.46%)是最常见的,其次是“打卡”(86,322;24.58%)和“财产损害”(78,203;22.27%)。共有35.45%(124,498件)的家庭暴力事件只包含一种已确定的虐待类型,而33.83%(118,819件)的家庭暴力事件包含三至五种不同的虐待类型(
最常见的损伤类型是“擦伤”(51455例;29.03%),其次是“切割/磨损”(51,284;28.93%)及“红色标记/标志”(42,038;23.71%) (
该系统在培训、开发和评估集上的表现,用于识别虐待类型和具有真阳性、假阳性和假阴性结果的受害者伤害。
集合与特征 | 精度(%) | 回忆(%) | F1-score (%) | 真阳性(%) | 假阳性(%) | 假阴性(%) | |
|
|||||||
|
虐待类型 | 90.2 | 89.6 | 89.8 | 259 | 28 | 30. |
受伤 | 85.0 | 86.3 | 85.6 | 57 | 10 | 9 | |
|
|||||||
|
虐待类型 | 92.8 | 94.8 | 93.7 | 310 | 24 | 17 |
受伤 | 90.2 | 94.3 | 92.3 | 83 | 9 | 5 | |
|
|||||||
|
虐待类型 | 93.9 | 96.3 | 95.3 | 293 | 19 | 11 |
受伤 | 93.1 | 97.5 | 95.2 | 81 | 6 | 2 |
包含各种虐待类型的家庭暴力事件数量(n=351,178)。
虐待类型 | 事件,n (%) |
攻击(不明) | 171323 (48.79) |
情感/辱骂 | 117488 (33.46) |
冲 | 86322 (24.58) |
财产损失 | 78203 (22.27) |
恐吓 | 75662 (21.55) |
抓住 | 66728 (19.00) |
推 | 62794 (17.88) |
抓 | 20493 (5.84) |
物理限制 | 20014 (5.70) |
踢 | 19435 (5.53) |
拍打 | 17474 (4.98) |
ADVO一个违反 | 16903 (4.81) |
企图用物体或武器攻击的 | 13592 (3.87) |
拉头发/拉头发 | 13048 (3.72) |
令人窒息的 | 11325 (3.22) |
随地吐痰 | 9341 (2.66) |
用物体或武器攻击 | 8387 (2.39) |
其他 | 7135 (2.03) |
拉 | 6373 (1.81) |
受害者被扔来扔去 | 5255 (1.50) |
刺 | 4685 (1.33) |
拥有个人物品 | 3265 (0.93) |
阻塞 | 3163 (0.90) |
骚扰 | 3100 (0.88) |
跟踪 | 2940 (0.84) |
自我伤害 | 2597 (0.74) |
咬 | 2285 (0.65) |
拖 | 2216 (0.63) |
摇晃 | 2098 (0.60) |
刺 | 1903 (0.54) |
强行进入 | 1779 (0.51) |
夹头 | 1482 (0.42) |
追逐 | 1324 (0.38) |
跪 | 1321 (0.38) |
矫正 | 1161 (0.33) |
肘击 | 225 (0.06) |
肢体扭曲 | 173 (0.05) |
头撞 | 148 (0.04) |
性侵犯 | 125 (0.04) |
防止儿童访问 | 91 (0.03) |
社会的限制 | 40 (0.01) |
财务控制 | 29 (0.01) |
企图纵火 | 28日(0.01) |
命令狗攻击 | 1 (0.00) |
一个警告:家庭暴力逮捕令。
家庭暴力事件按虐待类型数量分类(n= 351178)。
滥用类型数目(个) | 事件,n (%) |
1 | 124498 (35.45) |
2 | 89342 (25.44) |
3 - 5 | 118819 (33.83) |
6 - 9 | 17951 (5.11) |
> 10 | 568 (0.16) |
总计 | 351178 (100.0) |
包含各种伤害类型的事件数(n=177,607)。
伤害类型 | 事件,n (%) |
瘀伤 | 51455 (29.03) |
切/磨损 | 51284 (28.93) |
红色标记(年代) | 42038 (23.71) |
肿胀 | 32581 (18.38) |
疼痛 | 26729 (15.08) |
其他 | 19778 (11.16) |
出血 | 19154 (10.81) |
骨折(s) | 17531 (9.89) |
肿块 | 9482 (5.35) |
放牧 | 7305 (4.12) |
黑眼圈(s) | 2994 (1.69) |
抓 | 2399 (1.35) |
咬痕(s) | 2350 (1.33) |
刺伤的伤口(s) | 2346 (1.32) |
烧痕(s) | 1382 (0.78) |
破碎的牙齿 | 620 (0.35) |
撕掉指甲 | 7 (0.00) |
按受害人伤害类型数量分类的家庭暴力事件(n=177,607)。
伤害类型数量 | 事件,n (%) |
1 | 105493 (59.56) |
2 | 43373 (24.49) |
3 - 4 | 25678 (14.49) |
5 - 6 | 2484 (1.40) |
≥7 | 89 (0.05) |
总计 | 177117 (100.0) |
据我们所知,这一分析是第一次尝试利用警方记录的大规模、人口水平的家庭暴力事件语料来捕捉与家庭暴力相关的虐待和受害者伤害。WebCOPS数据库字段的结构化信息没有记录家庭暴力纠纷中poi实施的虐待类型和受害者遭受的各种伤害。因此,我们将重点放在叙述部分,在该部分中,我们的知识驱动方法的应用已经识别出丰富的信息,并有可能用于更好地理解家庭暴力和制定相关的预防干预措施、监测和报告。
我们从文本挖掘中得到的发现,为家庭暴力事件中发生的伤害和虐待类型提供了更详细的描述。在我们的数据集中,最常见的虐待类型是非身体的,涉及“情感/言语虐待”,这与最近的研究结果一致,表明非身体虐待类型比身体虐待更普遍[
通过识别各种虐待类型和相关的受害者伤害,有可能通过将这些信息与保健服务机构持有的诊断数据联系起来,制定预防和干预准则,以便对受害者进行监测和监测。也有可能追踪受害者被虐待的任何潜在时间线。此外,文本挖掘方法可以不断更新,以监测趋势并为风险分层算法提供信息,从而推动针对特定群体的家庭暴力预防策略。
随着将家庭暴力纳入世卫组织的可持续发展目标,有必要在这方面进行准确的报告[
虽然对于确定家庭暴力事件趋势的大规模分析的准确性水平是可以接受的,但在个别叙述报告的层面上,虐待类型和受害者伤害仍然存在一些错误。通过检查评估集,我们观察到系统错误地将几个POI伤害的少数实例(5个案例)提取为受害者伤害,因为规则是针对POI触发的(例如,
尽管我们根据陈述受害者伤害和虐待类型的通用句法模式设计了规则,但这些规则忽略了有限数量的伤害提及,因为它们没有明确地陈述受害者所遭受的伤害(例如,
此外,伴随着受害者姓氏的伤害或虐待类型的提及(6个案例)被排除在我们的规则设计之外,因为如果不使用记录的结构化部分(例如,“xxx有一个
我们的文本挖掘系统可能会因为家庭暴力事件中更专业或更明确地提到虐待类型而错过一些案例,因为我们的提取规则是基于仅包含在200个叙述中的信息。尽管包含了所有类型的虐待,但仍有可能在某些情况下,我们可能没有确定明确的类型。评估集中提到的伤害数量相对较少(与其中一种虐待类型相比)可以解释伤害的较低表现。尽管如此,我们基于常见的句法模式设计了我们的规则,将虐待类型/伤害分别归为poi和受害者,以避免产生假阴性;因此,我们的召回率高于所有三个数据集的精度。尽管如此,这种方法能够识别受害者的行为是POI的虐待类型,以及在某些情况下,POI的伤害是受害者的伤害。这表明更具体的设计规则可以解决这个问题。同样,尽管我们包括了最基本和最常见的伤害形式,但仍有一些情况包含其他伤害原因或导致特定伤害的特定虐待类型,这些情况可能已经被排除在我们的方法之外。此外,拼写检查算法的实现可以帮助识别任何拼写错误的滥用类型或伤害,并有可能提高性能。
我们对大量家庭暴力事件的分析结果仅限于虐待类型和受害者的伤害。我们计划将这些信息与有关精神疾病的行政数据收集结合起来使用,以进一步研究精神疾病与家庭暴力之间的联系,并探索虐待类型与性别和受害者伤害之间的关系。在这个跨越10年的大规模数据集中,有精神疾病的家庭暴力受害者是否比没有精神疾病的家庭暴力受害者更容易受到伤害,以确定新的情报。结合人口统计学变量对结果进行进一步分析,可以显示家庭暴力领域数据的有趣方面,从特定群体的患病率和发生率到家庭暴力事件发生(或复发)的风险因素。结合医疗服务接触所造成的临床数据中的受害者伤害,可有助于早期识别受害者受虐待情况并实施干预战略。建模将用于调查POI特征是否可以预测虐待的严重程度,类似地,某些受害者表型是否倾向于特定类型的虐待。
我们证明了一种知识驱动的方法可以用于家庭暴力事件中涉及的虐待类型和受害者伤害的自动提取。表现令人鼓舞,滥用类型和伤害的精度分别为90.2%和85.0%,进一步表明文本挖掘可以用于大规模地从这些非结构化数据中提取有意义的信息。已确定的信息使我们能够确认受害者在家庭暴力中遭受虐待的程度。研究结果可用于支持进一步的公共卫生研究,旨在评估涉及家庭暴力事件的poi的概况,并改变针对虐待受害者的现有干预政策。
简要描述所提取的滥用类型。
虐待类型和受害者伤害识别的规则示例。
家庭暴力逮捕令
家庭暴力
工程通用架构
新南威尔士州警察局
相关人士
网络计算机化警务系统
作者要感谢NSWPF对这个项目的帮助,特别是Chris Devery博士,Christie Wallace博士,John Blanchette, Erin Sharland和Nicole Grant。本研究得到了澳大利亚犯罪学研究所/犯罪学研究基金(34/15-16)的支持。
没有宣布。