卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v21i3e13067

30860490

10.2196/13067

原始论文

家庭暴力警察报告的自动分析，以探索虐待类型和受害者伤害:文本挖掘研究

Eysenbach

冈瑟

Spasic

Irena

Davoudi

茴香酒

Karystianis

乔治

理学士、理学硕士、博士 1

柯比研究所医学院新南威尔士大学

华莱士·伍尔特大厦6层

高街，肯辛顿新南威尔士州

悉尼,2052年

澳大利亚 61 (2) 9385 0900 gkarystianis@kirby.unsw.edu.au

http://orcid.org/0000-0003-3491-361X

阿迪

Armita

医学学士，公共卫生硕士，博士 1

http://orcid.org/0000-0003-0722-3293

斯科菲尔德

彼得·W

理学士(荣誉)，理学士，理学硕士，医学博士 2

http://orcid.org/0000-0003-2967-9662

格林伯格

大卫

MB, ChB, FFPsych (SA)， FRCPC, FRANZCP, MMed 3.

http://orcid.org/0000-0001-8658-2352

Jorm

路易莎

BVSc, MSc, PhD 4

http://orcid.org/0000-0003-0390-661X

Nenadic

Goran

理学士、理学硕士、博士 5

http://orcid.org/0000-0003-0795-5363

巴特勒

托尼

理学士、理学硕士、博士 1

http://orcid.org/0000-0002-2679-2769

1 柯比研究所医学院新南威尔士大学

悉尼

澳大利亚 2 神经精神病学服务亨特新英格兰健康

纽卡斯尔

澳大利亚 3. 精神病学学院新南威尔士大学

悉尼

澳大利亚 4 健康大数据研究中心新南威尔士大学

悉尼

澳大利亚 5 计算机科学学院曼彻斯特大学

曼彻斯特

联合王国

通讯作者:George Karystianis gkarystianis@kirby.unsw.edu.au

03 2019

12 03 2019

21 3.

e13067

11 12 2018 5 1 2019 31 1 2019 10 2 2019

©George Karystianis, Armita Adily, Peter W Schofield, David Greenberg, Louisa Jorm, Goran Nenadic, Tony Butler。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2019年12月3日。

2019

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

警察每年都会参加大量的家庭暴力事件，记录这些事件的细节，包括结构化(编码)数据和非结构化的自由文本叙述。由相关人员(POIs)实施的虐待类型(包括身体、心理、情感和经济)以及受害者遭受的任何伤害通常都记录在长篇描述性叙述中。

客观的

我们的目标是确定一种自动文本挖掘方法是否可以在新南威尔士州警察局的大型警察数据集中的叙述中识别家庭暴力受害者遭受的虐待类型和任何伤害。

方法

我们使用200个有记录的家庭暴力事件的训练集，根据文本中的语法模式设计了一种知识驱动的方法，然后将这种方法应用于大量的警察报告。

结果

在100个家庭暴力事件的评估集上测试我们的方法，虐待类型和受害者伤害的精度值分别为90.2%和85.0%。在492,393份家庭暴力报告中，我们发现71.32%(351,178)的事件提到了虐待类型，超过三分之一(177,117件;35.97%)含有受害者伤害。“情感/言语虐待”(33.46%;117,488次)是最常见的虐待类型，其次是“打人”(86,322次;24.58%)和“财产损害”(22.27%;78203事件)。“瘀伤”是最常见的伤害形式(51,455起;29.03%)，以“切割/磨损”为主(28.93%;51,284件事件)和“红色标记/标志”(23.71%; 42,038 events) ranking second and third, respectively.

结论

结果表明，文本挖掘可以自动从警方记录的家庭暴力事件中提取信息，这些信息可以支持对家庭暴力的进一步公共卫生研究，例如研究虐待类型与受害者伤害的关系，以及性别和虐待类型与家庭暴力受害者风险升级的关系。这种提取的信息也有可能与关于心理健康状况的信息联系起来。

家庭暴力受伤虐待类型文本挖掘基于规则的方法警察故事

简介背景

家庭暴力是一种全球性的社会和公共卫生现象，每年对数以千计的人造成严重的健康后果[ 1- 3.］．它可以被定义为“成年人之间的任何威胁行为、暴力(或心理、身体、性、经济、情感)虐待事件，无论他们是或曾经是亲密伴侣或家庭成员，不论性别或性取向”[ 4- 6］．然而，家庭暴力也可能发生在其他关系结构中，例如照顾者与受抚养人(包括儿童)之间，或在家庭中共同生活但没有亲密关系的人之间[ 4， 5］．世界卫生组织进行的一项多国暴力研究估计，针对妇女的身体暴力和性伴侣暴力的发生率为15%-71% [ 1， 3.］．在澳大利亚，2018年，六分之一的女性和十六分之一的男性遭受现任或前任伴侣的身体或性暴力[ 7］．家庭暴力有多种形式，从身体虐待到精神虐待和言语虐待。受到和实施的虐待类型可能因性别而异，每种类型都对受害者的短期和长期(身心)健康造成影响[ 8- 11］．家庭暴力造成了巨大的经济损失:仅在澳大利亚，2015-2016年针对妇女的暴力行为造成的损失约为222亿澳元[ 2， 3.， 12］．

2017年，新南威尔士州警察部队(NSWPF)在WebCOPS(网络计算机化作战警务系统)中记录了123,330起与家庭暴力有关的事件，该系统为警察系统提供了一个基于Web的界面，使警察能够在整个组织范围内捕获和分析犯罪信息[ 13］．WebCOPS包含家庭暴力事件的详细信息，包括结构化字段(出生日期、土著身份、是否使用武器等)和称为“事件叙述”的自由非结构化文本。一个事件可以包含多个文本叙述，详细描述相关人员(POI)和受害者之间发生的所谓事件、有关事件情况的信息以及警方采取的任何行动。叙事经常没有特定的结构，有各种拼写错误、排版和语法错误，(有时是非正式的)缩略语和缩写词，根据上下文可以有不同的含义[[ 13］．

家庭暴力事件叙述中包含大量关于伤害和虐待类型的重要信息，除非寻求医疗护理，否则在医疗记录中找不到这些信息，尽管即使获得医疗护理也可能不会被标记为与家庭暴力有关。然而，大量的记录数据以及相关的冗长的非结构化叙述，使得通过传统的民族志/定性研究方法(包括目测记录)很难识别潜在的有意义的信息。一篇研究论文最近评论道:“……除了人工审查，没有系统的方法从这些(警察)叙述中提取信息”[ 14］．

之前的工作

需要能够在短时间内自动从大量数据中提取感兴趣的信息的方法。文本挖掘在许多领域已经被用于从非结构化文本中获取信息超过30年，特别是在生物医学领域[ 15- 20.］．最近的努力试图从在线媒体出版物中获取与地雷犯罪有关的信息[ 21- 23]，而处理警方报告的尝试有限[ 13， 24- 28］．以前的工作通过命名实体提取提取姓名、麻醉药品和武器的数据，取得了不同程度的成功(f1得分从46%到81%不等)[ 24， 25]和警方报告事件分类为家庭暴力或非家庭暴力相关，使用无监督聚类技术，正确分类44%的报告留作人工检查[ 26］．其他努力包括通过字典和规则从证人叙述中识别与犯罪相关的信息(如毒品、武器和面部特征)，f1得分从82%到93% [ 27， 28］．最近，Karystianis等人应用了一种基于规则的方法，结合手工制作的字典，从记录在案的家庭暴力事件的警察文本叙述中提取poi和受害者的精神疾病提及，平均一级得分为84% [ 13］．

目的

在本文中，我们研究了文本挖掘方法的应用是否可以从492,393起家庭暴力事件的大规模语料中自动提取虐待类型(由poi进行)和持续的受害者伤害。

方法数据

我们使用了NSWPF提供给研究人员的492,393起家庭暴力事件的语料库，这些事件发生在2005年1月至2016年12月[ 13］．WebCOPS将家庭暴力事件标记为“家庭暴力相关”，对暴力的描述被编码为“家庭暴力”，受害者与POI之间的关系包括以下任何一种:“配偶/伴侣”(包括前配偶/前伴侣)，“男朋友/女朋友”(包括前男友/前女友)，“父母/监护人”(包括继亲/寄养)，“孩子”(包括继亲/寄养)，“兄弟姐妹”，“其他家庭成员”(包括亲属)，或“照顾者”。这些事件包括以下几类:各种类型的攻击;违反暴力拘捕令;杀人;恶意损坏财产;恐吓、绑架、绑架、骚扰等对他人的犯罪行为。这些数据只包括有记录的身体攻击事件，不包括跟踪、性侵犯和年轻的poi案件。

经新南威尔士大学人类研究伦理委员会(参考编号:HC16558)的伦理批准后，NSWPF允许访问这些叙述。由于叙述中包含敏感和个人信息(如姓名、姓氏和地址)，所有处理工作都在NSWPF总部进行。只有去识别、提取的产出被允许带离现场作进一步分析。

我们总共使用了300个叙述用于培训、开发(用于增强规则的性能)和评估目的(各100个)。这些集合在我们之前的工作中有更详细的描述[ 13］．一个假设的去识别叙述显示在图1．

滥用类型分类

我们使用几个来源将特定的虐待类型(即虐待行为的细节)分为九类[ 12， 29， 30.]及44种虐待类型( 表1)．虽然所提供的数据不包括涉及性侵犯和跟踪的家庭暴力事件，但仍有案例在事件中描述了这些类型的虐待。一些非特定形式的暴力(如“殴打”、“拍打”、“攻击”和“剪辑”)被归类为“攻击(未指明)”。中提供了关于滥用类型的更详细的解释多媒体附件1．共检查了17种常见的损伤类型，包括抓伤、擦伤、红痕/记号、撕扯(指甲)、瘀伤、割伤/擦伤、肿胀、肿块、其他、骨折、黑眼圈、断牙、烧伤痕、刺伤、咬痕、疼痛和出血。

图1

一个假想的家庭暴力事件的例子，由新南威尔士州警察部队记录。蓝色高亮的术语表示标注的受害者伤害，黄色高亮的术语表示虐待类型。

表1

虐待的种类和类型。

滥用类别	虐待类型
物理攻击	攻击(未指明)，咬伤，阻塞，窒息，命令狗攻击，拖拽，肘击，试图纵火，塞口，抓，扯头发，头撞，锁头，踢，膝盖，身体限制，拉，拳打，推，抓，摇晃，扇耳光，吐痰，刺，受害者被甩来甩去，肢体扭曲，试图用物体或武器伤害受害者，用物体或武器殴打受害者
威胁	恐吓(通过肢体语言)或明确威胁如果受害者不服从，将对其进行身体伤害、性侵犯和自残
性侵犯	性侵犯(如强奸)
情感/辱骂	当受害者不听话时自残，大喊脏话，以及其他情感/言语虐待
跟踪	跟踪，骚扰，强行闯入
金融滥用	财务控制(例如，不能使用信用卡)
社会滥用	社会限制，防止/限制儿童进入
不保密的	违反家庭暴力法令，追逐，猛扑，其他和拥有个人物品(如电话和车钥匙)
财产损失	财产损失(从损坏物品到损坏房屋或车辆)

基于规则的系统开发概述

我们的方法涉及基于规则的语言表达模式的设计和实现，结合字典术语，在叙事层面上识别虐待类型和受害者伤害。它包括以下步骤( 图2):(1)创建相关词典以识别虐待类型和受害者伤害的提及，(2)设计和实施规则以捕捉上下文中虐待类型和受害者伤害的提及，(3)在每个叙述中聚合多个提及，以达到家庭暴力事件级注释。

字典

我们通过开发22个定制字典( 表2)．这些词典是由第一作者(GK)手工制作的，通过检查描述虐待类型(由poi进行)和受害者伤害的术语和表达的训练和发展集，并由其他两位作者(AA和PS)检查，以确保一致性。我们使用了系统变异(如复数、过去时和现在时)，也包括了常见的拼写错误(例如，“stuck”而不是“struck”、“harassment”和“assalting”)。虽然大多数术语都是名词短语，但在“威胁”词典中，我们包括了由poi发出的口头威胁，并通过改变名词来手动扩展变体(例如，“你的孩子将没有。父亲”变成"你的孩子不会有妈妈:“)和表面表达式( “你的死” “你死”或 “你是死”)。

图2

用于从家庭暴力警察事件叙述中识别虐待类型和受害者伤害的文本挖掘方法的概述。家庭暴力;GATE:工程通用架构;WebCOPS:网络电脑警务操作系统。

表2

手工制作的字典及其各自的大小(包括术语的数量)用于识别虐待类型和受害者的伤害。

字典的名字	大小	描述	例子
解剖学	108	受害者被POI伤害的人体解剖部位^一个	胸部，腿，头，脖子
攻击	18	表示非特定的物理攻击的动词	攻击，剪切，拍打，猛击
尝试	6	这些动词表明了POI对受害者的身体伤害	尝试，瞄准，尝试，尝试
是	4	动词be的现在时和过去时的变化	是，是，是，是
没收	8	用来描述罪犯对受害者的没收行为的动词	没收，抢，抢，抢
损害	22	表示POI的财产损害行为的动词	裂了，烧了，裂了，撕了
学位	14	描述受害者伤口的形容词	肤浅的，广泛的，次要的，主要的
描述	59	描述一个物体的各种属性的术语(多为形容词)，如颜色或材料的类型	黄色，木质，上桌，油炸
家庭	31	表示个体之间关系的各种名词	男朋友，妈妈，爸爸，表哥
第一人称威胁	123	POI对受害者的威胁	"我要杀了你" "我要把你埋了" "我要找到你杀了你" "有人要杀了你"
力	8	用来描述罪犯对受害者进行肢体约束的动词	强迫，固定，固定，保留
位置	15	房子的位置，DV^b事件发生于	厕所，休息室，墙壁，走廊
数量	10	文字中的数字，表示对罪犯的刑事指控的数量	一、二、四、六
对象	174	在DV事件中损坏或使用的各种物体	桌腿，杯子，后门，窗户
芋泥	18	在家庭暴力事件中描述罪犯的术语	被告，相关人员(罪犯)，被告
前提	6	描述住宅的术语	单位、露台、公寓、处所
介词	44	各种介词，暗示死者解剖部位受伤的存在	左下，下，上，前
开始	7	表示犯罪者行为开始或继续的动词	开始，开始，继续，开始
创伤	14	指罪犯对受害者使用的武器/物体造成的伤口的术语	伤口，割伤，创伤，骨折
受害者	19	描述家暴受害者的术语	受害者，受害者，pinop(需要保护的人的缩写)pn (pinop的缩写)
武器	155	犯罪者用来对受害人造成伤害或威胁造成伤害的物品	军刀，手电筒，书，猎枪

^一个POI:嫌疑人。

^b家庭暴力。

规则

我们的规则基于在训练和发展集中确定的语法模式，表明存在虐待类型或受害者伤害。这项工作遵循了我们之前开发的相同的方法[ 13］．句法模式包括固定的句法表达式，作为通过特定动词、名词短语和介词(例如，“开始窒息”)构建的某些元素的锚，以及通过应用手工制作的字典识别的语义占位符(描述受害者的所有可能的同义词，例如“受害者”、“vic”和“pinop”)。我们特别使用了概念枚举，因为它经常出现在训练和发展集(例如，“伤害: 肿的手，疼痛而且左眼下划痕(提到受害者的伤势)”)。

文字工程通用架构[ 31]，一个文本挖掘框架，用于注释和分类文本，实现信息识别，用于创建和应用我们的规则。观察到的语法模式通过Java注解模式引擎(GATE的模式匹配语言)转换为规则。总共创建了64条规则( 多媒体附件2)．

重复提及的消除

事件叙述中可能匹配多个句法模式，并可能涉及一个或多个受害者伤害的虐待类型(可以是重复的)。这导致了对虐待类型和受害者伤害的高度可变提及的提取(例如，“打拳”、“打拳”和“打拳”是同一种虐待类型的变体[“打拳”];“淤青”、“淤青”和“紫痕”都是同一种损伤(“bruising”)的变体。因此，每一个提及都被映射到它的“规范”代表，每一种虐待类型或伤害只被保留一个提及，并用于“标记”家庭暴力叙述。例如，如果在一个家庭暴力事件报告中，我们提取了三次提到的虐待类型“打拳”和两次提到的虐待类型“踢脚”，那么在家庭暴力事件级别上，我们只注释了两种虐待类型——“打拳”和“踢脚”。

结果评价

文本挖掘系统根据100份以前未见过的、随机选择的家庭暴力事件报告进行评估。该集合由第一和第二作者(GK和AA)手动检查和注释，他们确定了虐待和受害者伤害的类型。注释者之间的一致性计算为绝对一致率[ 32为91%，这表明注释是可靠的。该方法的表现在叙事层面进行评估(在消除任何多个特征的提及后)。我们使用标准定义计算了家暴事件水平上的精密度(真阳性的数量与真阳性和假阳性的数量之比)、回忆率(真阳性的数量与真阳性和假阴性的数量之比)和f1得分(精密度和回忆率之间的调和平均值)[ 33］．我们将真积极定义为发现事件中的正确提及;假阳性为提取任何不相关的提及，没有人工注释;假阴性是指我们的方法没有检测到的正确提及;真否定是指我们的方法在没有注释的情况下没有识别任何提及。

结果显示在表3．伤害和虐待类型的f1得分高于85%，这表明与训练组(分别为5.5%和9.6%)和发展组(分别为3.9%和6.7%)相比，结果是可靠和一致的，但下降幅度较小。特别是，虐待类型的精度为90.2%，受害者伤害的精度为85.0%，与发展集相比略有下降(分别为2.6%和5.2%)。以类似的方式，虐待类型和受害者伤害的回忆率分别为89.6%和86.3%，与发展集的值相比，分别下降了5.2%和8.0%。然而，与发展集(n=88)和训练集(n=83)相比，评估集有明显较少的受害者伤害提及(n=66);因此，应谨慎考虑其召回值。

大规模语料库分析

鉴于该方法在识别虐待类型和受害者伤害方面的相对准确结果，我们将该方法应用于492,393起家庭暴力事件的资料库。超过71.32%的事件(351,178)具有报告中提到的已确定的虐待类型，而超过三分之一的事件(177,607;36.07%)包含受害人伤害( 表4)．

在44种虐待类型中，“情感/言语虐待”(117,488;33.46%)是最常见的，其次是“打卡”(86,322;24.58%)和“财产损害”(78,203;22.27%)。共有35.45%(124,498件)的家庭暴力事件只包含一种已确定的虐待类型，而33.83%(118,819件)的家庭暴力事件包含三至五种不同的虐待类型( 表5)．

最常见的损伤类型是“擦伤”(51455例;29.03%)，其次是“切割/磨损”(51,284;28.93%)及“红色标记/标志”(42,038;23.71%) ( 表6)．共有105493起家庭暴力事件(59.56%)只有一种形式的伤害，24.48%(43373起)的家庭暴力事件有两种形式的伤害( 表7)．

表3

该系统在培训、开发和评估集上的表现，用于识别虐待类型和具有真阳性、假阳性和假阴性结果的受害者伤害。

集合与特征		精度(%)	回忆(%)	F1-score (%)	真阳性(%)	假阳性(%)	假阴性(%)
评价
	虐待类型	90.2	89.6	89.8	259	28	30.
	受伤	85.0	86.3	85.6	57	10	9
发展
	虐待类型	92.8	94.8	93.7	310	24	17
	受伤	90.2	94.3	92.3	83	9	5
培训
	虐待类型	93.9	96.3	95.3	293	19	11
	受伤	93.1	97.5	95.2	81	6	2

表4

包含各种虐待类型的家庭暴力事件数量(n=351,178)。

虐待类型	事件，n (%)
攻击(不明)	171323 (48.79)
情感/辱骂	117488 (33.46)
冲	86322 (24.58)
财产损失	78203 (22.27)
恐吓	75662 (21.55)
抓住	66728 (19.00)
推	62794 (17.88)
抓	20493 (5.84)
物理限制	20014 (5.70)
踢	19435 (5.53)
拍打	17474 (4.98)
ADVO^一个违反	16903 (4.81)
企图用物体或武器攻击的	13592 (3.87)
拉头发/拉头发	13048 (3.72)
令人窒息的	11325 (3.22)
随地吐痰	9341 (2.66)
用物体或武器攻击	8387 (2.39)
其他	7135 (2.03)
拉	6373 (1.81)
受害者被扔来扔去	5255 (1.50)
刺	4685 (1.33)
拥有个人物品	3265 (0.93)
阻塞	3163 (0.90)
骚扰	3100 (0.88)
跟踪	2940 (0.84)
自我伤害	2597 (0.74)
咬	2285 (0.65)
拖	2216 (0.63)
摇晃	2098 (0.60)
刺	1903 (0.54)
强行进入	1779 (0.51)
夹头	1482 (0.42)
追逐	1324 (0.38)
跪	1321 (0.38)
矫正	1161 (0.33)
肘击	225 (0.06)
肢体扭曲	173 (0.05)
头撞	148 (0.04)
性侵犯	125 (0.04)
防止儿童访问	91 (0.03)
社会的限制	40 (0.01)
财务控制	29 (0.01)
企图纵火	28日(0.01)
命令狗攻击	1 (0.00)

^一个警告:家庭暴力逮捕令。

表5

家庭暴力事件按虐待类型数量分类(n= 351178)。

滥用类型数目(个)	事件，n (%)
1	124498 (35.45)
2	89342 (25.44)
3 - 5	118819 (33.83)
6 - 9	17951 (5.11)
> 10	568 (0.16)
总计	351178 (100.0)

表6

包含各种伤害类型的事件数(n=177,607)。

伤害类型	事件，n (%)
瘀伤	51455 (29.03)
切/磨损	51284 (28.93)
红色标记(年代)	42038 (23.71)
肿胀	32581 (18.38)
疼痛	26729 (15.08)
其他	19778 (11.16)
出血	19154 (10.81)
骨折(s)	17531 (9.89)
肿块	9482 (5.35)
放牧	7305 (4.12)
黑眼圈(s)	2994 (1.69)
抓	2399 (1.35)
咬痕(s)	2350 (1.33)
刺伤的伤口(s)	2346 (1.32)
烧痕(s)	1382 (0.78)
破碎的牙齿	620 (0.35)
撕掉指甲	7 (0.00)

表7

按受害人伤害类型数量分类的家庭暴力事件(n=177,607)。

伤害类型数量	事件，n (%)
1	105493 (59.56)
2	43373 (24.49)
3 - 4	25678 (14.49)
5 - 6	2484 (1.40)
≥7	89 (0.05)
总计	177117 (100.0)

讨论主要结果

据我们所知，这一分析是第一次尝试利用警方记录的大规模、人口水平的家庭暴力事件语料来捕捉与家庭暴力相关的虐待和受害者伤害。WebCOPS数据库字段的结构化信息没有记录家庭暴力纠纷中poi实施的虐待类型和受害者遭受的各种伤害。因此，我们将重点放在叙述部分，在该部分中，我们的知识驱动方法的应用已经识别出丰富的信息，并有可能用于更好地理解家庭暴力和制定相关的预防干预措施、监测和报告。

我们从文本挖掘中得到的发现，为家庭暴力事件中发生的伤害和虐待类型提供了更详细的描述。在我们的数据集中，最常见的虐待类型是非身体的，涉及“情感/言语虐待”，这与最近的研究结果一致，表明非身体虐待类型比身体虐待更普遍[ 34]而且家庭暴力虐待的受害者比其他人更有可能遭受某些类型的伤害，如割伤和骨折[ 34， 35］．家庭暴力还可以采取多种身体形式，从恐吓受害者到由特定类型的虐待(如“拳打脚打”、“刺伤”和“窒息”)造成严重和严重身体伤害，对身心健康造成短期和长期后果[ 9- 11］．

通过识别各种虐待类型和相关的受害者伤害，有可能通过将这些信息与保健服务机构持有的诊断数据联系起来，制定预防和干预准则，以便对受害者进行监测和监测。也有可能追踪受害者被虐待的任何潜在时间线。此外，文本挖掘方法可以不断更新，以监测趋势并为风险分层算法提供信息，从而推动针对特定群体的家庭暴力预防策略。

随着将家庭暴力纳入世卫组织的可持续发展目标，有必要在这方面进行准确的报告[ 36］．文本挖掘警察的家庭暴力事件叙述可能是获得关于这一主题的非常微妙的信息的来源，包括事件的原因，精神疾病和药物使用在事件中的潜在作用，所犯下的虐待类型，所遭受的伤害，所使用的武器，以及关于关系状态的信息。这一宝贵信息可用于为特定群体提供预防服务的人员制定预防战略，并为卫生保健提供者识别警告信号。最近一份报告显示，在澳大利亚，2012-2013年至2013-2014年期间，每周都有一名妇女和一名男子死于现任或前任伴侣的暴力行为[ 7］．对这一丰富信息的后续分析将旨在研究这些问题，并确定虐待和家庭暴力事件的早期预警信号，这可能有助于预防家庭暴力环境下的杀人事件。

误差分析

虽然对于确定家庭暴力事件趋势的大规模分析的准确性水平是可以接受的，但在个别叙述报告的层面上，虐待类型和受害者伤害仍然存在一些错误。通过检查评估集，我们观察到系统错误地将几个POI伤害的少数实例(5个案例)提取为受害者伤害，因为规则是针对POI触发的(例如， “右肩轻微擦伤(受伤假阳性)的POI”)。在其他情况下(4例)，当受害者伤害实际上指的是财产损害时，却被错误地识别出来，使用的是表示伤害的模棱两可的词语和句法模式组合(例如，"伤害/医疗/财产损害: 桌腿断了[受害者受伤假阳性]”)。在12起家庭暴力事件中，当受害者反击POI时，受害者的任何自卫行为都被错误地提取为虐待类型(例如，“证人介入并抓住了[滥用类型假阳性]POI和把他按倒在地[虐待类型的假阳性]直到他冷静下来”和“……承认她身体上使他[虐待类型假阳性]他回来后推(虐待类型的真阳性)。很少有虐待类型被识别但没有家庭暴力背景的情况(例如，“被告被关在笼子里，他开始的地方踢(虐待类型的假阳性)站在门口，对警察大喊大叫……”)，而其他事件虽然没有发生，但未来可能会发生(例如，“受害者认为，如果她留在住所，她肯定会在那里猛击[虐待类型的假阳性]由被告和可能刺[滥用类型假阳性]”)。

尽管我们根据陈述受害者伤害和虐待类型的通用句法模式设计了规则，但这些规则忽略了有限数量的伤害提及，因为它们没有明确地陈述受害者所遭受的伤害(例如， “红[受伤假阴性]和啃食[受伤假阴性]背部可见，干血(损伤假阴性)在嘴唇上”)。一些例子(8个案例)更加隐式，需要使用一些相关术语(例如，“POI”)进行额外的推断把他的手放在受害者胸骨中间用力[受伤假阴性]导致她疼痛和呼吸短促”)。像这样的案例是大多数虐待类型的假阴性，这表明“抓”和“打”等虐待类型在叙述中可能有相当多的词汇变化，这表明上下文的丰富性。

此外，伴随着受害者姓氏的伤害或虐待类型的提及(6个案例)被排除在我们的规则设计之外，因为如果不使用记录的结构化部分(例如，“xxx有一个鼻子出血[受伤假阴性]”和“xxx喊道言语虐待(虐待类型的假阴性)”)。

限制

我们的文本挖掘系统可能会因为家庭暴力事件中更专业或更明确地提到虐待类型而错过一些案例，因为我们的提取规则是基于仅包含在200个叙述中的信息。尽管包含了所有类型的虐待，但仍有可能在某些情况下，我们可能没有确定明确的类型。评估集中提到的伤害数量相对较少(与其中一种虐待类型相比)可以解释伤害的较低表现。尽管如此，我们基于常见的句法模式设计了我们的规则，将虐待类型/伤害分别归为poi和受害者，以避免产生假阴性;因此，我们的召回率高于所有三个数据集的精度。尽管如此，这种方法能够识别受害者的行为是POI的虐待类型，以及在某些情况下，POI的伤害是受害者的伤害。这表明更具体的设计规则可以解决这个问题。同样，尽管我们包括了最基本和最常见的伤害形式，但仍有一些情况包含其他伤害原因或导致特定伤害的特定虐待类型，这些情况可能已经被排除在我们的方法之外。此外，拼写检查算法的实现可以帮助识别任何拼写错误的滥用类型或伤害，并有可能提高性能。

我们对大量家庭暴力事件的分析结果仅限于虐待类型和受害者的伤害。我们计划将这些信息与有关精神疾病的行政数据收集结合起来使用，以进一步研究精神疾病与家庭暴力之间的联系，并探索虐待类型与性别和受害者伤害之间的关系。在这个跨越10年的大规模数据集中，有精神疾病的家庭暴力受害者是否比没有精神疾病的家庭暴力受害者更容易受到伤害，以确定新的情报。结合人口统计学变量对结果进行进一步分析，可以显示家庭暴力领域数据的有趣方面，从特定群体的患病率和发生率到家庭暴力事件发生(或复发)的风险因素。结合医疗服务接触所造成的临床数据中的受害者伤害，可有助于早期识别受害者受虐待情况并实施干预战略。建模将用于调查POI特征是否可以预测虐待的严重程度，类似地，某些受害者表型是否倾向于特定类型的虐待。

结论

我们证明了一种知识驱动的方法可以用于家庭暴力事件中涉及的虐待类型和受害者伤害的自动提取。表现令人鼓舞，滥用类型和伤害的精度分别为90.2%和85.0%，进一步表明文本挖掘可以用于大规模地从这些非结构化数据中提取有意义的信息。已确定的信息使我们能够确认受害者在家庭暴力中遭受虐待的程度。研究结果可用于支持进一步的公共卫生研究，旨在评估涉及家庭暴力事件的poi的概况，并改变针对虐待受害者的现有干预政策。

多媒体附件1

简要描述所提取的滥用类型。

多媒体附件2

虐待类型和受害者伤害识别的规则示例。

缩写

ADVO

家庭暴力逮捕令

家庭暴力

门

工程通用架构

NSWPF

新南威尔士州警察局

芋泥