医学互联网研究杂志-使用文本聚类对半结构化医疗报告到大规模粪便检查报告的高效数据清理应用:方法学研究

原始论文

¹韩国首尔成均馆大学三星高级健康科学与技术研究所数字健康系

²大韩民国首尔三星医疗中心未来医学研究所统计和数据中心

^3.大韩民国首尔成均馆大学医学院三星医疗中心健康促进中心

⁴Jason TG，首尔，大韩民国

*这些作者贡献相同

通讯作者:

Mira Kang，医学博士

健康促进中心

三星首尔医院

成均馆大学医学院

江南区逸院路81号

首尔,06351

大韩民国

电话:82 2 3410 3882

传真:82 2 3410 0054

电子邮件:mira90.kang@samsung.com

背景:随着基于大数据的医学研究越来越普遍，社会对大量半结构化或非结构化文本数据(如检查报告)的分析兴趣和努力迅速增加。然而，由于排版错误、不一致或数据输入问题，这些大规模文本数据通常不容易用于分析。因此，需要一个高效的数据清洗过程来保证这些数据的准确性。

摘要目的:本文采用文本聚类方法和值转换技术，提出了一种针对大规模医学文本数据的高效数据清理方法，并以医学检查文本数据为例对其性能进行了评估。

方法:本文提出的数据清理过程包括文本聚类和值合并。在文本聚类步骤中，我们建议以互补的方式使用键碰撞和最近邻方法。同一集群中的单词(称为值)将被预期为正确值和错误表示。在值转换步骤中，每个已识别集群的错误值将转换为正确值。我们将这些数据清洗过程应用于1995年至2015年三星首尔医院为寄生虫分析而制作的574266份粪便检查报告。测试了该方法的性能，并与基于单一聚类方法的数据清理过程进行了比较。我们使用了OpenRefine 2.7，这是一个开源应用程序，它提供了各种文本聚类方法和一个有效的用户界面，用于使用共同值建议进行值转换。

结果:共调查大便检查报告116.7104万字。在数据清理过程中，我们发现了30个正确的单词和45个印刷错误和重复的模式。我们观察到有排版错误的单词(98.61%)和排版错误模式(97.78%)的更正率很高。基于总字数，得到的数据准确率接近100%。

结论:我们基于键碰撞和最近邻方法组合使用的数据清洗过程提供了对大规模文本数据的高效清洗，从而提高了数据的准确性。

中国医学网络杂志2019;21(1):e10013

doi: 10.2196/10013

关键字

数据清理；文本聚类；关键的碰撞；最近邻方法； OpenRefine

在包括医疗领域在内的所有行业中，复杂和多样化(结构化、半结构化、非结构化)的数据几十年来一直在急剧增长[1-3.]。虽然大多数健康数据已经数字化，但处理医疗记录(如检查报告或医生的笔记)仍然不容易，因为它们在历史上是基于纸质记录的，生成的数据主要是半结构化或非结构化形式。此外，它们可能包含各种不相同的副本、印刷错误、不一致和数据输入问题[4-7]。

高性能分析需要干净和高质量的数据才能产生可靠的结果[8-11]。因此，为了提高数据质量，获得准确的分析结果，必须优先进行高效的数据清洗[12]。然而，由于印刷错误和重复的不同模式，研究人员在将数据转换为干净和高质量的数据集时通常面临许多障碍。

对于半结构化或非结构化数据的文本分析，我们可以使用付费程序，如SAS内容分类(SAS Institute Inc)或IBM Watson内容分析(IBM) [13，14]。然而，这些项目非常昂贵，而且个人研究人员不容易获得，因为它们主要卖给公司或研究小组。此外，这些课程需要大量的实践和经验。

使用Excel的“删除重复项”功能进行数据清理以前已经做过了，但使用Excel工具清理数据基本上是不切实际的。一些不相同的副本仍然存在，因为当特殊字符或标点符号出现时，它们不会被识别为副本[5，6，15，16]。重复检测工具，如Febrl系统，TAILOR和BigMatch也被用于清洗数据。然而，Febrl有可用性限制，如速度慢，错误消息不清晰，安装复杂[17-20.]。列出的程序对于没有编程和语言功能经验的普通用户来说相当复杂。

许多解释和清理本地数据集的研究人员都是领域专家，不熟悉编程语言[21]。因此，研究人员需要用户友好的清洁工具。OpenRefine可以识别所有类型的字符串并删除重复的字符串，而无需编程的困难，它是一个免费的开源工具。OpenRefine包含以下两种聚类方法:键碰撞方法和最近邻方法。我们在OpenRefine中提出了一种使用这两种文本聚类方法的数据清理过程，以提高半结构化数据的准确性。

我们对1995年至2015年在三星医疗中心进行的574,266份粪便检查报告进行了数据清理。本研究的数据来自三星首尔医院的临床数据仓库DARWIN-C。根据数据清洗过程中提出的图1，我们通过聚类和合并寄生虫名称进行数据清理，并研究其性能。

如在图1，提出的数据清洗流程包括预处理、文本面、系统清洗和手动清洗4个步骤。在预处理中，使用STATA MP 14.2版本的正则表达式函数[，只提取原始文本数据中与寄生虫(如蠕虫或原生动物)有关的名称]。22]。然后将提取出来的单词上传到OpenRefine 2.7上。在文本面步骤中，浏览每个单词的出现次数。

系统的清理步骤包括文本聚类和值合并。以互补的方式使用两种聚类方法(即键碰撞和最近邻)来识别单词集群，每一种聚类都包含一个正确的单词和它的错误表示，这些错误表示具有不同形式的排版错误(称为“错误值”)。键碰撞方法的工作原理是创建一个键的替代表示，该表示只包含字符串中最重要或最有意义的部分，并基于相同的键将不同的字符串聚类在一起。由于键碰撞方法在各种上下文中快速而简单，因此它们经常用于文本聚类。我们在OpenRefine中依次使用了指纹、N-gram指纹、Metaphone3和Cologne phonetic 4种键碰撞方法。最近邻方法(也称为kNN)也广泛用于聚类。这些方法较慢，但更准确，因为它们计算每个值之间的距离。我们依次使用了两种最近邻方法，Levenshtein距离法和OpenRefine中的偏匹配预测法。我们将这两种方法结合起来以提高准确性[23]。

对于每个识别的集群，通过值合并将错误的值转换为正确的词。因为OpenRefine提供了一个方便的用户界面，在每个聚类中按出现频率降序列出正确的单词和错误的值，因此研究人员可以轻松识别正确的单词并进行值合并任务。为“Clonorchis sinensis”在大便检查报告数据中，在同一聚类中发现了多种错误表达，如clonorchis sinesis, clnorchis sinensis, clonorchis cinensis, clonrchis sinensis, clornorchis sinensis (图2）.通过查看单词表，我们能够有效地选择“Clonorchis sinensis作为正确的单词，并迅速决定将所有其他单词转换为“Clonorchis sinensis“在最后一步中，我们会对不属于任何集群的剩余单词进行调查，并在必要时手动清理。

在574266份粪便检查报告中，共调查了1167104个单词，与蠕虫或原生动物名称无关的单词被排除在研究之外。我们发现了30个正确的单词和45种印刷错误和重复的模式(多媒体附件1）.关键碰撞法能够聚类印刷错误和与正确单词重复的模式，除了6个模式。最近邻方法能够聚类印刷错误和与正确单词重复的模式，除了2种模式(表1）.

表1。每种方法无法与正确单词聚类的印刷错误列表。

正确的单词	印刷错误	关键的碰撞	最近的邻居
负	本地的 ‎	✗^一个	✗
负	Negaitve ‎	✓^b	✗
内阿米巴科	Eolimax ‎	✗	✓
内阿米巴科	Endolix ‎	✗	✓
痢疾	Etamoeba ‎	✗	✓
Lamblia	Lamdlia ‎	✗	✓
Lamblia	G.lamblia ‎	✗	✓

^一个排版错误没有与正确的单词结合在一起。

^b打印错误与正确的单词聚集在一起。

表2。每种方法的正确率。

方法	按印刷错误模式数目计算的正确率^一个, %	按印刷错误字数计算的正确率^b, %
关键的碰撞	86.67	91.67
最近的邻居	95.56	97.22
使用这两种	97.78	98.61

^一个更正后的印刷错误模式数除以印刷错误模式总数乘以100(%)。

^b更正的印刷错误字数除以印刷错误字总数乘以100(%)。

单词“native”是所有聚类方法中唯一没有被聚为“negative”的模式，因为这两个单词的不一致率很高(2/6个字符，33%)。除“本机”外，所有印刷错误和重复都正确地聚在一起。当使用这两种聚类方法时，我们获得了98.61%的排版错误单词数和97.78%的排版错误模式数的高正确率(表2）.在系统清理了1167,104个单词的数据后，只剩下1个拼写错误的单词，需要手动修改。因此，基于总字数，系统数据清洗的准确率接近100%。

许多研究者对数据分析方法进行了大量的研究，但对意外排版错误的数据清理方法的研究相对较少[24，25]。很难找到一份定量分析数据清洗方法性能的报告，因为它们通常没有记录，并以非官方的方式使用[24]。本文提出了一种有效的大规模医学文本数据清洗方法，并对其清洗性能进行了研究。虽然存在多种文本分析方法，但对于一般研究者来说，使用这些方法并不容易。大多数方法都不容易使用或在可用性方面有限制。因此，需要更可行和用户友好的方法来清洗大规模文本数据集。

我们使用OpenRefine进行数据清理是因为它有以下优点。首先，个人研究人员可以很容易地访问和使用OpenRefine，因为它是一个免费的开源工具。其次，OpenRefine为研究人员提供了一个简单的界面，可以在没有编程困难的情况下清理数据。第三，人们可以很容易地手动修复罕见的排版错误(这些错误不会自动更正)，并有机会修改假阳性聚类[6，23]。

但是，我们仍然需要花费大量的精力来检查每个聚类结果并决定是否合并，特别是在聚类数量非常大的情况下。此外，OpenRefine还没有正式的技术支持，它由用户论坛或社区提供支持。尽管存在这些限制，OpenRefine仍然是一种有用且有效的支持工具，可用于对半结构化数据进行劳动密集型和耗时的数据清理。

我们的数据清理过程可以应用于其他类型的半结构化文本数据，因为我们观察到组合使用键碰撞和最近邻方法可以产生高效可靠的数据清理。

致谢

本研究由三星医疗中心资助(SMX1170601)。

利益冲突

没有宣布。

‎

多媒体附件1

粪便检查报告中寄生虫名称的模式。

PDF档案(adobepdf档案)，39KB

张艳，邱敏，蔡超，Hassan MM, Alamri A. Health-CPS:云与大数据辅助下的医疗信息物理系统。IEEE系统学报2017年3月11日(1):88-95。［CrossRef］
大数据分析:非结构化数据分析的框架。中国机械工程，2013;26(1):1。
蔡诚，赖诚，蒋美，杨少林。物联网数据挖掘研究综述。IEEE Commun。测量员教程2014;16(1):77 - 97。［CrossRef］
Raghupathi W, Raghupathi V.医疗保健中的大数据分析:前景和潜力。健康科学与科学系统2014;2:3 [免费全文] [CrossRef] [Medline］
Groves A.超越Excel:如何使用OpenRefine开始清理数据。多媒体信息技术2016;201642(2):18-22。
Ham K. OpenRefine(2.5版)。http://openrefine.org。免费的开源工具，用于清理和转换数据。中华医学图书馆杂志2013年7月;101(3):233-234 [免费全文] [CrossRef］
Gallant K, Lorang E, Ramirez a .数字人文的工具:图书管理员指南。2014.URL:https://mospace.umsystem.edu/xmlui/bitstream/handle/10355/44544/ToolsForTheDigitalHumanities.pdf?sequence=1[访问时间:2018-11-14][WebCite缓存］
朱X，伊利亚斯IF。定性数据清洗。2016年9月1日;9(13):1605-1608。［CrossRef］
王磊，琼斯。大数据分析的异类数据。美国智能系统学报2017;20177(2):39-46。［CrossRef］
张松，张超，杨强。数据挖掘中的数据准备。应用Artif Intell 2003年5月6日;17(5-6)2003:375-381。［CrossRef］
Anagnostopoulos I, Zeadally S, Exposito E.处理大数据:研究挑战和未来方向。J supercomputing 2016 Feb 25;72(4):1494-1516。［CrossRef] [Medline］
Rahm E, Do H.数据清理:问题和当前的方法。IEEE数据工程2000;200023(4):3-13。
Chakraborty G, Pagolu M, Garla S.文本挖掘分析:使用SAS的实践方法，示例，案例研究。Cary, NC: SAS研究所;2014.URL:http://support.sas.com/publishing/pubcat/chaps/65646.pdf[访问时间:2018-11-14][WebCite缓存］
Zhu W, Foyle B, Gagné D, Gupta V, Magdalen J, Mundi A. IBM沃森内容分析:从您的内容中发现可操作的见解。美国纽约:IBM红皮书;2014.
张志刚，张志刚。生物入侵管理的研究进展。2013。欧洲有多少海洋外星人https://pdfs.semanticscholar.org/4dbe/0bc865391bd3a6100e112e7046675341ba18.pdf[访问时间:2018-11-14][WebCite缓存］
达拉斯特区，格雷罗A，卡尔迪N，鲍格塞R，班达里A，安德伍德MA，等。对婴儿胃中母乳消化的多肽分析揭示了蛋白质特异性降解模式。中国营养学杂志2014年6月;44(6):815-820 [免费全文] [CrossRef] [Medline］
Hassanien A, Azar A, Snasel V, Kacprzyk J, Abawajy J.复杂系统中的大数据:挑战和机遇，柏林，德国。美利坚合众国纽约市:施普林格出版公司;2015.
引用本文:Selvi P, Priyaa D.使用数据挖掘技术去除重复记录的视角分析:调查。国际工程技术科学与研究1;20163(12):36-41。
王志强，王志强，王志强。基于网络的阿拉伯语/英语重复记录检测方法。2013年发表于:计算机工程与系统(ICCES)，第八届IEEE国际会议;2013;埃及开罗，第313-318页。
Elmagarmid AK, Ipeirotis PG, Verykios VS.重复记录检测:调查。IEEE反式。"。数据工程2007年1月;19(1):1-16。［CrossRef］
Larsson P. courses。cs。washington。edu。2013.URL:https://courses.cs.washington.edu/courses/cse544/13sp/final-projects/p12-plarsson.pdf[访问时间:2018-11-14][WebCite缓存］
Medeiros R.使用正则表达式进行Stata中的数据管理。西海岸Stata用户组会议，Stata用户组2007年:-。
集群深度。2016https://github.com/OpenRefine/OpenRefine/wiki/Clustering-In-Depth[访问时间:2018-11-14][WebCite缓存］
数据清理:超越完整性分析。智商2000:2000 - 2209。
朱晓霞，王洁，王洁，李晓明。数据清洗技术研究进展。2016年发表于:数据管理国际会议论文集。ACM;2016;美国加州旧金山p. 2201-2206。

G·艾森巴赫(G Eysenbach)编辑;提交06.02.18;同行评议作者:W Raghupathi, S Barteit，沈飞，王飞;对作者30.07.18的评论;修订版本于23.09.18收到;接受12.10.18;发表08.01.19

©Hyunki Woo, Kyunga Kim, KyeongMin Cha, Jin- young Lee, Hansong Mun, Soo Jin Cho, Ji In Chung, jeong Hui Pyo, Kun-Chul Lee, Mira Kang。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2019年1月8日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

基于文本聚类的半结构化医疗报告高效数据清理在大规模粪便检查报告中的应用:方法学研究

基于文本聚类的半结构化医疗报告高效数据清理在大规模粪便检查报告中的应用:方法学研究

原始论文

通讯作者:

摘要

关键字

介绍

方法

结果

讨论

致谢

利益冲突

多媒体附件1

参考文献