医学互联网研究杂志-基于web的专家论坛请求自动分类的文本挖掘和自然语言处理方法

原始论文

¹德国乔治-奥古斯特大学全科/家庭医学系，Göttingen

²SAS研究所有限公司企业智能能力中心，海德堡，德国

^3.德国乔治-奥古斯特大学妇产科(生殖医学研究组)，Göttingen

通讯作者:

沃尔夫冈·希梅尔博士

全科/家庭医学科

Göttingen大学

Humboldtallee 38

37070年哥廷根

德国

电话:+49 0 551 39 22648

传真:+49 0 551 39 9530

电子邮件:whimmel@gwdg.de

背景:健康的人和生病的人越来越多地使用电子媒体来获取医疗信息和建议。例如，互联网用户可以向基于网络的专家论坛或所谓的“询问医生”服务发送请求。

摘要目的:使用不同文本挖掘策略的组合，自动对Internet医疗专家论坛的外行请求进行分类。

方法:我们首先手动将德国网站“Rund ums Baby”(“关于婴儿的一切”)上一个自愿不要孩子论坛的988个请求样本分为两个维度(“主题”和“期望”)的38个类别中的一个或多个。在创建了起始和同义词列表之后，我们计算了每个词与每个类别的关联的平均Cramer 's V统计量。我们还使用了主成分分析和奇异值分解作为进一步的文本挖掘策略。通过这些测量，我们训练回归模型，并在最佳回归模型的基础上，确定任何请求属于38个不同类别中的每个类别的概率，临界值为50%。计算测试样本的召回率和精密度作为自动分类的质量衡量标准。

结果:根据对988份文献的人工分类，102份(10%)属于“体外受精(IVF)”，81份(8%)属于“排卵”，79份(8%)属于“周期”，57份(6%)属于“精液分析”。这是主题维度中最常见的四个类别(由32个类别组成)。期望维度包括六个维度;我们将533份(54%)文件归类为“一般信息”，351份(36%)文件归类为“治疗建议”。基于卡方分析和Cramer 's V的指标变量生成在大约一半的类别中被证明是自动分类的最佳方法。结合其他两种方法，在测试样本的38个类别中，有18个(47%)实现了100%的精度和100%的召回率。有35个类别(92%)的准确率和召回率均高于80%。对于某些类别，输入变量(即“单词”)还包括来自其他类别的变量，通常带有负号。例如，缺乏预测“月经”的单词是“怀孕测试”类别的一个强有力的指标。

结论:我们的方法提出了一种自动分类和分析互联网专家论坛中非结构化信息的方法。该技术可以对新请求进行初步分类，并帮助互联网医疗专家更好地处理大量信息，并提供专业的反馈。

中国医学医学杂志，2009;11(3):e25

doi: 10.2196 / jmir.1123

关键字

文本挖掘；定性研究；自然语言处理；消费者健康信息学；互联网；远程会诊；不孕不育

健康人和病人越来越多地使用电子媒体获取医疗信息和建议[1］．互联网用户积极地与他人就他们感兴趣的话题交换信息，或向网上的专家论坛或所谓的“询问医生”服务提出请求。2，3.］．他们希望了解特定的疾病，了解新的治疗方法，或者在决定治疗方法之前征求第二种意见。4-6］．此外，这些专家论坛还代表了用于医疗和/或心理需求的地震仪，这显然是现有的卫生保健系统无法满足的[5，7］．

过去，通过因特网的电子邮件、电子咨询和医疗咨询请求都是通过定量或定性的方法人工分析的[1-6］．为了方便医学专家的工作和充分利用专家论坛的地震学功能，将访问者的请求自动分类是有帮助的。通过这样做，可以将特定的请求定向给适当的专家，甚至半自动地回答，从而提供全面的监控。通过生成“常见问题”(FAQs)，甚至在专家回复之前，就可以对类似的患者请求及其相应的答案进行整理。基于机器的分析可以帮助公众更好地处理大量信息，也可以帮助医学专家提供专业的反馈。此外，这种方法可用于帮助决策者认识到人口的健康需求[8］．

文本挖掘[9是一种对大量文档自动分类的方法，可以应用于当前的问题。这种技术通常由有限的步骤组成，例如将文本解析为单独的单词，查找术语并将其简化为基本内容(“截断”)，然后是分析程序，例如聚类和分类，以在结构化数据中导出模式，最后是对输出进行评估和解释。典型的文本挖掘任务包括文本分类、概念/实体提取、情感分析和文档摘要。这项技术已成功应用于自动索引、确定和分类消费者投诉，以及处理以电子邮件发送给公司的地址要求更改。文本挖掘也用于基因组分析、媒体分析，以及大型数据库中用于检索目的的文档索引[8-11］．

对医学专家互联网论坛的外行请求进行自动分类是一项挑战，因为这些请求可能很长，而且由于混合(例如，个人经验和实验室数据)而没有结构。很多时候，人们只是需要心理上的帮助或寻求情感上的安慰。这种不同的请求样本出现在德语的“希望有个孩子”一节中Rundums Baby(关于婴儿的一切)网站[12，为父母、准父母和不育夫妇提供信息。

虽然非自愿无子女不是本文的重点，但对这种情况的一些介绍性说明可能会有所帮助。导致非自愿不育的不孕症被定义为一对夫妇在一年或更长时间的定期、无保护措施的性交后无法受孕或足月怀孕。不育夫妇可能会经历不同的反应和感受阶段，包括震惊、惊讶、愤怒、无助和失控。失败、尴尬、羞愧和污名化的感觉可能会导致社会孤立和夫妻之间沟通的中断，包括抑郁反应、焦虑、情绪不稳定、自信心下降、性问题和冲突[13］．

绝大多数男性不育症是由于精子数量低，通常与运动性差和异常精子率高有关。然而，在大量患者(25%至30%)中，无法确定问题的原因。女性不孕的主要原因是卵巢功能障碍和输卵管和子宫的紊乱。通常，在一个病人身上可以发现两种甚至全部三种病因。1980年以前，由于精子质量低而导致的不孕症的治疗方法是用患者自己的精子或捐赠的精子进行授精。随后是20世纪80年代早期的体外受精(IVF)和90年代早期的胞浆内精子注射(ICSI)。ICSI只需要一个活精子[14］．

像许多其他情况一样，非自愿不育通常不是由一个因素引起的，也不能总是通过单一的治疗方案治愈。病人和医生都经常面临这样一个事实:他们找不到不生孩子的理由，而且对某个特定病例的治疗对有类似问题的人或夫妇没有帮助[15］．除了原因本身，其他因素，如女性的年龄或双方共同的问题，也可能影响治疗的选择。因此，非自愿不育的患者/夫妇使用互联网获取有关他们不孕不育的信息似乎是必然的[6］．

向医学专家论坛(如“希望有一个孩子”)提出的请求可以根据(1)主题或(2)发件人的期望进行分类(例如，收到当前治疗方案的摘要[第二意见]，获得关于某种疾病或生物过程的一般信息，或询问在哪里寻求适当的医疗帮助的建议)。第一个方面对医学专家来说非常重要，以便他们能够了解请求的内容，而公共卫生专家则对后者感兴趣，以便分析民众的信息需求。

我们进行了初步试验，使用标准文本挖掘软件(如SAS提供的软件)自动对这些请求进行分类。16，17］．然而，我们第一次试验的结果令人失望，因为分类的质量，以精度和召回率来表示，没有超过60% [18］．

为了充分利用复杂数据的文本挖掘，不同的策略和这些策略的组合可以改进自动分类。本文的目的是提出一种自动分类医学专家论坛请求的方法，并评估其性能质量。这种方法的一个特别重点应该是它的灵活性，允许精确和与内容相关的专家知识的输入。

设置和数据

该分析是基于从德语“希望有个孩子”一节中收集的请求样本Rundums Baby网站[12］．在这个部分，参观者可以参加医学专家论坛，并就非自愿不育提出问题。请求和答案在网站上公开发布。这些对话的结构类似于克利夫兰诊所基金会的心脏论坛[19］．

该网站的访问者通过基于网络的界面直接向一组医学专家提问。目前，专家小组由八名妇科、泌尿科、男科和/或胚胎学专家组成。她们有的在门诊部工作，有的在生殖诊所工作，有的在大学医院工作。因此，专家论坛有能力在困难的情况下提供医疗建议，帮助做出正确的决定，提供第二种意见，或者在某些情况下，甚至满足医生无法满足的心理需求。这些专家以荣誉(无薪)的形式工作。

迄今为止，专家论坛收到了1.2万多份请求，并在网站上发布。从这些请求中，我们随机选择了988个样本，并手动对其进行分类，以提供良好的培训和评估基础。

手工分类

类似于Shuyler和Knight [20.]，他从几个维度(主题、目的、关系)分析了骨科网站的问题，我们决定将这些请求分为两个维度。第一个维度("主题")包括32个类别(例如，评估怀孕症状或关于人工授精的信息)。第二个维度(“期望”)包括六个不同的类别，描述了发送者的目标或目的(例如，情感安慰或关于治疗方案的建议)。

从分类过程的最开始，很明显，许多请求属于一个主题事项类别，但适合第二个维度(“期望”)的多个类别。例如，一位访客要求专家对精液分析的结果发表评论，同时，他或她想要一些建议，是否应该换医生。我们决定为每个请求提供尽可能多的类别。在第一个维度(“主题”)中，这种要求可以归类为“精液分析”，在第二个维度(“期望”)中，可以归类为“讨论结果”和“治疗方案”。

其中两位作者(HWM, WH)独立地手动对第一组100个请求进行分类。由于不同结果的比率很高，我们更精确地定义了类别，添加和删除了一些类别，并同意使用多个类别。然后我们对另外100个请求进行分类。这一次，只有12个案例出现了强烈的分类差异，比如每个作者将文本划分为不同的类别。还出现了一些小的差异，例如除了一个作者提出而另一个作者没有提出的附加类别之外，所有类别都一致。根据重叠类别的kappa统计，这导致了0.69的一致程度[21］．在进一步讨论和改进类别之后，最终达成了完全一致，然后HWM再次手工编码了前200个请求，然后是剩余的788个请求。用于分类的两个维度的最终类别显示在表2，在“结果”部分给出。

表1。术语和家长

条款^一个	父母
月	月
个月	月
每月	月
所有月份(如一月、二月)	月
所有缩写(如Jan.， Feb.)	月
子宫	子宫
子宫milleu	子宫
utterus	子宫
子宫	子宫
在子宫内	子宫
子宫	子宫
肾上腺	肾上腺
温度	温度
温度	温度
temp。	温度
体温	温度
温度测量	温度
所有温度(如37.3°C)	温度
超声波	超声波
超	超声波
超声波	超声波
u-sound	超声波
声音	超声波
扫描	超声波

^一个单个单词、多词术语、同义词、缩写、拼写错误等的例子都是从原始德语数据翻译而来的。

自动分类准备

为了自动分类，我们创建了一个数据集，其中包含来自每个请求的文本作为单独的观察。然后将文本解析为单独的单词或名词组。“解析”需要几种技术:(1)将文本分离为术语(如“子宫”)或多词术语(如“子宫milleu”)，(2)将日期的不同格式标准化(如26/02/2008;(3)同义词的识别，(4)动词、名词或(在德语中)形容词词根形式的词干(如“转移”、“转移”、“转移”)。SAS Text Miner等程序自动执行此操作，并提供文本中出现的所有单词、名词组等的完整列表。两位首先手工对请求进行分类的作者形成了一个详细的起始列表[16]以包括所有相关的实义词，甚至包括拼写错误的单词和缩写。由于我们关注的是这些词，所以问候语和虚词(如“hello”、“the”或“of”)不包括在内，因此对分类没有影响。下一步，我们对相似的术语进行聚类，创建4109组称为“父母”的术语(例如，请参见表1)．最终的数据集是一个大表，由998行(每个分析的文档对应一行)和4109列(每个父列对应一列)组成。研究人员分析了每个文档中的单词，以记录每个父母在文本中出现的频率。

文本挖掘的策略

为了减少由988行和4109列组成的最终数据集，我们使用了三种技术(作为不同的文本挖掘程序):(1)基于Cramer 's V的指标变量，(2)主成分分析(PCA)和(3)奇异值分解(SVD)。第一种策略是由作者提出的。第二种策略使用第一种策略中的指标变量作为PCA的输入。第三种策略使用了来自SVD统计软件的标准程序，SAS Text Miner (SAS, Carey, NJ, USA)。

克莱姆V

我们计算了4109个“父母”与每个类别的关联的平均克莱默V统计量，以及随后生成的指标变量，这些指标变量和每个类别的所有重要单词的克莱默V系数。克莱默V是一种基于卡方的衡量名义变量之间关联的方法，“1”表示完全正相关，“0”表示根本没有关联。这些系数是根据文本的长度(即字数)进行标准化的。包含父项克拉默氏V的选择标准是对应卡方检验的错误概率。显著性水平分别为1%、2%、5%、10%、20%、30%、40%，每类有7个指标变量。

主成分分析

我们通过主成分分析，将每一类不同显著性水平的7个指标变量简化为5个正交维度。PCA将一些相关变量转化为几个不相关变量[17］．每个主成分都是原始变量的线性组合，其系数等于相关的特征向量。PCA可以通过保留对数据集方差贡献最大的特征来用于数据集的降维。数据被转换到一个新的坐标系统，使得数据的任何投影的最大方差位于第一个坐标(称为主成分)，第二大方差位于第二个坐标，依此类推[22］．

奇异值分解

500维SVD是基于SAS文本挖掘软件的标准设置[23］．如前所述，为了理解SVD，所有请求的整个文本可以被可视化为一个由术语矩阵组成的文档。通过列出给定文本中每个术语的出现频率，每个请求的文本(行)被分为其父术语(列)。文档表示为长度为m的向量，其中m是文本中索引的唯一术语的数量。原始文档按术语矩阵被转换或分解为更小的矩阵，从而创建因子空间。SVD投影是术语×文档频率矩阵中一行或一列奇异值的线性组合。大量的SVD维度通常以更好的方式总结数据，但需要大量的计算资源[24，25］．

统计分析

样本被分成75%的训练数据和25%的测试数据。基于我们的预测变量(即每个类别38×7 Cramer 's V指标，每个类别38×5主成分，以及大约500个svd)，我们训练逻辑回归模型来预测类别。然而，如果将所有这些预测变量都用于回归模型，则不太可能检测到任何显著变量，因为其中许多变量是高度相关的。因此，我们选择了一个更合适的建模方法，逐步逻辑回归。预测变量的选择是通过自动程序进行的。

为了评估最合适的分类模型，我们使用了以下选择方法:(1)赤池信息标准，(2)施瓦茨贝叶斯标准，(3)训练数据的交叉验证错误分类(去掉一个)，(4)训练数据的交叉验证错误(去掉一个)，以及(5)基于对阳性案例数量单独调整的变量显著性水平的变量显著性。有关这些选择标准的更详细描述，请参阅Beal [26］．

我们为每个目标类别、每个选择标准和每种类型的输入变量(Cramer 's v，主成分，SVDs)训练一个逻辑回归。这导致了1369个逻辑回归模型。多媒体附录中的详细说明和表格使这个过程更加透明。对于最后的回归，我们使用元模型，该模型对38个类别中的每个类别都证明是最好的。

完整的训练过程产生了一个自动的方法来评估来自训练样本的请求和新请求。相应的软件程序称为得分代码。这个得分代码是一个函数，它为任何文本(请求)生成属于38个不同类别中的每个类别的概率。

为了评估我们方法的准确性，我们计算了召回率和精度作为信息检索和文本挖掘的标准统计数据。精度是正面预测正确的百分比(即一种特异性)，而召回率是给定类别的文档被检索到的百分比(灵敏度)。我们计算了最大f测量值[27］．为了确定我们的方法是否在主题维度或期望维度上产生了更好的精度和召回率结果，我们比较了两个维度之间的精度和召回率的宏观平均值[28］．所有统计分析均采用SAS 9.1 (SAS, Carey, NJ, USA)。

手工分类

表2显示我们对988个文档进行手工分类的结果。共有102份(10%)文件属于“体外受精(IVF)”类别，81份(8%)文件属于“排卵”类别，79份(8%)文件属于“周期”，57份(6%)文件属于“精液分析”。这是主题维度中最常见的四个类别(由32个类别组成)。期望维度包括六个维度;我们将533份(54%)文件归类为“一般信息”，351份(36%)文件归类为“治疗建议”。

表2。自动分类质量

维	请求不。	培训/验证	验证数据
		比	精密%^一个	记得%^一个
主题
堕胎	40	30:10	91	One hundred.
磨损	13	9:4	One hundred.	One hundred.
避孕药	23	17:6	One hundred.	One hundred.
指控	25	18:7	One hundred.	One hundred.
clomifen	26	19:7	One hundred.	One hundred.
低温转移	13	9:4	One hundred.	75
周期	79	59:20	80	86
囊肿	16	12:4	One hundred.	One hundred.
子宫内膜异位	11	8:3	75	One hundred.
输卵管检查	19	14:5	One hundred.	One hundred.
习惯性流产	17	12:5	One hundred.	One hundred.
激素	36	27:9	78	78
受精	29	21:8	One hundred.	One hundred.
intermenstrual出血	14	10:4	One hundred.	One hundred.
试管婴儿	102	76:26	81	88
黄体相缺陷	25	18:7	88	One hundred.
医疗药物	47	35:12	92	One hundred.
月经	35	26:9	90	One hundred.
倍数	7	5:2	One hundred.	One hundred.
物理疗法	33	24:9	90	One hundred.
营养	9	6:3	One hundred.	One hundred.
输卵管	16	12:4	One hundred.	One hundred.
排卵	81	60:21	90	86
PCO	27	20:7	One hundred.	One hundred.
怀孕的症状	36	27:9	One hundred.	One hundred.
妊娠检查	30.	22:8	88	88
怀孕的担忧	49	36:13	One hundred.	92
精液分析	57	42:15	88	93
性交	14	10:4	One hundred.	One hundred.
性交，问题	5	3:2	One hundred.	One hundred.
刺激	40	30:10	63	One hundred.
甲状腺	13	9:4	One hundred.	One hundred.
预期^b
目前的治疗	331	248:83	85	72
结果讨论	310	232:78	86	82
情绪	90	67:23	One hundred.	61
一般信息	533	399:134	92	84
自身情况解读	242	181:61	78	69
治疗方案	351	263:88	82	81

^一个为了计算查全率和查准率，我们首先根据以下选择标准选择最佳模型:赤池信息标准、施瓦茨贝叶斯标准、训练数据的交叉验证错分类、训练数据的交叉验证误差;然后通过F-measure确定召回率和精密度之间的最佳妥协。

^b可能有多种类别。

自动分类

我们使用不同的选择标准来寻找用于训练和验证的最佳回归模型。在大约一半的类别中，基于卡方分析的指标变量生成被证明是自动分类的最佳方法。其他类别的最佳预测方法是PCA或SVD。统计细节显示在多媒体附录。在验证样本的38个类别中，有18个类别实现了100%的精密度和100%的召回率表2)．准确率和召回率最低的分别为75%和61%。平均而言，期望维度的准确率和回忆率(分别为78.2%和74.8%)略低于主题维度(分别为93.6%和96.4%)。

表3而且表4举例说明卡方分析的威力和局限性。表3列出“一般信息”类别中最重要的单词。有趣的是，“一般信息”这一类别的前50个单词几乎都是负相关的。这意味着，例如，单词“注入”是一个强烈的指示符，说明包含这个单词的文档不属于这个代码。第51个单词(“肥沃的”)是第一个带有阳性克拉默氏V的单词;它代表了一个关于月经周期中可受孕天数的典型问题。对于几乎所有其他类别，最具预测性的词汇都与相应类别呈正相关。

表4列出“输卵管”和“输卵管检查”类别中最重要的单词。这些类别被单独列出，因为“输卵管”主要与一般生殖医学的外行请求有关，而“输卵管检查”则与有关具体治疗或治疗方案的问题一起使用。一些预测性词汇(如“管”、“输卵管”、“水平”)在这两类词语中是相同的。例如，单词“tube”出现在我们手工分类为“oviduct”的所有请求中(n = 16)，显示出很强的预测价值(Cramer的V为0.44)。然而，这个词也出现在79%的被归类为“检查输卵管”的请求中(n = 19)。Cramer的V值也很高(0.37)，这也表明这个词对“检查输卵管”有很强的预测价值。在这种情况下，只有Cramer 's V统计量的总结作为一个指标变量才能保证较高的精度和召回率，而不是单独的一个单词。

对于某些类别，输入变量还包括其他类别的变量，通常带有负号。例如，“怀孕测试”的元模型包括一个带有负号的“月经”类别预测的单词样本(作为指示变量)。这意味着缺乏预测“月经”的词语是“怀孕测试”类别的一个强有力的指标。

对于其他类别，考虑发送方的期望也有助于对请求进行更好的分类。例如，“激素”的元模型包括相关术语的总和(基于克莱默V)，以及表明期望更多地了解自己的情况或解释实验室数据的重要术语(两者都带有消极迹象，意味着除了其他指标外，缺乏这些期望也是“激素”的指标)。

表3。“一般信息”类别中最具预测性的词汇

词	频率,没有。（％）		克莱姆V	P
	在“一般资料”	其他类别
x染色体	70 (13)	143 (31)	−0.22	<措施
注射	17 (3)	68 (15)	−0.21	<措施
utrogest	7 (1)	45 (10)	−0.19	<措施
clomifen	32 (6)	82 (18)	−0.19	<措施
开	10 (2)	45 (10)	−0.17	<措施
写	21日(4)	59 (13)	−0.16	<措施
地中海	45 (8)	88 (19)	−0.16	<措施
药物	24 (5)	59 (13)	−0.15	<措施
药丸	20 (4)	53 (12)	−0.15	<措施
价值	48 (9)	88 (19)	−0.14	<措施
(地方11-50)
肥沃的	36 (7)	44 (10)	0.12	<措施

表4。对“输卵管”(总请求数= 16)和“输卵管检查”(总请求数= 19)这两个类别最有预测性的词

类别	出现此词的请求^一个	克莱姆V	P
词	不。（％）
“输卵管”(n = 16)
管	16 (100)	0.44	<措施
输卵管	16 (100)	0.44	<措施
删除	8 (50)	0.40	<措施
异常	2 (13)	0.35	<措施
走了	8 (50)	0.29	<措施
链接	7 (44)	0.28	<措施
移动	1 (6)	０．２５	<措施
消灭	1 (6)	０．２５	<措施
不合适的	1 (6)	０．２５	<措施
冲销	1 (6)	０．２５	<措施
分泌	1 (6)	０．２５	<措施
疤痕	1 (6)	０．２５	<措施
机会	1 (6)	０．２５	<措施
专利	1 (6)	０．２５	<措施
开放	1 (6)	０．２５	<措施
考虑	1 (6)	０．２５	<措施
广泛的	1 (6)	０．２５	<措施
附件	1 (6)	０．２５	<措施
放弃	1 (6)	０．２５	<措施
减少	1 (6)	０．２５	<措施
输卵管妊娠	4 (25)	0.24	<措施
内窥镜检查	7 (44)	0.21	<措施
水平	8 (50)	0.21	<措施
“输卵管检查”(n = 19)
管	15 (79)	0.37	<措施
输卵管	15 (79)	0.37	<措施
腹腔镜检查	11 (58)	0.35	<措施
内窥镜检查	12 (63)	0.35	<措施
x射线	3 (16)	0.34	<措施
血管造影术	2 (11)	0.32	<措施
检查	4 (21)	0.32	<措施
水平	12 (63)	0.30	<措施
可渗透的	4 (21)	0.27	<措施
胃	11 (58)	0.27	<措施
hsg集团	2 (11)	0.26	<措施
结构	12 (63)	0.23	<措施
周期	1 (5)	0.23	<措施
坚持	1 (5)	0.23	<措施

^一个这个表中的一些词只出现了一两次(如“move”)，但在其他任何主题类别中都没有出现过。因此，它们仍然具有预测能力(具有显著的Cramer 's V)。

自动分类和人工分类的比较示例

为了更生动地描述我们的方法的结果，我们展示了一些访问者的要求，包括我们自己的手动分类和自动分类(为落入特定类别的概率设置评分值)表5)．第一个例子是一个非常短的请求，发送者想知道一个短周期是否会由特定的激素引起。自动分类没有找到请求的中心主题，可能是因为术语“催乳素水平”(prolactinspiegel)没有被识别为“激素”。概率最高的主题类别是“周期”，只有2%的概率，这意味着没有自动分配分类。在另外两个例子中，我们所有的手动代码都被自动分类识别了。这也是大多数其他请求的情况，代表了我们的方法的高度敏感性。

在一些情况下，也在两个例子中提出的表5，自动分类有时不仅对正确的学科类别给出高分(由作者决定)，而且对其他学科类别也给出高分。在第二个例子中，“刺激”得分很高(除了正确的“试管婴儿”)，而在第三个例子中，“克罗米芬”和“刺激”类别得分很高(与正确的“多重”类别一起)。因此，作为特异性衡量标准的精确性并不总是完全令人满意。其中一些额外的分类，如第二个和第三个例子中的“刺激”，是由请求中的“刺激”一词或其他误导性词语引起的。虽然自动分类中的附加类别并不完全正确，但它们也不完全错误。在这三个例子中，我们根据发送者的期望进行的分类被具有不同概率的自动分类所证实。只有在最后一个例子中，自动分类也选择了“治疗方案”，事实上这并不是完全错误的。

表5所示。访问者请求示例及其分类

在经历了漫长的前半周期(14-20天)后，后半周期只需要8天。这可能是因为催乳素水平升高(我还在喂奶)吗?非常感谢您的回答，【姓名】专家分类:激素;一般信息;目前的治疗自动分类:周期(2%);一般情况(99%)，目前治疗情况(97%)
我们正处于第二个试管婴儿周期的中期。在我们的第一次卵泡穿刺(第一次体外受精)中，只有一个输卵管被穿刺[原文如此]。第二个藏在子宫后面。然而，当时的增产方案[n]相当高。在当前的周期中，我受到了体贴的刺激。因此，只有11个卵泡生长。起初，我关于刺激期间的体育活动的问题得到了“没有问题”的回答。在另一次询问后，我被告知我应该在刺激的第8天之后停止打羽毛球。然而，游泳不是问题。因为打羽毛球，可能会发生输卵管扭转。 Today, follicular puncture took place. For the last time, I played badminton on day 8 of stimulation (only half out) but went swimming up to day 11 of stimulation (but not as “hard” as usual) because, supposedly, this should not have any effect. 专家分类:IVF;一般信息;目前的治疗自动分类:IVF (99%);刺激(68%);基本信息(99%);当前治疗(97%)
现在，我正处于第二个授精周期(用Puregon 50和克罗米芬刺激)。今天，在月经周期的第12天，可以看到4个大卵泡。现在我要决定是停止排卵还是进行人工授精。你对多胞胎的风险有什么看法?我接受双胞胎，但不接受三胞胎。我很纠结....一方面我想抓住机会怀孕，但另一方面我又害怕多胞胎。请告诉我你的意见。因为你有经验，你也许能更好地判断这件事。谢谢你的回答。 Sincerely yours, [Name] 专家分类:多重;一般信息;目前的治疗自动分类:倍数(98%);clomifen (68%);刺激(54%);一般情况(67%);目前治疗(98%);治疗方案(53%)

不同文本挖掘策略的组合可以将医学专家论坛的请求分为38个类别中的一个或多个类别，代表主题或发送者的期望。这种联合策略在几乎所有类别中都产生了80%以上的准确率和召回率。即使在最糟糕的分类中，这一比例也至少在60%以上。

研究意义

为了评估这些结果，应该考虑这种文本挖掘过程的特殊特性。要分类的文件很复杂，有时相当长，最重要的是，不仅需要根据内容分类，还需要根据他们(有时是潜意识的)期望分类。我们能够证明，不同文本挖掘过程的组合优于单一方法。有两个因素特别有助于这一成功:(1)详细的起始列表和(2)卡方统计、主成分分析和SVD方法的结合。这些因素反映了Balbi和Meglio报告的建议和经验[29)，他们根据数据的“性质”建立了特定的文本挖掘策略。

创建良好的开始(或停止)列表对于获得有效和有用的结果是必要的，全面的领域知识对于首先创建合理的列表是必不可少的。这里描述的清单包含了非自愿无子女领域宝贵的专家知识。在其他医学领域创建同义词列表也可以成为在其他互联网论坛中成功挖掘文本的强大工具，这似乎是合理的假设。在他们关于预测数据挖掘的大量论文中，Bellazzi和Zupan [30.]强调了领域专家可以用于建模方法的额外知识的重要性。当用于生成指示器变量时，这个起始列表展示了它的全部潜力，这些变量为每个请求和每个类别的重要单词汇总了所有Cramer的V值。通过这种方式，我们避免了高估单个单词的预测能力的危险，特别是当单词被否定时(例如，“我对试管婴儿不感兴趣”或“我的周期不正常”)。

几乎所有预测“一般信息”类别的词汇在卡方统计中都呈负相关。这似乎是我们内容相关方法的“完美”发现和证据，因为例如，任何注射治疗都属于“治疗方案”、“解释”或“当前治疗”类别，而不是“一般信息”类别。正是缺乏技术术语或先前调查的结果来定义这一类别。

专家通常以二分法对请求进行分类，例如我们分析的那些请求(即，它们属于或不属于各自的类别)。与此相反，使用类似于本文中提出的评分系统的自动分类给出了任何给定请求落入任何类别的概率。特别是在复杂文本的情况下，将其划分为多个维度和多个类别似乎是合适的。我们为评分系统定义了50%的临界值(也就是说，我们定义了一个请求，如果各自的分数超过50%，就归入一个类别)。同时，可以根据分析的目的来改变截止点。例如，如果我们对识别可能的健康需求感兴趣，50%的截断值可能有助于提高召回率(敏感性)，这样我们就不会错过相关请求。如果我们对分类要求的高精度(即分类的专一性)感兴趣，从而支持专家的工作，那么更高的分界点可能是合理的。我们的分析程序允许简单地分配不同的截止值。

还有另一个原因，为什么这种评分程序似乎足够，甚至优于二分法的专家分类。当我们分析发送者的期望时，我们通常会遇到不同期望的混合。在许多情况下，我们将请求划分为几个期望维度。从直观上看，这似乎更好地用本文所介绍的评分程序来表示。甚至我们在手动程序中使用的分离(间断)类别的主题分类也可能不像在许多请求中看起来那么清楚。一个给定的请求也很可能涉及多个主题，如中的示例所示表5，因此在这些情况下，一个允许重叠类别的评分程序似乎是最合适的[6，20.］．相比之下，大多数研究，即使他们使用了一个多维分类方案，如Shuyler和Knight [20.]，每个维度只允许一个类别。

由于SVD是一种强大的自动分类方法，在大约四分之一的实例中，这种方法被证明是预测类别的最佳方法，这似乎是很合乎逻辑的。然而，有时不愿意使用基于svd的分类策略，因为这一过程只能在有限的程度上控制[31］．换句话说，基于SVD的文本挖掘是一个无法被有意识地监控的过程。作为一种黑盒，它自动在后台运行，我们必须依赖于这个过程的有效性。相反，根据Reincke [31]，数据挖掘过程应该映射到一个连续的IT流，该流控制来自原始数据、清理聚合和转换、分析建模、操作评分以及最后但并非最不重要的最终部署的整个信息。从这个意义上说，我们的分析实际上要透明得多，正如中给出的预测词的情况所证明的那样表3．也就是说，我们的分析不仅产生了良好的精度和召回率，而且还为我们提供了分析过程的完整视图，从而有助于人脸有效性。

在过去的十年里，医学界见证了新的发展，病人往往通过采用增强自身能力的策略，成为自己的专家[32]，并经常得到互联网的支持[33，34]以电子邮件谘询服务进行病人与照顾者的电子沟通[35］．能够利用所有这些潜在信息的一个关键因素是时间。互联网是一个快速的媒介，当问题几天得不到回答时，用户会感到失望，甚至可能重新发送他们的查询，正如Marco et al [3.他们对艾滋病和肝炎的网上调查很有经验。本文提出的复杂技术解决方案可以有效地帮助医学专家提前处理请求的信息需求，并加快响应时间。一旦了解了信息需求，就有可能找到以前类似的请求，使专家能够有效地利用他们以前的答案。因此，这项技术既可以使专家迅速回答请求，又可以减轻他们的工作量。

作为我们方法的另一个优点，我们要强调我们全面的类别清单。迄今为止，对电子邮件请求的分析[5，6他们试图将这些请求或多或少地简单分类，特别是为了更多地了解信息需求和专家可能的工作量。相比之下，我们在信息需求的分类上要具体得多，有32个类别代表主题维度。这种详细的分类正是专家们需要的，如果基于机器的分析是支持他们的工作。

本研究的局限性

可以改进根据发送者的期望对请求进行分类的办法。这一过程不是最佳的，可能是由于对特定患者期望的定义有些模糊，如果卫生专家要对人群的健康需求做出结论，这就需要改进。然而，主题分类的整体性能似乎已经足够，以至于在这个医学领域，半自动回答发件人的请求可能是未来一个现实的选择。

未来的考虑

我们认为在不久的将来，我们的文本挖掘过程将有三个相关的应用:

如果我们的评分程序在进一步的测试中被证明是成功的，它可以被集成到Rundums Baby网站，方便专家使用半自动答案建议，在分类精度较高的情况下，直接自动回答患者[36］．对文本进行多维分类，就像我们的方法一样，可能特别适合于这个目的，因为我们不仅可以识别简单的内容(即主题)，还可以识别发送者的期望，就像隐藏的潜台词一样。
对所有累积的请求进行评分程序的回顾性应用将允许将它们映射到不同的类别，从而提供一个客观的历史地震仪，并允许更好地理解当前医疗保健系统尚未满足的医疗和心理需求。
评分数据库构成了一个复杂的常见问题解答网页的基础，该网页不像通常情况下那样解决专家认为最重要的问题和问题，而是更面向访问者和患者的真正需求。

我们不知道有任何研究试图分析互联网论坛上类似复杂的文本。因此，需要进一步的研究来比较和完善我们的方法。然后，还可以确定文本挖掘策略的哪些方面(基于专家的同义词列表或不同策略的组合)对自动分类的成功最重要。

结论

我们的分析提出了一种分类和分析复杂文档的方法，为政治家、管理员、研究人员和/或顾问提供重要而有效的信息源。在非自愿不育的情况下，通过这个互联网专家论坛，不仅可以满足患者的信息和健康需求，还可以对这些需求进行长期分析和跟踪。这些技术对于分析来自其他互联网健康论坛、聊天室或向医生发送的电子邮件请求的大量文档样本似乎也很有前途。

致谢

我们感谢Rund ums Baby网站的运营者Ulrich Schneider允许我们使用这个论坛的数据，也感谢网站管理员Christian Schulz提供的技术支持。此外，作者要感谢Stephanie Heinemann，她仔细阅读并与作者讨论了这篇手稿的许多草稿，并帮助他们尽可能准确地表达了他们的想法和结果。

利益冲突

HWM是Rund ums Baby论坛的名誉专家之一。UR是德国SAS研究所的员工，在企业智能能力中心工作。

‎

多媒体附件1

自动分类统计细节(说明)

PDF档案(adobeacrobat)， 824kb

‎

多媒体附件2

自动分类统计明细(表)

PDF档案(adobeacrobat)， 1.5 MB

Umefjord G, Sandström H, Malker H, Petersson G.基于互联网的医学文本咨询:一项4年的研究。国际医学杂志2008年2月;77(2):114-121。［Medline] [CrossRef］
Umefjord G, Hamberg K, Malker H, Petersson G.使用包括家庭医生在内的基于互联网的询问医生服务:通过网络调查评估。秘法实务2006年4月23日(2):159-166 [免费全文] [Medline] [CrossRef］
马科J，巴尔巴R，洛萨JE, de la Serna CM, Sainz M, Lantigua IF，等。医学专家通过互联网咨询艾滋病和肝炎的建议:试点实验的分析。PLoS Med 2006 7月;3(7):e256 [免费全文] [Medline] [CrossRef］
乐伟文，达彤。患者和家属向在万维网上发布的卫生保健提供者提出的医疗建议请求。Arch Intern Med 1997年1月27日;27(2):209-212。［Medline] [CrossRef］
患者在互联网上寻找信息并寻求远程咨询:动机、期望和发送给医生的电子邮件中表达的误解。Arch Dermatol 1999 Feb; 35(2):151-156 [免费全文] [Medline] [CrossRef］
黄建勇，Al-Fozan H, Tan SL, Tulandi T.寻求不孕症治疗的患者使用互联网。中华妇产科杂志2003 10月;83(1):75-76。［Medline] [CrossRef］
希梅尔W，梅耶J，柯琛MM，米歇尔曼HW。不孕不育互联网专家论坛的信息需求和访客体验。中国医学杂志，2005;7(2):e20 [免费全文] [Medline] [CrossRef］
解决卫生政策和公共卫生中优先信息问题的战略。中华卫生杂志1998,12(4):888-895。［Medline] [CrossRef］
张涛，李志刚，李志刚。文本挖掘:分析非结构化信息的预测方法。纽约:施普林格;2005.
科恩KB，亨特L.开始文本挖掘。公共科学图书馆计算生物学2008年1月;4(1):e20 [免费全文] [Medline] [CrossRef］
费尔德曼R，桑格J.文本挖掘手册:分析非结构化数据的高级方法。剑桥:剑桥大学出版社;2007.
Rund ums Baby网站。URL:http://www.rund-ums-baby.de/［WebCite缓存］
Noorbala AA, Ramezanzadeh F, Abedinia N, Naghizadeh MM.不孕和生育妇女的精神障碍。社会精神病学精神病学流行病学2009年7月;44(7):587-591。［Medline］
Inhorn MC, Birenbaum-Carmeli D.辅助生殖技术和文化改变。人类科学，2008;37(1):177-196。［CrossRef］
希梅尔W，米歇尔曼HW。家庭实践中的非自愿无子女夫妇:病人管理的建议。入:Allahbadia GN, Merchant R，编辑。妇科内窥镜检查与不孕。印度新德里:杰佩兄弟医疗出版社;2005:147 - 153。
桑德斯A，德沃特C，编辑。在SAS使用SAS:挖掘SAS技术支持。第二十九届SAS用户组国际年会论文集。卡里，北卡罗来纳州:SAS研究所;2004发表于::论文010-29。
奥尔布赖特R.驯服文本与SVD。URL:ftp://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf［WebCite缓存］
Himmel W, Kroll F.文本挖掘分析医疗专家论坛的请求[德文]。在:Beryer D, Ortseifen C，编辑。SAS在高等学校和大学-诉讼程序8。Forschung and Entwicklung (KSFE)的sa - anwender Konfernez der。德国亚琛:震动器;2004年发表于:第69-80页。
；克利夫兰诊所心脏中心。心脏论坛。URL:http://www.medhelp.org/forums/cardio/wwwboard.html［WebCite缓存］
舒勒KS，奈特KM。当病人转向互联网时，他们在寻找什么?整形外科网站访问者提出的问题的定性内容分析。J medical Internet Res 2003十月10日;5(4):e24 [免费全文] [Medline] [CrossRef］
Mezzich JE, Kraemer HC, Worthington DR, Coffman GA。对制定多重诊断的几个评分员之间的一致性进行评估。中华精神病学杂志1981;16(1):29-39。［Medline] [CrossRef］
Jolliffe它。主成分分析，第二版。纽约:施普林格;2002.
Reincke U，编辑。分析和分类科学文件与SAS文本挖掘。发表于:第三届“知识发现”研讨会;2003年10月6日至8日;卡尔斯鲁厄，德国http://km.aifb.uni-karlsruhe.de/ws/LLWA/akkd/8.pdf［WebCite缓存］
Berry MW, Dumais ST, Letsche TA。智能信息存取的计算方法。URL:http://www.cs.utk.edu/~berry/sc95/sc95.html［WebCite缓存］
埃万杰洛普洛斯N，编辑。文本挖掘(SAS教育，数据挖掘，第11讲)。丹顿，德克萨斯州:北德克萨斯大学;2002年发表于:http://www.coba.unt.edu/itds/courses/dsci4520/slides/DSCI4520_TextMining_11.ppt［WebCite缓存］
Beal DJ，编辑。SAS中用于多元线性回归模型的信息准则方法。SESUG程序。纸SA05。北卡罗来纳州罗利:北卡罗来纳州立大学;2007.URL:http://analytics.ncsu.edu/sesug/2007/SA05.pdf［WebCite缓存］
Korfhage RR。信息存储与检索。伦敦:威利;1997.
自动文本分类中的机器学习。ACM计算调查2002;34:1-47 ISI: 000175267600001。
杨晓明，张晓明，张晓明，等。文本数据分析在文本检索中的应用。In: Banks D, House L, McMorrisi FR, Arabie P, Gaul W，编辑。分类、聚类和数据挖掘应用。德国柏林:施普林格;2004年发表于:第511-520页。
贝兰兹R, Zupan B.临床医学中的预测数据挖掘:当前问题和指南。国际医学杂志2008年2月;77(2):81-97。［Medline] [CrossRef］
分析、数据和文本挖掘的方向——软件供应商的观点。发表于:ECML/PKDD 2006实用数据挖掘研讨会:应用、经验和挑战;2006年9月22日;德国柏林网址:http://www.ecmlpkdd2006.org/ws-pdmaec.pdf［WebCite缓存］
Anderson RM, Funnell MM，《患者赋权:关于促进采用新范式的挑战的思考》。患者教育杂志2005年5月;57(2):153-157。［Medline] [CrossRef］
Tuil WS, Verhaak CM, Braat DD, de Vries Robbé PF, Kremer JA。为接受体外受精的患者提供医疗数据的互联网接入。农学杂志2007年8月，第2期:361-368。［Medline] [CrossRef］
Dumitru RC, Bürkle T, Potapov S, Lausen B, Wiese B, Prokosch HU。德国在与健康相关的目的中使用和认识互联网:一项全国调查的结果。国际公共卫生杂志2007;52(5):275-285。［Medline] [CrossRef］
Nijland N, van Gemert-Pijnen J, Boer H, stehouder MF, Seydel ER。支持自我护理的基于互联网的技术评估:患者和护理人员在使用自我护理应用程序时遇到的问题。中国医学杂志，2008;10(2):e13 [免费全文] [Medline] [CrossRef］
希梅尔W，雷因克U，米歇尔曼HW。使用文本挖掘对医学专家论坛的外行请求进行分类，并准备半自动答案。见:SAS全球论坛2008年会议记录。卡里，北卡罗来纳州:SAS研究所;发表于:论文210-2008http://www2.sas.com/proceedings/forum2008/210-2008.pdf［WebCite缓存］

‎

常见问题解答:常见问题

ICSI:胞浆内精子注射

试管婴儿:体外受精

主成分分析:主成分分析

圣言:奇异值分解

K El Emam编辑;提交15.08.08;同行评审:M Sokolova, N Nijland, F Caropreso;作者评论07.11.08;修订本收到日期:25.03.09;接受06.04.09;发表22.07.09

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

基于web的专家论坛请求自动分类的文本挖掘和自然语言处理方法

基于web的专家论坛请求自动分类的文本挖掘和自然语言处理方法

原始论文

通讯作者:

摘要

关键字

简介

方法

设置和数据

手工分类

自动分类准备

文本挖掘的策略

克莱姆V

主成分分析

奇异值分解

统计分析

结果

手工分类

自动分类

自动分类和人工分类的比较示例

讨论

研究意义

本研究的局限性

未来的考虑

结论

致谢

利益冲突

多媒体附件1

多媒体附件2

参考文献

缩写