医学互联网研究杂志——有监督的机器学习算法可以以人类水平的准确性对医生表现的开放文本反馈进行分类

原始论文

¹剑桥大学卫生服务研究中心，联合王国剑桥

²剑桥大学心理测量学中心，剑桥，英国

^3.联合王国利兹利兹大学利兹健康科学研究所

⁴初级保健研究小组，埃克塞特大学，英国

*所有作者贡献相同

通讯作者:

克里斯·吉本斯博士

心理测量中心

剑桥大学

米尔巷16号

剑桥，CB2 1RH

联合王国

电话:44 1223 765 203

传真:44 1223 765 203

电子邮件:cg598@cam.ac.uk

背景:机器学习技术可能是一种有效和高效的方法来分类关于医生活动的开放文本报告，以保证质量、安全和持续的专业发展。

摘要目的:该研究的目的是评估训练有素的机器学习算法对医生表现的开放文本报告进行分类的准确性，并评估分类的潜力，以确定英国医生专业表现的显著差异。

方法:我们使用了1636条开放文本评论(34283个单词)，这些评论与548名医生的表现有关，这些医生来自使用通用医学委员会同事问卷(GMC-CQ)对临床医生的同事进行的调查。我们使用定性框架将77.75%(1272/1636)的评论编码为5个全球主题(创新、人际交往能力、受欢迎程度、专业精神和尊重)。我们训练了8种机器学习算法来分类评论，并使用几个训练样本评估它们的表现。我们使用GMC-CQ评估医生的表现，并使用GMC-CQ比较不同分类的医生的得分t测试。

结果:个别算法性能较高(范围F分数=。68to .83). Interrater agreement between the algorithms and the human coder was highest for codes relating to “popular” (recall=.97), “innovator” (recall=.98), and “respected” (recall=.87) codes and was lower for the “interpersonal” (recall=.80) and “professional” (recall=.82) codes. A 10-fold cross-validation demonstrated similar performance in each analysis. When combined together into an ensemble of multiple algorithms, mean human-computer interrater agreement was .88. Comments that were classified as “respected,” “professional,” and “interpersonal” related to higher doctor scores on the GMC-CQ compared with comments that were not classified (P< . 05)。被评为受欢迎或创新的医生与那些没有被评为受欢迎或创新的医生之间的得分没有变化(P> . 05)。

结论:机器学习算法可以高效地将医生表现的开放文本反馈分类为由人类评分者派生的多个主题。同事的开放式评论是尊重、专业和人际关系的标志，可能是医生表现的关键指标。

中国医学杂志，2017;19(3):e65

doi: 10.2196 / jmir.6533

关键字

机器学习；调查及问卷；反馈；数据挖掘；工作表现

企业和卫生部门越来越多地使用多来源" 360度"反馈，以便让员工了解自己的业绩，并确定可以改进的领域。这种反馈通常包括不同的报告方式，最常见的形式是经过验证的问卷或开放式文本评论。在英国，大规模的全国性调查包括开放式文本反馈，如朋友和家庭测试、住院患者调查和癌症患者体验调查。

开放文本信息的复杂性意味着，与经过验证的患者报告的经验和结果测量的分数不同，这些单词不能简单地“加起来”以产生洞察力和意义。因此，理解这些数据的任务在历史上一直是由熟练的定性分析人员手动完成的。

随着文本量的增加，定性数据可能很快变得难以管理和从中获得见解。编码和解释从收集的开放文本评论中收到的大量定性信息是一项劳动密集型工作，如果多个评分者使用微妙不同的编码启发式方法，则有偏见的风险。当人工评分者系统地分析定性数据时，仍然存在时间和财务限制的问题，以及确保编码器之间一致性的潜在挑战[1］．

这个词机器学习指越来越多的算法的应用，这些算法能够完成各种计算任务，包括掌握复杂的电脑游戏[2]，理解句子的意思[3.]，并成功预测网络行为的心理特征[4，5］．

尽管机器学习似乎非常适合于对来自国家调查的开放文本数据进行分类，但其潜力在很大程度上尚未在医疗专业人员对医生表现的评论中得到检验。分类算法以前曾被应用于患者对超越癌症的经历的评论[6]、临床事故报告[7，8]，以及对数字足迹(包括Twitter和在线博客)的情绪分析[9，10］．

虽然算法在不同的任务中表现出色，但没有证据表明它们有能力将同事对医生的评论归类为正式评估的一部分。尽管医生的表现可能最好由非常了解他们的同行来评估，但开放文本报告中的正面报告偏见可能会掩盖绩效差异[11，12］．因此，挑战在于对文本中的差异进行分类，这些文本通常是积极的措辞，并使用这些分类来表明医生表现的差异。

本研究的目的是训练和评估机器学习算法的集合，以准确分类医生的开放文本报告，这些报告被认为是积极偏向的，并评估开放文本中基于理论的分类的潜力，以表明英国医生专业表现的差异。

样本

我们收集了2008年3月至2011年1月期间英格兰和威尔士11个地点的所有非培训级医生的数据。我们招募了来自4个急症医院信托、一个麻醉科、一个精神健康信托、4个初级保健组织和1个独立(非国家卫生服务)卫生保健组织的医生。在所有医生同意参与研究之前，我们向他们提供了有关研究的详细信息;他们被告知可以在没有正当理由的情况下随时退出。该样品的详细描述在其他地方有报道[7，8］．

医生们被要求推荐最多20名同事(其中一半具有医学资格)，这些同事可以就他们的专业表现提供多来源的“360度”反馈。

使用通用医学委员会同事问卷(GMC-CQ)获得多来源反馈，GMC-CQ是一种可靠的医生绩效衡量标准，已在英国得到验证。[13］．GMC-CQ包含18个评估医生表现的不同方面的项目，还有一个部分用于输入开放文本反馈。

文本分类

定性分析师将GMC-CQ的开放文本反馈归纳为5个主题，涉及(1)创新和变革的开放性(59/1636条评论，3.6%);(2)人际交往能力和关怀(432/1636条评论，26.4%);(3)知名度(131/1636条评论，8%);(4)专业性(701/1636条评论，42.8%);(5)医生受到的尊敬或尊重(346/1636条评论，21.1%)[12］．在本文的其余部分，我们将这些类别称为创新者、人际交往能力、受欢迎程度、专业精神和尊重。将评论分为多个主题是可能的。在1636份报告中，1211份(74%)被归类为至少属于这些类别中的一种。同样，可以将医生分为多个类别，648份(28.8%)报告被分为5个类别中的一个或多个;因此，整个语料库中有2858条人工标记的评论。

中提供了每个类别的评论数量、单词的分布以及单词长度的统计比较表1．显著性方差分析;(post hoc Tukey test)结果表明，文本中被授予“创新者”标签的字数明显多于所有其他类别，而获得标签、“受尊重”或根本没有标签的评论则明显较短。

表1。评论的数量，单词的分布，以及5个类别的统计比较。

类别	分类报告	报告长度，平均值(SD)	方差分析^一个P价值
创新者	59	41.99 (30.84)	<措施
人际关系	432	23.87 (16.39)	获得
受欢迎的	131	25.49 (16.74)	.97点
专业	701	24.46 (17.34)	点
受人尊敬的	346	20.69 (19.13)	03
超过一个类别	1189	21.63 (16.76)	56
没有分类	425	19.54 (13.62)	<措施

^一个方差分析:方差分析;通过事后Tukey测试进行。

定性研究人员采用了Holsti的方法[14］．采用严格的数据编码和验证程序，其中包括双重编码和定性框架内的独立验证[12]，所得数据以支持定量数据分析的方式编码。

评论一般都是正面的，但并不总是如此。在我们的样本中，91.5%(1497/1636)的评论是正面的，5.93%(97/1636)的评论是混合的，包含对医生的正面和负面的陈述，其余2.57%(42/1636)的评论是中性或负面的(见表2)．与此数据集相关的先前出版物提供了关于确定评论极性过程的进一步信息[12］．

机器学习算法性能评估

训练、验证和部署算法的过程说明在图1．

表2。例子从每个类别引用

主题	评论
创新者	“从他给出的建议中可以清楚地看出，他知道目前的良好做法，他非常积极主动，非常务实，非常善于团队合作。在与顾问同事合作时，他的建议受到尊重，他认识到实践/初级保健的局限性，但仍在寻找改变和改进的机会。”
	“她对病人和工作的投入和热情令人钦佩。她在推动部门的变革和改善方面发挥了重要作用。她是科室和医院的宝贵财富。”
人际关系	“她是一位非常优秀、忠诚的同事，总是渴望改进，她的病人很喜欢她，所有和她一起工作的人都很重视她。”
	“非常平易近人，也很专业。”
受欢迎的	“优秀的、讨人喜欢的、容易工作的同事。”
	“非常受欢迎的医生。以高标准工作。”
专业	“我发现这位医生非常高效、体贴、诚实，而且非常专业。”
	“我发现他很容易相处，乐于助人，他总是有时间和病人和工作人员在一起。”
受人尊敬的	“一流的同事。”
	“令人愉快和有价值的同事。”
未被定性评分器编码(给定标签为0)	“乐于助人的同事，出色的时间管理能力。”
	“我觉得我和这位医生的工作关系很好。他对病人心理工作的开放态度和对我工作的支持给我留下了深刻的印象。在我看来，他对自己的诊断有充分的考虑。”

特征选择

每个阶段的第一步是识别注释中的特性。本研究中使用的特征是通过描述每个评论中出现的术语的频率的术语文档矩阵来识别和存储的。术语文档矩阵使用单词袋结构，计算每个评论中的术语数量，不考虑单词出现的顺序。术语文档矩阵是表示计算简单的文本数据的一种简单方法。矩阵包含未加权的单词，并通过词干、删除数字和删除稀疏术语(某个单词只在少于0.02%的情况下使用)来清理[15］．稀疏术语的去除使术语的数量从1737个减少到616个。最终的术语文档矩阵包含一个包含616个独特单词(列)的词典，用于1636个注释(行)。基质密度为5.8%。

因此，每个评论的术语频率被用作算法用于对文本进行分类的特征。中提供了术语文档矩阵的示例表3．对于5个类别中的每一个类别，在该类别中被人类分类的文本都被标记为1，而那些没有被标记为0。

表3。3个文本的术语文档矩阵示例。

文本	条款
	一个	而且	的同事	医生	伟大的	是	病人	受人尊敬的	这	麻烦	好吧	与
文本1^一个	1	0	1	0	1	0	0	0	0	0	0	0
文本2^b	1	0	1	0	0	0	0	0	0	1	0	0
文本3^c	0	1	0	1	1	1	1	1	1	0	1	1

^一个文本1:“一个很棒的同事。”

^b文本2:“一个麻烦的同事。”

^c文本3:“这位医生很受尊敬，对病人很好。”

一旦特征被提取出来，它们就被用来“训练”算法来描述特征和分类之间的关系。

在验证阶段，将集成对新数据的分类与人工定性分析人员所做的分类进行比较。如果验证阶段的结果是可接受的，则可以导出算法，并用于独立于用于训练和验证模型的数据集对新数据进行分类。

这些阶段的步骤在中给出了更详细的说明图1．

算法

“RTextTools”汇集了包含不同机器学习算法的其他包，并提供了一个系统，通过该系统，每个算法的性能可以单独评估，也可以作为不同方法的集合进行评估，这些方法被组合在一起以最大化训练数据集的性能。除了神经网络，我们在RTextTools中包含了所有可用的算法，神经网络在试点评估中没有收敛。算法为支持向量机(SVM)，采用径向基函数核，误差项惩罚参数设置为1,gamma参数设置为1/特征数量[16]，特征值阈值≥1的标度线性判别分析(SLDA)， 25次bootstrap重复的bootstrap boosting (bagging) [17]， boosting [18]， 500棵树随机分类回归林[19]，分类回归树[20.]，无正则化的最大熵[21]，以及具有L1 (lasso)惩罚正则化的广义线性模型(GLM/ lasso) [22］．

有监督机器学习算法的回顾和总结可以在其他地方找到[23］．

培训和验证

算法使用1000个随机选择的预编码评论的语料库进行训练图1，部分“a”)，并对其余636条评论进行验证(参见图1， b部分)。

我们使用(1)查全率(类似于灵敏度)的统计数据来评估算法性能——一个类中有多少情况被正确分配给该类;(2)精确度(类似于专一性)——预测属于某一类的案例实际属于该一类的频率;和(3)F分数，这是回忆和精确的组合，1代表最好的表现，0代表最差的表现[24］．为了最大化性能，算法被组合成由多个算法组成的共识“集合”。共识集合是一组算法，它们对训练数据集中的文本类做出相同的预测。我们在训练样本中包含了一组对数据集中的每个文档都完全一致的算法。在集合算法之间采用多数投票进行分类。

当作为多个算法一起工作的集合进行评估时，召回率与覆盖率一起评估(召回值适用于的数据集中案例的比例)[21］．的F值类似于评分者之间的可靠性，因此，我们将接受≥的协议。80between the algorithms and the human codes as evidence that the algorithms can complete the categorization task with acceptable accuracy.

n次验证

除了使用验证数据集(636条评论)对算法性能进行标准评估外，还使用n倍交叉验证测试了不同数据之间算法性能的稳定性。在当前的分析中，使用了10倍验证，其中从数据集中随机选择10个样本(1000条评论)，并使用剩余的文档进行验证。

该分析将表明算法的鲁棒性及其应用于新数据的适用性，并且更适合于对半验证或自引导[6，25］．

样本量精度权衡

除了算法的精度之外，评估它们的训练效率(性能与训练数据集大小之间的关系)也很重要，这样我们才能更好地理解如何在实践中应用这些技术。我们使用随机选择的1000、750、500、250、100和50的训练集来比较训练效率绩效，以准确地从固定大小的验证集(636个案例)中分类随机选择的评论。

群体差异评估

为了评估这些类别突显整体表现差异的能力，我们调查了医生的GMC-CQ评分的差异，这些医生的评论至少被分为5个类别中的1个，以及那些没有被归入任何类别的医生。我们假设被归入一个或多个类别的医生会比那些没有被归入任何类别的医生表现得更好。

我们使用机器编码的数据集(整个数据集由对人类评分者给出的代码视而不见的算法重新编码)和原始的人类评分数据集进行了分析。

问卷数据采用分级响应模型进行评分[22］．所有项目都符合分级响应模型(卡方交互作用)P>.01)，整体模型拟合良好(近似值均方根误差=。048，比较拟合指数=.97)[26，27］．量表的边际信度为。76。进行此分析是为了从模型中提取区间缩放的logit评分(theta)，以用于比较分析。这项技术已被证明可以提高检测生活质量问卷测量变化的敏感性[28］．theta值与量表原始得分之间的相关性为0.95。有关项目反应理论评分和分析过程的进一步细节，可在其他地方找到[27，29，30.］．

统计分析

计算文本分类和统计分析在R统计编程环境中进行(R Foundation) [31]使用“RTextTools”包来训练算法，并使用“base”包进行组间比较。使用“ggplot2”绘制数字。

伦理批准

这项研究最初是由德文郡和托贝NHS研究伦理委员会考虑的，但被认为不需要正式的伦理提交。对此处提供的匿名数据集的二次分析没有寻求随后的伦理批准。

算法性能评估

表4提供算法及其各自的汇总性能统计信息F算法集成的分数和召回值。

表4。主要对算法的总结和集成性能进行分析。

模型^一个	度规	创新者	人际关系	受欢迎的	专业	受人尊敬的	平均
支持向量机	F分数	收	i =	点	.79	收	.76
尺度线性判别分析	F分数	.77点	主板市场	多多	收	.77点	.76
提高	F分数	综合成绩	.77点	结果	.76	综合成绩	.77点
引导促进	F分数	.87点	.85	点	.80	总共花掉	点
随机森林	F分数	正	.59	.87点	尾数就	.74点	综合成绩
决策树	F分数	.80	综合成绩	多多	尾数就	.80	.80
广义线性模型	F分数	.89	总共花掉	多多	结果	.89	.85
最大熵	F分数	2	.62	收	主板市场	2	.68点
最终集合(3+模型与整个数据集的协议)	回忆 100%同意	.98点	.80	.97点	总共花掉	.87点	.89
10倍验证均值(范围)	F分数	.97点(.96 .98点)	.80(大于.86)	.97点(.96 .98点)	.79(。。)	.86 (.84 .89)	多多

^一个训练集大小=1000;验证= 636。

创新者

GLM/LASSO算法是将开放文本评论正确分类为“创新者”类别的单一性能最高的算法。3种算法(GLM/LASSO, bootstrap boosting和回归树)的集成与人类编码员有98%的召回协议。10倍验证表明，稳健的准确性得分在0.96到0.98之间(平均0.97)。在整个数据集中，有48条评论(3.5%)被算法归类为创新者。

人际关系

自举增强算法是将开放文本评论归类为“人际交往技能”类别的最佳算法。3种算法(boosting、GLM/LASSO和bootstrap boosting)的集成与人类编码数据集的召回率一致80%，是所有类中性能最低的。10倍验证表明，在每一次折叠中表现相似，一致性值在0.74和0.86之间(平均0.80)。算法将435条评论(28.4%)归类为“人际评论”。

受欢迎的

所有算法在将开放文本评论分类为“流行”类别方面都表现得非常好F除最大熵(F分数= =收)。集合性能(SLDA、决策树和GLM/LASSO)也很出色，评分者之间的召回一致性为0.97(10倍验证范围为0.96 -。98，平均。97)。共有107条评论(8.3%)被归入“热门”类别。

专业

类似的性能在许多算法中都很明显，包括SVM、随机森林和GLM/LASSO。总体集合表现(GLM/LASSO, bootstrap boosting和SVM)的评分间召回率为0.82。10倍验证表明，算法与人类分析师之间的一致性良好(平均值。79，范围。75-.83)。算法将整个数据集中几乎一半的评论归类为“专业”类别(643条评论，占42.7%)。

受人尊敬的

再一次，GLM/LASSO算法在“受尊重”类别的分类任务中表现出最强的单一性能(F分数= .89)。集成的总体性能非常高，人类编码器和3-算法集成之间的召回率为。87。10倍验证表明，人类分析师和算法之间的一致性更高(平均值0.86，范围0.84 - 0.89)。在整个数据集中，集成将243条(16.6%)评论归为“受尊重”类别。

整体性能

GLM/LASSO算法性能最强，最大熵算法性能最差。整体平均表现仍然很高(F分数= .77点)。人类编码器和算法集成之间的平均一致性很高(.89)。

集成精度的n-Fold验证

10倍交叉验证的结果对于单个样品的最终召回值非常相似。n-fold结果显示10个样本的紧密分布(表4)，表明集合在不同样本上表现稳健。

不同样本量的算法性能

随着训练样本量的减少，算法继续表现良好，但当训练数据集减少到250条以下时，算法急剧下降。图2展示了不同训练样本量下的算法性能。

群体差异评估

的t测试表明，在医生的GMC-CQ评分中，收到5类评论中的1类评论的医生与未收到评论的医生之间存在显著差异(t_173.81= 0.77,P=措施)。虽然结果是显著的，但在分布中有相当大的重叠，如图3这表明，仅靠开放文本分类不足以可靠地区分医生的表现。平均表现差异最大的是被归类为“受人尊敬”的医生和未被归类为“受人尊敬”的医生(t_629.17= 3.75,P<措施)。被归类为“受欢迎”的医生之间的平均表现得分没有差异(P=.44)和没有的人。同样，被评为“创新”并不意味着更高的工作表现(P=.99)，尽管分析中的低数字表明缺乏检测效果的能力(n=48)。表5介绍这些分析的结果进行了机器学习分类(表5，“A组”)和人类分类(表5，“面板B”)。人类分级和机器分级数据集的结果相似，在人类分级组中报告了更强的效应量。

表5所示。分类医生与未分类医生的平均数比较。

类别	板一个^一个					面板B^b
	平均评分 (分对数)	的报道类别	t测试 (vs无类别评级)			平均评分 (分对数)	的报道类别	t测试 (vs无类别评级)
			t	df^c	P			t	df	P
创新者	0．00	48	0．00	55.74	获得	0.01	59	1.14	35.69	点
人际关系	1.97	435	1.98	857.97	.04点	0.07	432	2.97	346.63	< . 01
受欢迎的	−0.05	107	−0.88	176.42	38	0.13	131	1.32	149.05	.19
专业	−0.03	643	2.51	901.34	. 01	0．1	701	3.47	286.99	<措施
受人尊敬的	0.15	243	3.75	629.17	<措施	0.44	346	5.58	300.13	<措施
超过一个类别	0.04	1081	0.77	173.81	措施	0.12	1189	3.81	239.8	<措施
没有分类	−0.09	413	N/A^d	N/A	N/A	−0.4	425	N/A	N/A	N/A

^一个面板A:在整个语料库上使用机器集成分类进行分析。

^b面板B:对整个语料库使用人工评分分类的分析。

^c自由度。

^dN/A:不适用。

图3。比较普通医学委员会同事问卷(GMC-CQ)在5个类别中被列为其中一个类别的医生与未被列为其中一个类别的医生之间的得分(仅为正面评论)。t检验的显著性(P)值显示了两组之间的关系。

主要研究结果

本研究展示了机器学习算法对定性数据进行高效分类的能力。将这种算法集成到全国调查的数据分析工具包中，可以分析丰富的定性数据，而无需在整个语料库中与专家评分相关的资源负担[32］．

我们还证明了类别的能力，以突出在统计上显著的整体医生表现的差异。我们假设被分为5类中的1类的医生在GMC-CQ上的得分高于未被分为5类的医生。我们发现了对这一假设的部分支持:被归类为“受人尊敬”、“专业”和“人际关系”的医生往往优于未被归类的医生，而被归类为“受欢迎”、“创新”的医生与未被归类为这5类中的任何一类的医生之间的表现没有明显的显著差异。然而，获得“创新”分类的医生数量较少，这导致测试能力较低，有可能出现第二类错误。有多重评级的医生比没有任何评级的医生表现更好。在人类评分和机器评分的数据集中，被归类为“受人尊敬”的医生在每组中都有最高的表现。

这些技术对于在不同的专业领域开发可操作的见解具有明显的潜力:它们也被用于在国家癌症调查中对患者衍生的开放文本评论进行分类[6］．这些技术的一个关键优势是，可以部署训练有素的算法，在收集数据时对其进行操作，从而实现对开放文本数据的实时反馈和洞察[33]，将来可以用来监控性能，甚至安全。重要的是要记住，尽管机器学习算法可以在预测或分类任务中执行到高水平，但有些算法是作为“黑匣子”运行的，通常很难，甚至不可能生成理论或传达见解如何算法得到了最终的解决方案。

我们使用预编码数据训练算法，并验证它们在未编码数据上的性能，这是“监督式”机器学习的一个例子。我们使用相对简单的稀疏“术语文档矩阵”方法来识别开放文本中的特征，展示了强大的性能。术语文档矩阵只是统计一个单词在注释中使用的实例，而不考虑单词出现的顺序。这种方法已在医学文献中发表的类似研究中使用[6，8］．

可以使用不同的、更复杂的方法提取特征。特征提取n-grams提供了一种方法来保留一些使用单词的上下文。一个n-gram标记序列(长度n)，这可能比术语文档矩阵中使用的简单字数统计策略提供更好的信息。类似地，降维或聚类技术，如潜在狄利克雷分配或奇异值分解，可用于减少矩阵内的稀疏性。没有简单的指导方针建议在这种情况下使用的最佳矩阵密度，聚类和降维的可能好处必须通过警告来平衡，这些技术会降低预测的可解释性和准确性[4］．

虽然这些技术的性能明显很高，但可能需要进一步研究，以探索它们在这种情况下可以在多大程度上提高分类算法的准确性，以及代价是什么(例如计算负担或可解释性)。

自然语言处理算法及其相关软件在技术行业的市场力量的推动下，正在以惊人的速度改进，而且自相矛盾的是，考虑到其发展的经济动机，它们越来越多地在开源许可下免费分发。随着该领域的发展，我们可能会期望这类算法能够成功地对更复杂的语料库进行分类，甚至可能在没有特定任务训练数据的情况下识别开放文本注释中的重要元素，这被称为“无监督”机器学习。

限制

本研究有一定的局限性。我们算法的平均性能在某些情况下可能很高，因为类别的发生率很低。例如，“创新者”类别的算法性能异常高(召回率= 0.97)，其中只有4.2%的医生被评为创新。在这种情况下，人群中低数量的分类意味着简单地将每个医生评为“无创新”的“愚蠢猜测”将显示95.8%的一致性率。然而，虽然算法性能在分布平衡的类别中略低(例如，46%的医生被评为专业)，但它仍然是可以接受的高(回忆=。82, 10倍精度=。87)。

由于数据集有点小，训练集合被用来重新分类算法最初训练的整个语料库。在对最初训练的数据进行重新分类时，算法的性能可能会更高。这一决定的基本原理是最大限度地增加分类类别的数量，从而保持分析的统计效力。这些评估的结果与人类分类数据集的结果大致相同，尽管在使用机器分类代码的分析中，效应值始终较小。这一点可能特别重要，因为机器标记的数据集似乎对医生表现的差异不像人类标记的数据集那么敏感。

数据集的另一个可能的限制是必须有一个小的训练集与验证集的比例(3:2)，以在验证样本中保持足够数量的评论。虽然这有利于统计分析不同类别的性能信号的差异，但由于没有提供足够的训练数据，它可能会阻碍某些算法的性能。

医生评分的显著正向倾斜和完全负面的评论的稀缺意味着我们无法进行情绪分析。我们希望在大多数受试者表现良好的人群中出现这种情况，这可能代表了大多数收集关于医生表现的开放文本信息的数据集。未分类评论的内容反映了医生们的一种趋势某物对同事持肯定态度，如果这与他们的医疗实践的关键因素无关(例如，“支持他们的同事”。优秀的时间管理能力”)。这里使用的数据是在高风险的综合医学委员会再验证考试中收集的，这可能会对诚实报告医生执业的负面方面造成障碍。除了上下文因素之外，围绕引出此类评论的方式进行创新，包括不那么直接的对话技巧，也可能减少报道偏见。

虽然每个单独的机器学习技术的算法性能通常都很高，但显然，具有套索正则化的广义线性模型对每个类都具有最高的性能。这种改进性能的确切原因有些不透明，但套索正则化技术特别适合于使用稀疏矩阵的分类问题[34］．有些令人惊讶的是，分类树和回归树的表现优于随机森林;这可能是由于矩阵的稀疏性和在一些类别中所做的分类数量较少，导致随机树中的误分类误差很高。它们的性能可能已经使用了降维技术，如奇异值分解或潜在狄利克雷分配，这降低了矩阵中的稀疏性，但也可能导致其他算法的信息丢失和不可解释的结果[35，36］．

同样，目前还不清楚为什么某些代码可以比其他代码更准确地分类。班级之间表现的差异可以用每个班级的概念基础的差异来解释;人类和算法都可能发现，对反映容易定义的概念(如“流行”(算法性能最高的一类)的评论进行分类更容易，而对定义不明确的概念(如“人际关系”(算法性能最低的一类))进行分类更容易[37］．

也许有机会将类似的技术应用于患者体验数据，以构建能够正确分类的算法，也许还可以使用情感分析，在全国范围内的患者体验调查中量化开放文本，并提供对患者和从业者都更有意义的反馈。对开放文本评论的计算分析在用来确定以前没有设想到的问题时可能更有用。

结论

这项研究展示了机器学习算法集成的出色性能，这些算法的任务是分类医生表现的开放文本评论。这些算法表现良好，即使在有限的时间和资源可用于代码训练数据集。我们证明，机器识别的定性衍生，基于理论的开放文本分类可以标记出医生表现的显著差异，即使当评论完全是积极的。这些发现可以为未来的性能预测模型提供信息，并支持实时评估，以提高质量和安全性。

致谢

我们感谢国家卫生研究所(NIHR)长期条件适应性测试(ATLanTiC)患者和公众参与伙伴Karen Alexander，她提供了批判性的见解、评论和编辑手稿。数据收集和定性编码由英国总医学理事会作为无限制研究奖资助。本文的新工作得到了CG博士后奖学金(NIHR-PDF-2014-07-028)的支持。

利益冲突

JC一直是英国医学理事会的顾问，只收到了与这项工作相关的直接费用。

NHSsurveys。2007年住院患者调查:患者自由文本评论分析http://www.nhssurveys.org/Filestore/documents/Freetext_comments_Exec_Summary.pdf
王晓明，王晓明，王晓明，等。通过深度强化学习进行人类层面的控制。自然杂志2015年2月26日;518(7540):529-533。［CrossRef] [Medline］
杨晓明，杨晓明，杨晓明，等。自然语言处理技术研究进展[综述]。IEEE compput Intell ma2014 5月;9(2):48-57。［CrossRef］
Kosinski M, stilwell D, Graepel T.私人特征和属性可以从人类行为的数字记录中预测。美国国家科学研究院2013年4月9日;110(15):5802-5805 [免费全文] [CrossRef] [Medline］
W优优，Kosinski M, stilwell D.基于计算机的性格判断比人类做出的判断更准确。Proc Natl Acad science USA 2015年1月27日;112(4):1036-1040 [免费全文] [CrossRef] [Medline］
Wagland R, Recio-Saucedo A, Simon M, Bracher M, Hunt K, Foster C，等。开发和测试一种文本挖掘方法，以分析患者对其结肠直肠癌护理经验的评论。BMJ Qual Saf 2016 Aug;25(8):604-614。［CrossRef] [Medline］
Ong MS, Magrabi F, Coiera E.使用统计文本分类的临床事件报告自动分类。Qual Saf保健2010年12月19(6):e55。［CrossRef] [Medline］
Ong MS, Magrabi F, Coiera E.临床事件报告中极端风险事件的自动识别。J Am Med Inform association 2012年6月;19(e1):e110-e118 [免费全文] [CrossRef] [Medline］
Hawkins JB, Brownstein JS, Tuli G, Runels T, Broecker K, Nsoesie EO，等。使用Twitter测量美国医院患者感知的护理质量。BMJ Qual Saf 2016 6月;25(6):404-413 [免费全文] [CrossRef] [Medline］
Greaves F, Ramirez-Cano D, Millett C, Darzi A, Donaldson L.使用情感分析从在线发布的自由文本评论中捕捉患者体验。J Med Internet Res 2013 Nov 01;15(11):e239 [免费全文] [CrossRef] [Medline］
Campbell JL, Roberts M, Wright C, Hill J, Greco M, Taylor M，等。与英国医生专业评估的可变性相关的因素:调查结果分析。Br Med J 2011 10月27日;343:d6212 [免费全文] [Medline］
Richards SH, Campbell JL, Walshaw E, Dickens A, Greco M.一项来自英国普通医学委员会同事问卷的自由文本评论的多方法分析。医学教育2009 Aug;43(8):757-766。［CrossRef] [Medline］
Campbell JL, Richards SH, Dickens A, Greco M, Narayanan A, Brearley S.评估英国医生的专业表现:对总医学委员会患者和同事问卷效用的评估。Qual Saf卫生保健2008 6月;17(3):187-193。［CrossRef] [Medline］
社会科学和人文学科内容分析。马:addison - wesley;1969.
王志强，王志强，王志强，等。基于文本挖掘的文本挖掘方法研究[J] .软件学报，2008;25(5):-。［CrossRef］
李志刚，李志刚。《科学研究》2005。E1071:统计部门的各种职能(E1071)，维也纳大学网址:https://www.researchgate.net/publication/221678005_E1071_Misc_Functions_of_the_Department_of_Statistics_E1071_TU_Wien
Peters A, Hothorn T, Lausen B. ipred:改进的预测器。R新闻2002;2(2):33-36。
Tuszynski J. crane .r项目。2002.工具:移动窗口统计，GIF, Base64, ROC AUC等https://cran.r-project.org/web/packages/caTools/caTools.pdf
李国强，李国强。基于随机森林的分类与回归。R新闻2002;2(3):18-22。
雷普利·b·克兰。2012.tree:分类和回归树https://cran.r-project.org/web/packages/tree/tree.pdf
Jurka T, Collingwood L, Boydstun AE, Grossman E, Van Atteveldt W. RTextTools:文本分类的监督学习包。R杂志2013;5(1):6-12。
傅建平，李志强，李志强，等。广义线性模型的正则化路径。中国经济统计2010;33(1):1-22 [J]免费全文] [Medline］
Kotsiantis SB, Zaharakis ID, Pintelas PE。机器学习:分类和组合技术综述。Artif Intell Rev 2007 11月10日;26(3):159-190。［CrossRef］
Sokolova M .， Szpakowicz S. Beyond accuracy, F-score和ROC:一组用于绩效评估的鉴别措施。Adv Artif Intell 2006:1015-1021。［CrossRef］
精度估计和模型选择的交叉验证和Bootstrap研究。IJCAI 1995;展出1(2):1137 - 1143。
分级反应模型。见:现代项目反应理论手册。纽约州纽约:施普林格;1997:95 - 107。
Reeve BB, Hays RD, Bjorner JB, Cook K, Crane PK, Teresi JA，等。健康相关生活质量题库的心理测量评估与校准。医疗保健2007;45(增编1):S22-S31。［CrossRef] [Medline］
Birbeck GL, Kim S, Hays RD, Vickrey BG。癫痫患者的生活质量测量:随着时间的推移，它们能多好地检测变化?神经病学2000五月09;54(9):1822-1827。［Medline］
Bee P, Gibbons C, Callaghan P, Fraser C, Lovell K.评估和量化用户和护理人员参与精神卫生保健规划(EQUIP):一种新的患者报告结果测量方法的共同开发。PLoS One 2016;11(3):e0149973 [免费全文] [CrossRef] [Medline］
吉本斯C, Bower P, Lovell K, Valderas J, Skevington S.电子生活质量评估的计算机自适应测试。J Med Internet Res 2016年9月30日;18(9):e240 [免费全文] [CrossRef] [Medline］
R核心团队。Gbif》2014。R:用于统计计算的语言环境(3.0.2版本)http://www.gbif.org/resource/81287
角J，瓦格兰R，格拉泽A，理查兹SM。来自英国癌症患者PROMs调查的患者反馈的定性分析。英国医学公开赛2013;3(4):e002316 [免费全文] [CrossRef] [Medline］
安斯沃斯J，巴肯I.结合卫生数据使用点燃卫生系统学习。方法中华医学杂志，2015;54(6):479-487。［CrossRef] [Medline］
李文杰，李志强，李志强。统计学习的基本要素。纽约:Springer-Verlag出版社;2001.
郭鲁伯，李士奇。奇异值分解和最小二乘解。数学数学1970年4月;14(5):403-420。［CrossRef］
李志强，吴志强，李志强。潜狄利克雷分布。J Mach Learn Res 2003; 3:93 -1022。
《计算机时代统计推断》，第1版，剑桥:剑桥大学出版社;2016:3-11。

‎

方差分析:方差分析

GMC-CQ:普通医学委员会同事问卷调查

NIHR:国家健康研究所

SLDA:尺度线性判别分析

支持向量机:支持向量机

编辑:CL Parra-Calderón;提交23.08.16;NP Cruz-Díaz, P Giacomelli, H Singh同行评审;对作者12.09.16的评论;修订版本收到30.09.16;接受29.11.16;发表15.03.17

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

有监督的机器学习算法可以以人类水平的准确性对医生表现的开放文本反馈进行分类

有监督的机器学习算法可以以人类水平的准确性对医生表现的开放文本反馈进行分类

原始论文

通讯作者:

摘要

关键字

简介

方法

样本

文本分类

机器学习算法性能评估

特征选择

算法

培训和验证

n次验证

样本量精度权衡

群体差异评估

统计分析

伦理批准

结果

算法性能评估

创新者

人际关系

受欢迎的

专业

受人尊敬的

整体性能

集成精度的n-Fold验证

不同样本量的算法性能

群体差异评估

讨论

主要研究结果

限制

结论

致谢

利益冲突

参考文献

缩写