卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医学网络杂志

医学互联网研究杂志

14388871

卡塔尔世界杯8强波胆分析JMIR出版公司

加拿大多伦多

v15i11e239

24184993

10.2196 / jmir.2721

原始论文

使用情感分析从网上发布的免费文本评论中捕捉患者体验

Eysenbach

冈瑟

Sokolova

玛丽娜

Yom-Tov

兰德

布鲁克

菲利普

Holzinger

安德烈亚斯

格里夫斯

费利克斯

MBChB 1

初级保健和公共卫生局伦敦帝国理工学院

查令十字医院

伦敦，W6 8RF

联合王国 44 7866551172 44 2075940584 fg08@imperial.ac.uk

2 Ramirez-Cano

丹尼尔

博士学位 2 米勒特

克里斯多夫

博士学位 1 Darzi

Ara

医学博士 2 唐纳森

利亚姆

医学博士 2

¹ 初级保健和公共卫生局伦敦帝国理工学院

伦敦

联合王国 ² 卫生政策中心伦敦帝国理工学院

伦敦

联合王国

通讯作者:Felix Greaves fg08@imperial.ac.uk

11 2013

01 11 2013

15 11

e239

16 05 2013 11 06 2013 10 07 2013 29 08 2013

©Felix Greaves, Daniel Ramirez-Cano, Christopher Millett, Ara Darzi, Liam Donaldson。最初发表在《医学互联网研究杂志》(//www.mybigtv.com)， 2013年11月1日。

2013

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

互联网上的博客、社交网络和医生评级网站上有大量关于医疗保健质量的非结构化、自由文本信息，这些信息没有以系统的方式获取。新的分析技术，如情绪分析，可以让我们更有效地理解和使用这些信息，以提高医疗保健的质量。

客观的

我们尝试使用机器学习来理解患者对其护理的非结构化评论。我们使用情感分析技术将患者的在线自由文本评论分为积极和消极的描述他们的医疗保健。我们试图自动预测一个病人是否会推荐一家医院，这家医院是否干净，他们是否得到了有尊严的治疗，通过他们的自由文本描述，与病人自己对他们的治疗的定量评价进行比较。

方法

2010年，我们使用Weka数据挖掘软件，将机器学习技术应用于英国国家卫生服务网站上所有6412条关于医院的在线评论。我们还比较了情绪分析的结果与基于纸质的全国住院患者调查结果在医院层面使用斯皮尔曼排名相关的所有161急性成人医院信托。

结果

护理的定量评分与使用情绪分析的自由文本评论得出的护理评分之间的一致性分别为81%、84%和89% (kappa评分:0.40 - 0.74， P<措施for all). We observed mild to moderate associations between our machine learning predictions and responses to the large patient survey for the three categories examined (Spearman rho 0.37-0.51, P<措施for all).

结论

我们使用机器学习过程所达到的预测精度表明，我们能够从自由文本中预测出患者对医院不同表现方面的意见的合理准确评估，而且这些机器学习预测与更传统的调查结果相关联。

互联网病人的经验质量机器学习

简介

了解病人的卫生保健经验是提供保健过程的核心，也是卫生保健质量的基本支柱[ 1， 2］．传统的患者体验测量方法包括调查，最近则采用结构化的患者报告结果测量方法。这种方法会提出具体而有限的问题，很少进行，而且通常管理费用昂贵。今天的患者已经开始在博客、社交网络、维基以及医疗评级网站上报告他们的医疗经历[ 3.， 4］．然而，由于这大部分是非结构化的、非标准化的自由文本信息，因此不能以系统的方式捕获。这意味着，在一个日益“互联”的世界里，我们错过了了解患者经历的机会。美国的调查数据显示，85%的成年人使用互联网[ 5]， 25%曾在网站或博客上阅读他人的健康经验，11%曾在网上查阅医院或其他医疗机构的评论[ 6］．

在医疗保健之外，对大型数据集进行自然语言处理，包括情绪分析和意见挖掘，对于理解消费者属性和行为至关重要，例如，在选举预测中[ 7， 8］．情感分析使自然语言的内容——我们写的和说的——能够被检验出积极和消极的意见和情感。 9］．如果适用于卫生保健，这些分析方法可以大规模地解释关于病人经历的文本信息。这些信息，由于其散文性质，避免了传统定量分析的分析焦点。Alemi和他的同事提出使用评论的情绪分析作为实时患者调查[ 10］．他们已经表明，患者对特定医生的评价可以合理准确地归因于积极和消极情绪。他们进一步建议捕捉情绪分析应该与评估患者体验的传统方法进行比较。

英格兰国家卫生服务(NHS)的信息战略指出，数据的情感分析可能是一种新的信息来源[ 11，这对病人选择医院很有帮助。我们通过分析主要的NHS网站(NHS Choices)上的大量自由文本评论，验证了这一论断，并进一步推进了Alemi和同事所做的工作。该网站允许患者描述他们在英格兰所有医院(以及nhs提供的所有其他服务)的治疗经历。它使用得很好，每天大约有100万次点击。在两年的时间里，每家医院的平均评论数为69条[ 12］．这些评价包括对一般经验的自由文本描述和对护理的特定方面的李克特量表评级。这为自然实验提供了机会，以评估情绪分析技术(应用于自由文本评论)与患者自己的定量评分的准确性。NHS还通过对住院病人的全国调查来衡量病人的体验。如果情感分析技术被认为是评估护理质量的有用工具，那么重要的是要看看它是否与传统的患者体验测量方法有关联。因此，我们在医院层面将情绪分析结果与全国患者调查结果进行比较。

方法机器学习从病人的评论

2010年，我们将数据处理技术应用于NHS Choices网站上所有关于医院的在线自由文本评论。我们的目的是测试我们是否能从患者的自由文本回答中自动预测他们对一些话题的观点。选择了一种机器学习分类方法，该方法使用开源的Weka数据挖掘软件，通过算法“学习”将评论从给定的一组示例中分类。该软件在以前的研究中被广泛使用，并提供了准确的分类结果，包括在卫生保健领域[ 13- 15］．为了测试预测的准确性，我们将我们的结果与相同个体患者在李克特量表上提供的定量评级进行了比较。针对“我喜欢什么”、“可以改进的地方是什么”和“还有其他意见吗?”然后预测病人是否会推荐这家医院，医院是否干净或肮脏，以及他们是否受到有尊严和尊重的对待。该算法使用2008年、2009年和2011年在NHS Choices网站上留下的关于医院的所有评论和评级(共13802条)作为学习集进行训练。2010年的数据被用来测试该过程的预测准确性(6412条评论)，因为该年有可比的患者经验调查数据可用。验证集占总样本的31.7%。我们进行了一轮交叉验证。在NHS Choices网站上留下的所有评论都是由英格兰卫生部直接提供的，但随后已向公众开放[ 16］．

机器学习方法的技术方面

机器学习方法有两个组成部分:(1)预处理，将来自患者评论的数据分割为可管理的单元，以构建数据的表示形式[ 17和(2)分类，算法决定每个评论属于哪一类。我们在机器学习过程中应用了一套一致的方法，包括“单词袋”方法、“先验极性”和“信息增益”。

在“单词袋”方法中，所分析的单词的整体(称为语料库)被表示为一个简化的、无序的单词集合[ 18］．在此分析中，使用了字母(单个元素或单词)和字母(标记字符串中的两个相邻元素，在本例中是两个单词短语)作为基本分析单元。我们总共提取了5695 n克。本可以使用更高的n克(较长的短语)，但受计算机能力和处理时间的限制。我们还在机器学习方法中加入了我们自己对某些单词的分类，称为“优先极性”。1000个最常见的单个单词和1000个最常见的两个单词短语是从语料库的完整评论集中提取出来的。两名研究人员分别对每个人的情绪进行了积极、消极、或中立的评价，并分别考虑了以下三个方面:(1)总体推荐，(2)清洁，(3)尊严。当出现分歧时，两位研究人员会讨论并解决意见。Kappa对1个词的整体评分为0.76，对2个词的评分为0.71。在尊严评分方面，他们对1个词的评分为0.71，对2个词的评分为0.70。 For rating of cleanliness, they were .52 for 1 word and .48 for 2 words. For all of these calculations, P<措施。

一种叫做“信息增益”的技术被用来减少单词包的大小，方法是识别出那些属于特定类的确定性最低的单词，然后将它们删除——这是一种特征选择的方法[ 19］．这提高了计算时间，也展示了具有最高预测精度的单词。

在机器学习中，可以采用许多不同的技术方法进行分类。我们应用了四种不同的方法，看看哪一种方法能给出最快、最准确的结果:(1)naïve贝叶斯多项式(NBM) [ 20.，(2)决策树[ 21，(3)套袋[ 22]，(4)支持向量机[ 23］．使用Weka包中的REPTree进行决策树和装袋。支持向量机使用RBF核。通过计算每种方法的准确性(从观察总数中正确预测观察的百分比)，将预测的准确性与患者自己的定量评分进行比较 F测量(精度和召回率的调和平均值)、受试者工作特征(ROC)和完成任务所需的时间进行计算。为了减少分类的计算处理时间，我们将学习过程中的单词按频率限制在前10000个单词。所有文本都转换为小写，并删除了所有标点符号。排版错误和拼写错误没有得到纠正。

测试预测精度

为了获得预测情绪分析的分数，在NHS Choices网站上留下的患者李克特量表评分被转换为简单的类别，在清洁和尊严方面分为正面或负面，以简化预测任务。该网站为患者提供了五个选项来评价医院的洁净度:“特别干净”、“非常干净”、“干净”、“不太干净”、“脏”和“不适合”。在这个分析中，前三个选项被归为“干净”类，“不太干净”和“脏”归为“脏”类。该网站还要求患者评价他们是否得到了医院工作人员的尊严和尊重，选项有“一直”、“大部分时间”、“一些时间”、“很少”和“根本没有”。再一次，前三个选项被分组，在这种情况下，被归为“更有尊严”的类别，而“很少”和“根本不”被归为“不那么有尊严”的类别。最后，NHS Choices网站询问所有患者是否会推荐这家医院。

情绪分析与全国住院病人调查的比较

在计算了预测算法的准确性后，将情绪分析结果与2010年全国住院患者调查结果进行比较。这是一项年度全国调查，调查对象是随机挑选的在英国国民健康服务体系(NHS)医院住院的患者，类似于美国的HCAHPS调查。2010年的调查覆盖了英格兰所有161家提供成人服务的急性病医院，涉及全国6万名受访者(回复率50%)。在2010年9月至2011年1月期间，如果患者在2010年曾在医院接受过夜护理，则通过邮件与他们取得联系[ 24］．这项调查包括一般问题和具体问题。在这项研究中，我们只使用了与NHS选择数据预测的特定主题相似的领域。使用的问题是“在你看来，你所在的病房或病房有多干净?”(按“非常”到“完全没有”的4分制);“总的来说，你在医院里是否觉得自己受到了尊重和尊严?”(按“非常”到“完全没有”的3分制);以及“总体而言，您如何评价您所得到的护理?”(满分5分，从优秀到差)。在医院层面，情绪分析排名与患者调查排名进行比较，应用Spearman排名相关性，使用Stata SE11统计软件。我们比较了英国所有161个成人急性信托基金。

结果

患者自己对是否会推荐他们的医院的定量评价与我们从情绪分析中得出的预测在80.8%到88.6%之间是一致的(以准确性表示; 表1)，视乎所采用的分类方法。同样，情绪分析在83.7% - 84.5%的时间内同意病人是否得到有尊严和尊重的对待，在81.2% - 89.2%的时间内同意医院是否干净。表2显示10个单词或2个单词的短语具有最高的预测准确性。

用于分类的NBM、bagging和决策树方法都产生了类似的关联度量，但NBM算法(使用词频信息的一阶概率模型)执行计算更快(不到0.2秒，而其他分析方法需要数百秒)。值得注意的是，所有算法都倾向于在预测清洁度和支持向量机方面更差。这可能代表了与其他调查意见相比，关于清洁的语言有限，或者结果更扭曲，有更多的负面评价。

在此基础上，我们选择使用NBM结果与患者调查数据进行进一步的比较。NBM方法的预测和实际评分之间的关系反映为评分者之间的可靠性在0.40到0.74之间的Kappa统计数据( P<措施for all). We found significant, weak to moderate associations between machine learning predictions using NBM and quantitative responses from the national inpatient survey for the three categories examined: cleanliness, dignity, and overall recommendation (Spearman correlation coefficients between 0.37 and 0.51, P<措施for all) (see 表3)．医院总体推荐的排名相关性显示在图1．

表1

机器学习的不同方法的准确性。

问题		综合评分	清洁	尊严和尊重
Naïve贝叶斯多项式
	中华民国	0.94	0.88	0.91
	F测量	0.89	0.84	0.85
	精度(%)	88.6	81.2	83.7
	时间(年代)	0．11	0.05	0.06
决策树
	中华民国	0.84	0.76	0.79
	F测量	0.81	0.86	0．8
	精度(%)	80.8	88.4	83
	时间(年代)	552	206	332
装袋
	中华民国	0.89	0.83	0.87
	F测量	0.82	0.87	0.85
	精度(%)	82.5	89.2	84.5
	时间(年代)	4871	2018	3164
支持向量机
	中华民国	0.79	0.53	0.6
	F测量	0.84	0.84	0．8
	精度(%)	84.6	88.5	84.1
	时间(年代)	612	305	520

表2

对每个话题预测准确率最高的10个一两个单词短语。

整体	清洁	尊严
告诉	脏	粗鲁的
谢谢你！	地板上	告诉
左	左	左
粗鲁的	地板上	谢谢你！
优秀的	谢谢你！	友好的
工作人员	肮脏的	优秀的
小时	床上	粗鲁的,
问	病人	问
被告知	友好的	工作人员
友好的	小时	工作人员

表3

医院信任水平下患者调查反应与机器学习评价预测的比较。

患者调查问题	机器学习预测	斯皮尔曼相关系数	概率
在你看来，你所在的病房或病房有多干净?	机器学习对清洁标准的评价预测	0.37	P<措施
总的来说，你觉得你在医院里受到了尊重和尊严吗?	机器学习预测病人是否受到了有尊严和尊重的对待	0.51	P<措施
总的来说，你如何评价你所得到的护理?	机器学习预测病人是否会推荐	0.46	P<措施

图1

情感分析法与传统纸质调查方法推荐医院比例的比较

讨论主要研究结果

我们的结果加强了早期的发现，即对患者在线评论的情绪分析是可能的，具有一定的准确性[ 10]，并有可能找出检讨的突出方面[ 25］．我们还表明，如果处理得当，自由文本中的非结构化评论与英国所有医院每年进行的纸质调查的患者体验结果相关。这与先前的工作一致，该工作表明，在卫生保健评论网站上遗留的结构化在线护理评级与传统满意度调查之间存在显著关联[ 12］．这些结果表明，有一种潜在的机制可以利用互联网上人们描述自己护理的大量文本，进一步探索自由文本评论中包含的信息可能是理解患者经历的重要途径，为补充传统调查方法提供额外的信息来源。

优势与局限

通过机器学习方法进行的情感分析只能与用来通知它的学习集一样好。通过几年来利用一个完整的国家评级系统，我们已经能够在这个学习集中使用比其他研究更多的评级。事实上，我们的学习集是早期工作的10倍多。 9］．此外，在情感分析应用于医疗保健数据时，研究人员必须通过审查评论并赋予评论特征来训练系统本身，以便让算法进行学习。我们使用了一个大型数据集，允许我们直接比较自由文本评论和同一患者发布的定量评级，从而消除了评审员分配评论的潜在偏差。同样，在NHS住院病人调查和在NHS选择网站上询问的关于健康服务的问题的一致性允许对病人的意见和我们认为以前没有报道的调查进行直接比较。

网站上未经征求的在线评论很可能对好的和坏的护理都有自然选择的偏见。这些在线评论很可能更多地是由一些特定的人口群体贡献的，包括更年轻和更富裕的人。 26］．此外，情绪分析很难处理患者评论的某些方面。说英语的人在谈论他们的关怀时经常采用的反讽、讽刺和幽默，用这种方法不容易发现。使用先验极性改善了结果，减轻了一些口语化措辞，但理解那些依赖上下文的短语有困难。例如，重复出现的短语，如“臭尿味”或“像天使一样”，很容易被定性为消极或积极的。然而，如果不了解上下文，就很难确定其他常用短语的意思。最好的例子就是“一杯茶”这个短语。在这些数据中，许多不同的评论都提到了它，但在不了解上下文的情况下，不可能把它分配到一个直接的情感。“‘他们甚至没有给我倒杯茶’和‘护士甚至给我倒了杯茶’是非常不同的。我们目前的算法还不能利用茶杯或类似短语的参考信息，而这些参考信息在具体情况下可以用肉眼清楚地看出来。 Future attempts to improve a natural language processing ability for patient experience would have to develop the capacity to accurately interpret this level of context-specific and idiomatic content. We appreciate that in this early exploratory work, we are not using the most state-of-the-art machine learning algorithms seen in other industries [ 27]，或分类选择的方法[ 28]，但希望进一步的工作能够采用这一方法。

进一步研究问题

需要进一步的研究来提高情绪分析工具的性能，将这一过程扩展到互联网上其他形式的自由文本信息，并探索患者在线表达的观点与临床医疗质量之间的关系。例如，可以添加一些技术组件来改进这个过程，包括考虑更多的n-g(较长的短语)和细化上下文极性(理解一个单词或短语在句子中的上下文意味着什么)。将此分析中使用的相对简单的技术与用于情感分析和意见挖掘过程的其他平台和工具进行比较也会很有用，例如WordNet Affect [ 29]及SentiWordNet [ 30.， 31］．

政策影响

大量关于服务使用的数据以数字形式收集。其中一个重要的方面是消费者的意见和体验。今天，许多人通过互联网和社交媒体表达他们的观点，分享他们对商品和服务的体验。这些数据转化为信息，对于改善服务、促进消费者选择和在某些部门探索公共问责制和纳税人资金使用的价值至关重要。

从本质上讲，信息是高度个性化的、特殊的和习惯的。然而，如果它是有用的，它必须以不完全依赖于读取单个贡献的人(尽管这对消费者是有价值的)或允许聚合所必需的预先结构化响应的方式进行分析。“大数据”挑战的一个解决方案是找到分析非结构化叙事评论的自动化方法，这是一个潜在的丰富的学习来源。在这方面，医疗保健与许多其他行业没有什么不同，尽管它可能比其他行业更慢地认识到它的重要性。

随着我们对数据挖掘和情绪分析技术的信心增长，这类信息可以被医疗保健提供者和监管机构定期收集、处理和解释，以监控业绩。此外，信息可以从许多不同的在线文本来源，如博客和社交媒体。如果可以从这些地点收集这些信息，然后处理成及时和相关的数据，这将是提高质量的宝贵工具。我们之前曾提出，随着评级网站、社交网络和微博使用量的增加[ 3.， 4]，这种免费文本信息代表了一个日益增长的、基本上尚未开发的数据来源，可以被视为“患者经验云”[ 32］．包括Alemi在内的其他人也讨论了类似的想法，Cambria和同事描述了医疗服务的“人群验证”概念[ 10， 33］．这有可能以比传统调查方式更低的成本提供有关患者体验的最新信息。它还可以让更年轻、更懂技术的群体——他们通常对纸质调查反应不佳——的观点得到抽样。最终，如果能够收集到足够多的数据，并可靠地再现预测精度，甚至有可能开发出一种接近实时的临床护理不良早期预警系统。然而，在过分相信定量方法之前，应谨慎行事，因为这类信息的定性分析众所周知可提供有用的见解[ 34］．定性和定量方法应被视为相辅相成的。

结论

这项研究表明，对患者对其医疗体验的评论进行情感分析是可能的，而且这种新方法与通过调查等传统方法测量的患者体验相关。这项工作为越来越多的文献提供了一个新的理解，即从患者在社交网络、博客和评级网站上发布的在线信息中了解他们的护理观点。虽然还处于早期和实验阶段，但它为接近实时地了解医疗保健系统性能提供了未来的可能性。贝茨及其同事将以患者为中心的护理和社交媒体的融合描述为一场“完美风暴”，这可能对公众和卫生保健组织具有重大价值[ 35］．这些早期的发现暗示了这可能是如何发生的。

缩写

类似hcahp

医疗保健提供者和系统的医院消费者评估

现

Naïve贝叶斯多项式

国民健康保险制度

国民保健制度

NHSC

NHS精选

中华民国

接收机工作特性

支持向量机

我们要感谢NHS Choices的团队，特别是约翰·罗宾逊、保罗·努基和鲍勃·江恩，感谢他们提供了访问他们数据的权限。我们感谢简·卢卡斯回顾文字的情感。

格里夫斯博士的这项研究得到了联邦基金的支持。本文仅代表作者个人观点，不应归英联邦基金或其董事、官员或工作人员所有。米莱特博士是由英格兰高等教育基金委员会和国家健康研究所资助的。帝国理工学院初级保健和公共卫生系感谢国家卫生研究所生物医学研究中心资助计划、国家卫生研究所应用卫生研究和护理领导合作计划以及帝国患者安全和服务质量中心的支持。资金来源在研究的设计和实施中没有任何作用;数据的收集、管理、分析或解释;或手稿的准备、审查或批准。

唐纳森教授从1997年到2010年担任英格兰首席医疗官。2007年至2009年，Darzi教授在联合王国卫生部担任议会副国务大臣(上议院)。其他作者声明没有利益冲突。

医学研究所

跨越质量鸿沟:21世纪的新卫生系统 2001

华盛顿特区

国家科学院出版社

Darzi

一个

全民高质量保健:NHS下一阶段审查最终报告 2008

伦敦

卫生署

高

麦卡洛

阿加瓦尔

杰哈

正义与发展党

医生质量报告的变化:对5年来患者对医生在线评分的分析

J医学网络杂志 2012 14 1 e38

10.2196 / jmir.2003

22366336

v14i1e38

PMC3374528

格里夫斯

米勒特

在英国，在线医疗评分的数量持续增加

J医学网络杂志 2012 14 3. e94

10.2196 / jmir.2157

22742977

v14i3e94

PMC3415275

互联网用户的人口统计 2012

2013-05-16

皮尤研究中心 http://pewinternet.org/Static-Pages/Trend-Data-(成年人)/ Whos-Online.aspx

6 gffdqbqr

狐狸

年代

健康信息的社会生活 2011

2013-10-19

华盛顿特区

皮尤研究中心

http://www.pewinternet.org/Reports/2009/8-The-Social-Life-of-Health-Information.aspx

6 kuttxtjh

Tumasjan

一个

斯派格

Sandner

Welp

我

用推特预测选举:140个字符揭示的政治情绪

2010

第四届国际AAAI博客和社交媒体会议

2010

华盛顿特区

178 185

Holzinger

一个

Yildirim

现

米

Simonic

公里

帕斯

基于质量的Web医学文本知识发现Web智能计算方法实例

网络智能的高级技术-基于质量的信息检索在计算智能中的研究，人工智能课堂讲稿，LNAI 2013

柏林

施普林格

145

庞

李

意见挖掘和情绪分析发现

趋势 2008 2 1 - 2 1 138

Alemi

鸟居

米

Clementz

阿伦

直流

通过自动分析患者非结构化评论和情绪进行实时满意度调查的可行性

Qual Manag医疗保健公司 2012 21 1 9 19

10.1097 / QMH.0b013e3182417fc4

22207014

00019514-201201000-00004

信息的力量:让我们所有人都掌握我们需要的健康和护理信息 2012

2013-10-19

伦敦

卫生署

https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/213689/dh_134205.pdf

6 kuub6fqh

格里夫斯

佩普

王

Darzi

一个

马吉德

一个

韦希特尔

米勒特

在英国国民医疗服务体系中，基于互联网的患者评分和传统的患者体验调查之间的关联:一项观察性研究

BMJ Qual Saf 2012 07 21 7 600 5

10.1136 / bmjqs - 2012 - 000906

22523318

bmjqs - 2012 - 000906

弗兰克

大厅

米

组织

福尔摩斯

威滕

Weka在生物信息学中的数据挖掘

生物信息学 2004 10 12 20. 15 2479 81

10.1093 /生物信息学/ bth261

15073010

bth261

西于尔扎多蒂

正义与发展党

Jonsdottir

Benediktsson

2型糖尿病教育干预的结果:WEKA数据挖掘分析

病人教育计数 2007 07 67 1 - 2 21 31

10.1016 / j.pec.2007.03.007

17420109

s0738 - 3991 (07) 00101 - 2

Ivanciuc

Weka机器学习预测磷脂症诱发潜力

科尔托普医学化学 2008 8 18 1691 709

19075775

NHS精选 2013

2013-05-16

NHS选择数据集:医院评论和回应 http://www.nhs.uk/aboutNHSChoices/professionals/developments/Pages/NHSChoicesDatasets.aspx

6 gfeqda8o

一楼

Karpowicz

米

Furschuß

Auinger

一个

温克勒

年代

夏勒

年代

Holzinger

一个

实验室环境外意见挖掘的文本预处理研究

主动媒体技术，计算机科学课堂讲稿 2012

柏林

施普林格

646

张

金

周

古银

理解单词袋模型:一个统计框架

Int J Mach Learn & Cybe 2010 1 1 43 42

杨

需要好好

乔

文本分类中特征选择的比较研究

1997

第十四届机器学习国际会议

1997

纳什维尔

412 420

20.

McCallum

一个

尼噶的

朴素贝叶斯文本分类的事件模型比较

1998

AAAI-98“学习文本分类”研讨会

1998

麦迪逊

昆兰

小

决策树的归纳

马赫学习 1986 1 1 81 106

Breiman

装袋预测

马赫学习 1996 24 2 123 140

议会

Vapnik

支持向量网络

马赫学习 1995 20. 3. 273 297

急性信托:成人住院病人调查(2010)经济和社会数据服务 2012

2013-05-16

http://discover.ukdataservice.ac.uk/catalogue?sn=6503

6 gfedvzak

布罗迪

年代

Elhadad

在对卫生保健提供者的在线评论中发现突出的方面

AMIA Annu Symp Proc 2010 11 202 6

格里夫斯

佩普

李

史密斯

Darzi

一个

马吉德

一个

米勒特

病人在互联网上对家庭医生执业的评分:英国国民健康服务中传统的质量衡量方法的使用和关联

J医学网络杂志 2012 14 5 e146

10.2196 / jmir.2280

23076301

v14i5e146

PMC3517341

刘

情感分析和意见挖掘

人类语言技术综合讲座 2012

西雅图

摩根克莱普出版社

1 167

Demsar

多个数据集上分类器的统计比较

机器学习研究杂志 2006 7 1 30.

Strapparava

Valitutti

一个

词网情感:词网的情感延伸

2004

第四届国际语言资源与评价会议

2004

里斯本

1083 1086

30.

Baccianella

年代

Esuli

一个

塞巴斯蒂亚尼

SentiWordNet 3.0。用于情感分析和意见挖掘的增强词汇资源

2010

第七届国际语言资源与评价会议

2010

瓦莱塔

Esuli

一个

塞巴斯蒂亚尼

Sentiwordnet:一个用于意见挖掘的公开词汇资源

2006 05

第五届语言资源与评价会议

2006

热那亚

格里夫斯

Ramirez-Cano

米勒特

Darzi

一个

唐纳森

利用患者体验云:使用社交媒体来检测质量低劣的医疗保健

BMJ Qual Saf 2013 03 22 3. 251 5

10.1136 / bmjqs - 2012 - 001527

23349387

bmjqs - 2012 - 001527

威尔士

侯赛因

一个

Havasi

英国国民医疗服务的群众认证

2010

网络科学10:在线扩展社会的前沿

2010

罗利数控

拉古

高夫

Hannon

Shatz

一个

Lindenauer

英格兰医院护理患者回顾的混合方法分析:对美国卫生保健质量数据公开报告的影响

通信合格的病人安全 2013 39 1 7 15

23367647

Rozenblum

贝茨

以患者为中心的医疗保健、社交媒体和互联网:完美风暴?

BMJ Qual Saf 2013 03 22 3. 183 6

10.1136 / bmjqs - 2012 - 001744

23378660

bmjqs - 2012 - 001744