医学互联网研究杂志-医学论坛上的匿名海报能被重新识别吗?

原始论文

¹摩尔多瓦技术大学，基希讷乌，摩尔多瓦共和国

²CHEO研究所，加拿大渥太华

^3.渥太华大学，渥太华，安，加拿大

⁴隐私分析公司，渥太华，安大略省，加拿大

通讯作者:

玛丽娜·索科洛娃博士

CHEO研究所

史密斯道401号

渥太华，安大略省，K1H 8L1

加拿大

电话:1 613 737 7600 ext 4104

传真:1 613 731 1374

电子邮件:sokolova@uottawa.ca

背景:医学论坛的参与者经常在他们的在线帖子中透露自己的个人健康信息。为了不介意披露敏感的个人健康信息，一些参与者可能会通过匿名发帖来隐藏自己的身份。他们可以通过使用假身份、昵称或笔名来做到这一点，而这些身份无法轻易被追踪到。然而，每个人的写作风格都有其独特的特点，通过作者归因分析可以确定匿名用户的真实身份。尽管之前有关于作者身份归因问题的研究，但在医学论坛上关于作者身份自动归因的研究一直缺乏。本文的重点是证明在医学论坛中基于字符的作者归因比基于文字的方法工作得更好。

摘要目的:其目标是建立一个系统，可以准确地将发布在医学论坛上的信息的作者归类。Authorship Attributor系统使用文本分析技术抓取医疗论坛，并自动关联相同作者所写的消息。Authorship Attributor处理非结构化文本，而不考虑文档类型、上下文和内容。

方法:这些信息用论坛参与者的昵称标记。我们通过从一个体外受精(IVF)支持网站的2个医学论坛上收集的6000条信息的准确性来评估该系统的性能。

结果:给出两个候选作者列表(分别是30和50个候选作者)，我们得到一个F在平均长度为100至150字的信息中，识别作者的准确率为75%至80%，在长度至少为300字的信息中，识别作者的准确率为97.9%。

结论:作者可以在发布在医学论坛上的简短的自由形式的信息中成功地检测到。这引发了人们对在此类医疗论坛上匿名发帖的意义的担忧。作者身份归因工具可以用来警告希望匿名发帖的用户，他们的身份有可能被确定。

J medical Internet Res 2013;15(10):e215

doi: 10.2196 / jmir.2514

关键字

隐私；个人健康信息；医学论坛；文本数据挖掘

消费者有很多机会在网上分享他们或他们家人的个人健康故事，例如通过社交网络或疾病专题论坛。此种共享可包括披露可识别个人身份的信息(如姓名、地址、日期)以及健康信息(如症状、治疗、医疗保健)[1-3.］．事实上，19%至28%的互联网用户参加医疗在线论坛、以健康为重点的小组和社区，并访问专门针对健康的网站[4，5］．这种共享的健康信息可能会被更多的用户看到，因为58%的互联网用户报告说，他们在搜索健康信息[6］．

为了在网上发布敏感信息时保护自己的身份，消费者可能会匿名发布信息。匿名可以通过使用假身份或使用假名或昵称来实现。然而，这种确保匿名性的方法可能不是很有效。有证据表明，在线消费者在多个网站重复使用他们的用户名或用户名，这使查明他们的真实身份变得更容易。7］．即使消费者创建了一个唯一的身份，以便在特定的医疗论坛上发布信息，文本分析技术也可以组合来自不同论坛的文本数据，并将同一作者所写的内容关联起来。如果这些短信中有任何一条含有发贴者的真实身份，那么即使是匿名的帖子也可以被重新识别。Li等人提出了一个跨站点信息聚合的真实例子[8］．攻击者将从不同论坛收集的资料关联起来，然后聚合发布的信息。识别的个人信息包括实验室检测结果、患者全名、出生日期、配偶姓名、家庭住址、家庭电话号码、手机号码、2个电子邮件地址和职业。

随着用户生成的Web内容的出现，作者身份分析正越来越多地应用于网络信息[9，10］．作者身份分析的一般任务可以是几种类型的分析之一:(1)作者归因，即系统的任务是从多个作者的写作示例中将一个未知文本分配给一个作者[11，(2)作者验证，即以单个作者的写作为例，系统被要求确定某些文本是否由某个作者所写[12]，或(3)作者概况，即系统期望通过分析作者所写的给定文本来识别作者的性别、年龄、个性、文化背景等[13］．本文的重点是作者的归属问题。

这些研究的特点是候选作者数量多，培训和测试文本数量少，短信短[14-19］．在Koppel等[20.]，在作者检测任务中使用了10,000个博客，其中每个作者对应一个500字的片段作为测试示例。在文本中，20%至34%的文本被分类，平均准确率为80%;其余的文本被认为是未知的。在对同一数据集进行的另一项研究中，一篇500字的文章来自1000位作者中的1位，覆盖率为42.2%，精确度为93.2% [21］．其余57.8%的片段被认为是未知的。

然而，这些之前的工作都没有处理发布在医疗论坛或其他专门讨论个人健康信息的在线场所上的信息。文本的类型很重要，因为作者归属依赖于个人写作风格的独特特征，不能假设一个人在网上评论小说和询问医疗或诊断问题时的写作方式是一样的。

我们选择了体外受精(IVF)论坛，主办关于不孕不育和试图怀孕的讨论。这样的讨论是非常私人的，可以合理地假设个人希望匿名参与。试管婴儿网站。ca是一个不孕不育外展资源社区，由患者为未来的、现有的和过去的试管受精患者创建。网站设有多个论坛，供人们交流情感支持和信息[22］．我们没有要求对这项研究进行伦理审查，因为所有收集和使用的数据都来自公开来源。我们的机构研究伦理委员会确认，没有必要对公共数据集的研究进行审查。

不孕不育的互联网论坛最常见的用途是分享个人经验、提供信息或建议、表达感激/友谊、聊天、请求信息和表达普遍性(“我们都在一起”)[23］．我们在消息内容上应用了Authorship Attributor(一种用于识别同一作者所写消息的新系统)。我们只使用了作者在论坛上发布的文本;训练和测试文件中没有使用元数据。

分析文本特征的选择是影响作者身份归因表现的主要因素之一。文献中最常见的特征是单词长度[24，句子长度[25，类型符号比，词汇丰富度[26]，单词和单词n格(即n个单词的序列)频率[27，以及错误和癖好[28］．这些特征可以通过使用文本分析工具来获得，例如标记器(将文本序列分解为单词、阶段等，称为标记)、句子拆分器(将文本分解为句子)、lemmatizer(确定屈折词的基本形式)或词干分析器(将屈折词还原为基本形式)以及正字法和同义词词典。句法特征，例如词性和词性序列[29]、文本块[30.，词的句法依赖性[31，以及句法结构[32]已在较低程度上使用，但仍经常使用。词性标记器(为每个单词分配词性)、分块器(将文本分解为语义相关的单词序列)和句法解析器(将文本字符串分析为它们的语法元素)是获得这些特征的必要工具。以前的一些工作使用了语义特征，如同义词和语义依赖[33］．这些特性可以通过专门的字典和语义解析器获得。在一些实验中，还应用了一些特定于应用程序、内容或语言的特性。在大多数情况下，将这些特征结合起来可以获得更好的结果。

在本文中，我们描述并评估了一个新的系统，Authorship Attributor，它被构建来抓取医疗论坛并识别由同一作者撰写的消息。

作者归属任务

作者归属的任务是在给出候选作者和这些候选作者所写的文本的列表时，确定谁是文本的作者。它的方法是将新文本与考生有意写的文本进行比较。柯柏走(15比较了文学语料库、电子邮件和博客文章语料库的各种特征集和学习算法的作者归属的准确性。采用支持向量机(SVM)和贝叶斯回归算法，以信息增益最高的1000个最频繁的单词和1000个字符三字母为基础，获得了最佳的准确率(80%-86%)。

Abbasi和Chen使用了最详尽的功能集之一[34］．它包括字符、字符的纵横、标点符号和特殊字符、词的长度、虚词、词的纵横、词汇的丰富度、词性标记、词性标记的纵横、信息的长度和结构、拼写错误的单词等特征。使用这组特性进行的实验显示了良好的结果:对包括eBay评论、Java论坛、电子邮件和聊天语料在内的各种数据集，精确度为88%到96%(即正确分类文本/所有文本)。

纳拉亚南等人[10重用了这个功能集，但稍微做了一些修改。语法类别对(A, B)的频率(其中A是解析树中B的父类)被添加到前面描述的特征集中。功能的总数大约是1200个。作者在10万个博客的实验中使用了这些功能，每个博客的平均长度为7500字。在所有这类案例中，精确度和召回率之间需要权衡。在10万名作者的文本语料库中，分类器可以在20%以上的情况下正确识别匿名作者，在大约35%的情况下，正确作者是猜测的前20名之一。通过将召回率降低一半，就可以将精确度从20%提高到80%以上。

在纳拉亚南等人[10]，如果作者写的是关于不同主题的文本，内容特定的特征(如关键词)会积极影响分类的准确性。然而，许多应用程序寻求识别作者，而不考虑主题[18］．其他研究在性别和年龄分类方面取得了良好的结果[13，15］．写作中的性别或年龄差异有助于分类，但隐藏了个别作者的特征。科佩尔等人[21]进行了一个小规模的实验，使用了两个作者，他们在一个listserv集合的不同主题上发表了文章，但有人指出，要找到同一作者关于不同主题的文章是极其困难的。

Luyckx和daelans [17]观察到，当考虑大量的候选作者时，基于相似度的方法(即，匿名文档归于其已知写作最相似的作者)比分类方法(例如，使用每个候选作者的已知写作构建一个分类器，该分类器用于对匿名文档进行分类)更合适。然而，我们注意到，基于相似性的方法可以最好地应用于同一媒介中的文本(例如，来自医疗论坛的消息)，但可能不适用于来自不同媒介的文本(例如，电子健康记录vs论坛消息)。

基于字符的文本分类方法

文本分类的任务包括将给定的文本分配到预先确定的类别。大多数文本分类方法都是基于单词的(例如，它们将文本文档表示为单词向量)。相比之下，基于压缩的分类方法使用字符甚至字节作为文本表示单元。研究人员注意到，基于字符的分类方法比基于单词的方法有一个潜在的优势，因为它们能够自动捕获文档特征而不是单词。基于字符的分类分析文本的字母数量、大写字母、标点符号和其他非字母字符数量，以及各种长度的字母组合[16，35，36］．其他重要的词汇特征包括前缀和后缀[18，功能词[33和字符n-grams [15］．实验表明，基于字母的方法比基于语法信息的方法得到更精确的结果[16］．

一种已经使用的分类方法是压缩。拥有一个匿名文档和代表几个类的几组文档，将匿名文档的副本添加到每组文档中。这些组和添加的匿名文档分别被压缩。因此，由于为每一类文本创建了特定的统计模型，匿名文档对不同类型的文本进行了不同的压缩。文档被归到以字节为单位提供最大压缩的类。最大压缩意味着匿名文档与该类文档最相似，创建的统计模型最适合它。这种算法的一个相对缺点是比较慢。

Kukushkina等人描述了使用现成算法的最直接的基于压缩的文本分类方法[16］．这种方法背后的主要思想是，对于每个文本，压缩算法创建一个适应于这一特定文本类别的单独模型。马顿等人[37]实验了3种压缩算法，数据压缩文件格式RAR、gzip和LZW [38]、多个语料库和分类类型，包括作者身份归因任务。归因是对古登堡计划语料库中的《联邦党人文集》进行的[39和一个路透社子语料库。与其他压缩算法相比，RAR获得了最好的结果，对包含比其他语料库更小的文本的路透社语料库的总体精度为78%。

部分匹配预测

此案(40]将基于压缩的方法应用于一个多类分类问题，以在大型文本集合中查找重复的文档。比较了几种压缩算法，发现RAR软件和PPMD5算法的性能最好(不同条件下的准确率为84%-89%)。部分匹配预测(PPM)是一种自适应的有限上下文文本压缩方法。它是基于即将出现的角色的概率，这取决于之前的几个角色。这几个先前的角色被称为即将出现的角色的“背景”。

自算法首次提出以来[41，42，经过修改和优化。PPM在过去十年中为文本无损压缩设置了性能标准。研究表明，PPM方案几乎可以像人类一样预测英语文本[40］．PPM技术混合了不同长度的字符上下文模型，以达到预测文本中即将出现的字符的最终总体概率分布。混合方法类似于n克概率平滑的线性插值方法。已经提出了几种插值方法[43-46］．

文中给出了上下文概率插值一般方法的一个实例多媒体附件1．

PPM模型中上下文的最大长度等于5被证明是最适合文本压缩的[40］．在其他实验中，用于文本分类的字符n-grams长度从2 [16]到4 [21或几个长度的组合[34］．Stamatatos [19]指出，字符n-grams的最佳长度取决于不同的条件，并且在不同的文本中有所不同。

PPM算法使用一种转义机制来混合上下文概率。该算法试图通过使用最大上下文来估计一个即将出现的字符的概率。如果在训练过程中没有找到这个上下文，那么算法通过所谓的逃逸机制移动到较短的上下文，在这种机制中，从较长的上下文逃逸到较短的上下文的概率被估计出来，并添加到最终的概率中。如果较短的上下文的概率等于零，算法就会切换到下一个较短的上下文，依此类推。如果没有找到任何上下文，算法就用零上下文估计即将出现的字符的概率。假设我们实验中的最大上下文等于5,Authorship Attributor使用的方法全名为PPM5。我们在中提供了PPM5方法的具体细节多媒体附件2．

用布拉特科语和菲利皮克语[38，47]，以信件为基础的PPM模型被用于检测垃圾邮件。在这个任务中，只存在两个类:垃圾邮件和合法电子邮件(ham)。所创建的模型在文本检索会议竞赛中表现出了很强的性能，这表明数据压缩模型非常适合垃圾邮件过滤问题。

在Teahan等人[48]，基于ppm的文本模型和最小交叉熵作为文本分类器用于各种任务;其中一个是《联邦党人文集》的作者检测任务。研究结果支持了历史学家和其他分析人士的说法，即有争议的论文是詹姆斯·麦迪逊写的。利用PPM压缩算法的建模部分估计文本的熵。熵提供了概率质量测度的估计;熵值越低，估计的概率越好。

在Bobicev和Sokolova中[49]，将PPM算法应用于基于字符和基于词的两种方式进行文本分类。基于字符的方法表现几乎与支持向量机一样好，是Debole和Sebastiani比较的几种机器学习方法中最好的方法[50]，以获取路透社-21578文本分类集合语料库。

与其他分类方法的比较

已有多种机器学习方法用于文本分类，包括贝叶斯分类[6，决策树[18，聚类分类[15， k-最近邻(k-NN)算法[5]和神经网络[20.］．最近，支持向量机已经成为最流行的技术[14］．如前所述，单词是这些方法在文本分类中使用的最常见的特征。为了正确地看待PPM分类，特别是Authorship Attributor使用的PPM5模型，我们将其性能与更标准方法的性能进行了比较。

首先，我们应用了基于单词的PPM分类[51］．在这里，标点符号和其他非字母符号被删除，所有的字母都被转换为小写。我们使用相同的作者、文本和其他实验设置对结果进行直接比较:10次交叉验证，90个文件用于训练，每次10个文件用于测试。

接下来，我们将WEKA的Naïve贝叶斯和SVM算法作为文本分类中最常用的两种方法。这些算法能够处理从文本中提取的各种特征。大多数情况下的主要特征是频繁出现的单词。因此，我们在论坛文本中出现的所有单词的频率字典中，使用了频率在10以上的3845个单词。由于我们只从文本中提取了不含数字和标点符号的单词，所以我们添加了24个带有标点符号的特征，以及带有数字和大写字母的特征。然后，我们在一个体外受精(IVF)支持网站上运行了这组特征的分类实验。为匹配PPM特征，构建了“频繁词+标点符号+数字+大写字母”的特征集。

实证评估

医学论坛

体外受精。ca网站包括8个论坛:循环朋友，专家小组，试着怀孕，社交，在我们的心中，怀孕，育儿和管理。表1展示论坛的统计数据。每个论坛都有子论坛;例如，周期朋友论坛由6个子论坛组成:介绍，试管婴儿/FET/IUI周期伙伴，试管婴儿35岁以上，等待休息室，捐赠者和代孕伙伴，收养伙伴(见概要)表1)．每一个分论坛都由一名参与者发起的若干主题组成。例如，35岁以上试管婴儿分论坛包含506个主题，如“40岁以上和成功的机会”，“40岁以上和怀孕或尝试”等。根据主题本身和参与者的兴趣程度，每个主题对应的回复数量不同。例如，前一个主题有4个回复，后一个主题有1136个回复。

在我们的实验中，我们想要分析许多论坛用户撰写的文本。理想情况下，每个作者所写的文本数量应该尽可能多。我们专注于IVF/FET/IUI Cycle Buddies子论坛[52以及35岁以上的试管婴儿[53因为他们每个作者的发文量是最高的。对于35岁以上的试管婴儿，每个作者的平均帖子数是97.6;对于IVF/FET/IUI Cycle Buddies，每个作者的平均帖子数是137.8。子论坛选择的另一个重要标准是每个主题的平均帖子数量表1)．分析表明，一个话题通常是通过回复相同话题的其他帖子来讨论的。我们假设主题的线索越长，说明同一作者写的文章越多。

表1。对体外受精分论坛的分析统计。Ca网站在数据收集的时候。

Subforum名字	话题,n	帖子,n	每个主题的帖子，意思是
简介	1716	13569年	7.91
IVF/FET/IUI循环伙伴	2167	116994年	53.99
体外受精年龄35岁以上	506	16362年	32.34
休息室等候	418	3816	9.13
捐赠者和代孕伙伴	893	7381	8.27
采用伙伴	304	4210	13.85

文本检索

我们设计了一个Web爬虫来从Web论坛检索消息，并将其应用于前面提到的两个子论坛。使用爬虫检索信息的三个主要阶段包括:(1)获取网站，(2)解析该网站内网页的超文本标记语言(HTML)内容，以及(3)将检索到的数据存储到数据库中。我们在设计中使用了PHP、Apache Server和MySQL的组合数据库管理系统。

每个帖子的数据包括论坛名称、子论坛名称、主题名称、帖子作者名称、帖子作者角色、帖子日期和帖子内容。我们的代码解析HTML内容，以获得对应于给定文章的每个组件，并将每个组件放在数据库中相应的表列中。后续实验使用Post内容数据。

消息预处理

我们根据作者对帖子进行分组，看看每个作者产生了多少文本。我们将作者的数据按每个作者发表文章的数量按降序排列。总共有865位作者在IVF 35岁以上分论坛发帖，1195位作者在IVF/FET/IUI Cycle Buddies论坛发帖。两个子论坛的每个作者分发的帖子数量见图1．

我们想要分析尽可能多的作者。同时，我们希望这些作者有足够多的帖子来获得有意义的结果。因此，这是作者数量和帖子数量之间的权衡，两个数字都尽可能大。对于10次交叉验证，每个作者100篇帖子就足以运行机器学习实验[54］．在体外受精35岁以上分论坛，30位作者发布了100多条信息。关于最多产的30位作者的统计在图2而且3.，其中每个作者的总发文数和平均发文长度以字数计算(平均126.2字，标准差47.5)。在IVF/FET/IUI Cycle Buddies分论坛中，50位作者发表了超过100篇帖子;因此，他们的文本量更大，但帖子的平均长度(平均97.7字，SD 36)比体外受精35岁以上分论坛的短。

图4显示了IVF年龄35岁以上分论坛中每个被分析作者的每个主题的帖子数量。大多数作者在每个主题上发布了大约10到20条消息。至少一半的作者发表了超过20个主题。如此丰富的主题多样性确保了作者的分类不受主题特征的影响。

在我们的案例中，帖子的平均长度也很重要，因为很难识别短消息的作者。体外受精35岁以上分论坛的帖子平均长度约为750个字符，体外受精/FET/IUI循环伙伴分论坛的帖子平均长度约为600个字符。假设维基百科上每个单词的平均字符数是5.2个字符[55]，我们估计分论坛帖子的平均长度约为100至150字。

经过对数据的检查，我们发现有些帖子包含了其他的帖子;例如，“今天这里很热+40°C的湿度。夏天终于来了!我太嫉妒了——今天我的办公室开着暖气!”在某些情况下，甚至有2个包含物，一个在另一个里面，所以3个作者的作品样本被混合在一个消息中。这样的帖子可能会误导个别作者的写作风格，应该从进一步的考虑中删除。在IVF 35岁以上分论坛上，我们删除了16,362个帖子中的1593个(9.74%);14 832个员额有待进一步分析。在IVF/FET/IUI Cycle Buddies子论坛上，我们删除了5151篇帖子(占15.24%);28 640个员额有待进一步分析。

不需要对员额进行其他预处理。帖子中没有署名或其他关于帖子作者的个人信息。一些帖子使用了作者的个人姓名，但大多数情况下使用了昵称。

图1。选定的子论坛，IVF 35岁以上(n=865)和IVF/FET/IUI Cycle Buddies (n=1195)的每个作者分布的帖子数。

图4。IVF年龄35岁以上分论坛(n=30)中每个作者(最多产的)每个主题的发帖数。

分析

实验1:角色选择

我们使用不同的字符集测试PPM方法。我们研究了大写字母和非字母字符(如@，#，$，!)是否包含关于作者写作风格的额外信息。

为了进行分析，我们找到了60位作者，他们发布了至少100条消息:30位作者来自IVF 35岁以上分论坛，30位作者来自IVF/FET/IUI Cycle Buddies分论坛。来自同一作者的信息代表一个类。结果，我们在IVF Ages 35+数据集中有3000条消息，在IVF/FET/IUI Cycle Buddies数据集中有3000条消息。在每个数据集上，我们使用10倍交叉验证运行分类实验。这意味着要进行10次实验;在每次运行中，2700个岗位用于培训，300个岗位用于测试。基于交叉验证的结果，建立了混淆矩阵，并建立了精度、查全率和查全率F计算得分[56］．

图2说明作者的文本数量差异很大。文章的数量从800多到100，平均文章长度从一个作者的近250字到另一个作者的不到50字不等。这种不平衡严重影响了第一次实验的结果:分类偏向于训练数据量较大的类。这种阶层分布不均的问题在以前的研究中也有提及[10，19，49］．考虑到不平衡的数据在很大程度上影响了分类结果，我们决定让数据更加平衡。我们为每个作者使用10个测试文本和90个训练文本，从训练集中删除额外的文本。

即使在这种情况下，由于不同的职位长度，我们得到了一个不平衡的类分布。因此，有必要进行一些规范化。我们使用一种归一化过程来平衡统计数据模型的熵。归一化过程如下:在训练过程中，对每一类文本建立统计模型，估计文本元素的概率。训练结束后的下一步是在每个类模型的基础上计算测试文档的熵。我们得到了一个熵矩阵(类统计模型×测试文档)。列是类统计模型的熵，行是测试文档的熵。在此步骤之后，应用归一化过程。该过程包括以下几个步骤:(1)计算矩阵中每一列的每一类文本的平均熵，(2)矩阵中的每一个值除以该类的平均熵。因此，我们得到了更平衡的值，分类有了很大的改善。 We used normalization in all the PPM5 experiments.

实验2:归因来自不同子论坛的帖子

机器学习方法对同一类型的文本效果更好;例如，科佩尔等人[21他分析了跨话题作者识别。我们对同一作者在不同子论坛上发布的文本进行了实验。在这些实验中，我们分析了所有在一个以上的子论坛发帖的作者。对于每个作者，我们从一个子论坛提取训练文本，从其他子论坛提取测试文本。我们发现9位作者在1个子论坛(用于培训)中至少有90个帖子，在其他子论坛中至少有10个帖子(用于测试)，1位作者在同一个子论坛中有88个帖子，在其他子论坛中有超过10个帖子。这10位作者都参与了实验。在表2，我们显示了每个子论坛的作者和他们的帖子分布的统计数据。

表2。统计作者和他们的帖子分布每分论坛。

作者	Subforum n
作者	简介	Cycle_Buddies	Age_35 +
作者1	3.	6	278
作者2	35	445	1
作者3	7	91	3.
作者4	30.	11	69
作者5	6	88	30.
作者6	67	264	4
作者7	13	16	820
作者8	54	94	1
作者9	8	7	355
作者10	5	130	6

实验三:重要数据因素

概述

我们测试了哪些数据因素影响作者识别的准确性。在保持方法和职位表示不变的情况下，我们分析了3个被认为是重要的数据因素:作者数量、训练数据量和测试文本量。

候选作者数量

在这组实验中，我们研究了候选作者的数量和作者身份识别的准确性之间的相关性。我们再次为每个作者使用100个帖子，将他们分成10个帖子用于测试，90个帖子用于10倍交叉验证的培训。对于两个子论坛，我们重复了实验，从10位作者开始，每次迭代增加5位作者。对于35岁以上的IVF分论坛，我们有30位作者的限制，而对于IVF/FET/IUI Cycle Buddies分论坛，我们有50位作者的限制。

培训数据量

训练数据量被认为是机器学习方法中最具影响力的参数之一。本实验分析了训练数据量对准确率的影响。我们使用了来自两个子论坛的混合候选作者。我们选择了前30位作者[54]，并为每位作者使用了200篇文章。首先，20个员额用于测试，180个员额用于培训。然后，对于每个作者，我们减少20个培训职位，重复减少，直到我们达到每个作者只有20个培训职位。其余设置与之前的实验相同:10倍交叉验证和PPM5方法，使用所有字符，包括大写字母。

测试文本的大小

最后一个关键因素是测试文本的大小。正如前面所描述的，我们将每个帖子都视为应该被检测到的独立文本作者。有些帖子真的很短，不到5个字。这种职位无法分类。因此，我们决定统一测试文本的大小。我们将所有测试文本合并为一个文本，然后将这个文本分割成相同的片段，以字数衡量它们的长度。在执行这些实验时，使用了为前一个实验创建的两个子论坛的混合作者列表。我们只使用前30位作者的文章中文本量最大的作者。所有作者都有至少200个帖子。在10个交叉验证实验中，我们使用160个文件作为训练集，测试集的其余40个文件被合并并分成指定字数的相等片段。 We repeated the experiments changing test text length starting with 25 words, adding 25 more words each time until the test text reached 500 words per author.

实验四:与其他分类方法的比较

我们将PPM5的结果与运行Naïve贝叶斯和支持向量机算法得到的结果进行比较。这两种算法通常用于文本分类和作者归属[15，49］．

性能的措施

在文本分类中，有效性是由精确度和召回率的结合来衡量的。精度是属于某一类而实际上属于该一类的文件的百分比，计算方法为精度=真阳性/(真阳性+假阳性)，其中真阳性是属于某一类但实际上属于该一类的文件的数量，假阳性是属于该一类但不属于该一类的文件的数量。

召回率是属于某一类但实际上被归入该一类的文件的百分比，计算方法为召回率=真阳性/(真阳性+假阴性)，其中假阴性是确实属于该一类但未归入该一类的文件的数量[57］．

平衡F分数是精度和召回率的调和平均值，计算为F得分= 2([精度×召回率]/[精度+召回率])。

当计算多个类别的有效性时，个别类别的结果可以用几种方法求平均值[58微平均(例如，…的全球平均)F不分主题的得分)或宏观平均(例如，的平均F所有话题的分数)。在我们的实验中，我们计算了宏观平均F得分。

结果的推广

我们估计了PPM5结果(精密度，召回率，和F得分)t对Naïve贝叶斯和支持向量机获得的测量进行测试。每一种方法的比较都是在相同论坛数据的实证结果上进行的。因此，我们应用了成对的t测试，它比未配对版本更加严格。

实验1:角色选择

我们首先从35岁以上的IVF分论坛报道了归因的准确性。我们使用了来自30位作者的数据，每个作者发布100篇文章，并运行了10次交叉验证、90次训练和10次测试消息，以选择最佳性能。我们调查了基于字母和基于字符的方法的影响，包括原始的大写和转换成小写。研究结果发表于表3显示基于字符的PPM在处理包括大写字母在内的所有字符时表现更好。

同样的实验也在IVF/FET/IUI Cycle Buddies子论坛帖子的基础上进行，30位选定作者每人使用100个帖子。研究结果见表4．

实验2:归因来自不同子论坛的帖子

为了在IVF 35岁以上的子论坛上使用基于单词的PPM分类模型获得结果，我们使用了1次分类器训练，然后在测试集中测试分类器。我们使用了来自一个分论坛的90篇培训帖子和从其他分论坛收集的10篇测试文本。结果:精密度= 0.822，查全率= 0.810，F得分= 0.816。略有下降F分数可以用很少的帖子来解释。在许多情况下，帖子非常短，特别是测试帖子，这影响了结果。

实验三:重要数据因素

作者数量的影响

我们使用了与其他实验相同的数据集:每个作者100个帖子，10个用于测试，90个用于训练，10次交叉验证。对于两个子论坛，我们重复了改变作者数量的实验。表5而且6呈现两个子论坛的结果。图5演示了作者数量和归因的准确性之间的依赖关系。

表3。体外受精35 Ages +分型结果10次交叉验证，30个作者，每个作者100篇帖子。

模型	F分数	精度	回忆
信	0.793	0.803	0.784
字符小写	0.822	0.830	0.831
原始资本	0.826	0.836	0.817

表4。IVF/FET/IUI Cycle Buddies分论坛作者识别分类结果10次交叉验证，30个作者，每个作者100篇帖子。

特性	F分数	精度	回忆
信	0.836	0.851	0.822
字符小写	0.887	0.896	0.877
原始资本	0.902	0.911	0.894

表5所示。作者检测任务的准确性依赖于IVF/FET/IUI Cycle Buddies子论坛上的候选作者数量。

作者数量	F分数	精度	回忆
10	0.965	0.967	0.963
15	0.932	0.937	0.927
20.	0.924	0.931	0.917
25	0.912	0.921	0.904
30.	0.902	0.911	0.894
35	0.881	0.891	0.872
40	0.845	0.856	0.835
45	0.838	0.849	0.827
50	0.831	0.842	0.820

表6所示。体外受精35岁以上分论坛上作者检测任务的准确性依赖于候选作者数量。

作者数量	F分数	精度	回忆
10	0.919	0.921	0.916
15	0.918	0.922	0.914
20.	0.885	0.889	0.882
25	0.875	0.882	0.869
30.	0.826	0.836	0.817

图5。在IVF/FET/IUI周期伙伴和IVF年龄35岁以上的子论坛上，作者检测任务的准确性依赖于候选作者数量。

训练数据规模的影响

分析了归因精度与训练数据量的关系。这些实验的结果在表7．的F当培训文本数量达到100篇时，得分从0.5迅速上升到0.8。在此之后，训练集的增加并没有改变F得分。错误中的图表:没有找到参考源图6可视化培训文件数量与F得分。

测试文本大小的影响

我们检查了测试大小(单词)对作者归因的影响。表8总结了实验结果。的F随着文本从25字增加到100字，分数迅速增加，然后缓慢增加，直到测试文本达到275字。之后，F分数有波动，但总体趋势仍在上升。文本大小和F分数显示于图7．

表7所示。作者检测任务的准确性依赖于训练数据量。

培训文件数量	F分数	精度	回忆
20.	0.503	0.496	0.511
40	0.668	0.669	0.667
60	0.765	0.773	0.758
80	0.794	0.800	0.787
One hundred.	0.806	0.812	0.800
120	0.815	0.823	0.808
140	0.826	0.834	0.819
160	0.834	0.841	0.827
180	0.837	0.843	0.831

表8所示。测试文件大小对作者检测任务结果的依赖性。

测试文件大小(字)	F分数	精度	回忆
25	0.605	0.613	0.599
50	0.752	0.759	0.745
75	0.825	0.833	0.817
One hundred.	0.886	0.895	0.877
125	0.907	0.914	0.901
150	0.920	0.926	0.915
175	0.936	0.940	0.933
200	0.948	0.952	0.943
225	0.958	0.963	0.953
250	0.962	0.967	0.957
275	0.970	0.973	0.967
300	0.973	0.976	0.971
325	0.972	0.975	0.969
350	0.976	0.979	0.973
375	0.975	0.978	0.973
400	0.979	0.981	0976年
425	0.977	0.980	0.975
450	0.980	0.982	0.978
475	0.978	0.980	0.975
500	0.979	0.982	0.977

实验四:与其他分类方法的比较

当我们将我们的方法与其他分类方法的性能进行比较时，结果是不均匀的。对于35岁以上的IVF分论坛，支持向量机在最复杂的特征集上给出了最好的结果(F分数= 0.766)。Naïve贝叶斯算法只在频繁的单词上表现更好，但它的F得分仅为0.636。对于IVF/FET/IUI循环伙伴子论坛，SVM再次更好，但这一次是频繁的5字符序列(F分数= 0.701)。最好的Naïve贝叶斯只对频繁的单词(F分数= 0.575)。的F这些方法在两个子论坛上的不同功能集上获得的得分在表9．

研究结果表明，在作者归属方面，基于词的分类不如基于字符的分类。此外，PPM在该任务的实验报告中优于Naïve贝叶斯和SVM。

PPM5结果的统计学意义

的tIVF35+子论坛的测试结果显示，PPM5优于Naïve贝叶斯，且差异显著(P=。02，标准误差的差值=0.025)。PPM5的表现明显优于SVM (P=。001，差值的标准误差=0.002)。的t体外受精/FET/IUI周期伙伴分论坛的测试结果显示PPM5明显优于Naïve贝叶斯(P=。008，标准误差的差值=0.027)。PPM5的表现明显优于SVM (P<。001，差值的标准误差=0.001)。

表9所示。结果作者检测任务使用Naïve贝叶斯和支持向量机(SVM)分类模型在WEKA中实现。

Subforum	特性	F分数
		朴素贝叶斯	支持向量机
体外受精年龄35岁以上	只使用频繁的单词	0.636	0.760
体外受精年龄35岁以上	频繁使用的单词+标点符号+数字+大写字母的频率	0.624	0.766
体外受精年龄35岁以上	频繁的5个字符序列	0.586	0.743
IVF/FET/IUI循环伙伴	只使用频繁的单词	0.575	0.690
IVF/FET/IUI循环伙伴	频繁使用的单词+标点符号+数字+大写字母的频率	0.567	0.694
IVF/FET/IUI循环伙伴	频繁的5个字符序列	0.550	0.701

主要研究结果

在这项研究中，我们旨在通过经验检验在医学论坛上识别在线帖子作者的准确性。考虑到个人可能不愿意在网上论坛分享个人健康信息，他们可能会选择匿名发帖。通过分析文本的具体特征来确定匿名帖子的身份的能力引发了关于健康消费者使用匿名帖子作为一种方法来控制公众对他们的了解的问题。我们测量了直接作者匹配的准确性为一个单一的帖子产生F平均100 - 150字的信息得分75% - 80%。对于包含至少300字的信息，我们获得了一个F评分0.979。

这项工作的重点是证明基于字符的PPM5可以以较高的准确性识别作者。根据这些结果，我们可以断定我们的假设是正确的。我们已经证明了PPM5的应用可以自动识别在线帖子的作者。我们的方法能够正确地以高置信度(即，F得分达到0.979)。PPM被证明可以创建最好的统计文本模型，并且几乎可以像人类一样预测它[40］．

应该指出的是，数据非常不平衡。有些作者发表了几百篇文章，有些只写了几十篇。此外，一些作者发布了带有描述和讨论的长文，一些人倾向于只对其他帖子发布简短的回复，例如，“GF -我很抱歉”，“恭喜丽莎!以及“萨菲，我爱你。”因此，我们必须应用文本规范化。特征集是作者归因方法中最重要的因素之一。PPM是基于字符的，因为它使用字符n-grams作为特征。尽管PPM可以应用于基于单词的级别，但在文本分类任务中，它的表现并不优于基于字符的PPM [51］．许多研究人员在作者检测任务中使用字符和字符n-gram [16，35，36］．字符n-grams以一种自然的方式捕获了其他方法使用的大部分特征，如前缀和后缀、介词、代词、连词、缩写和其他经常使用的单词、错误和特性、标点符号、特殊符号(如微笑)，以及其他，无需复杂的预处理。

在我们的实验中，我们发现文本中的所有字符对作者写作风格的检测都很重要。实验结果表明，不同非字母字符的使用改善了基于字符的PPM实验结果。

在我们的实验开始时，我们看到在IVF/FET/IUI Cycle Buddies子论坛上发布的短消息往往分类结果较差。我们为30位被分析作者的实验选择了排名前100位的长文章。因此，IVF/FET/IUI循环伙伴分论坛的归因有了很大的提高，甚至比IVF年龄35岁以上的分论坛更好。

一些致力于作者归属问题的著作表达了对特定主题特征的担忧，这些特征有助于分类，但并没有真正呈现作者的特定写作风格[10，13，15，18］．为了验证我们的分类方法在不同主题上的工作能力，我们找到了10位在几个子论坛上发帖的作者。我们使用来自1个子论坛的培训文件和来自其他子论坛的测试帖子进行了一个实验。的归因F评分下降了(35岁以上IVF分论坛从0.826降到0.816)。这可以用我们不得不使用的短帖子来解释(例如，“欢迎，很高兴你找到了这个网站!”)。在之前的实验中，我们可以删除这样的短帖子;在这一个，我们没有足够的职位来做这个。

与其他分类方法的比较表明，基于字符的PPM方法给出了最好的结果F35岁以上的IVF分论坛得分为0.826，使用非字母符号和大写字母。基于单词的PPM、Naïve贝叶斯和支持向量机在同一个子论坛上的应用效果不如基于字符的PPM;例如，最好的F支持向量机得到0.766分。为了评估算法的整体性能，我们分析了PPM5结果与Naïve贝叶斯结果、PPM5结果与SVM结果之间差异的显著性。我们应用了配对t测试表明，从每个子论坛和所有算法对收集的数据上，差异具有统计学意义。

作者分类有3个影响因素:(1)候选作者数量，(2)训练数据量，(3)测试文本大小。我们利用两个分论坛的数据分析了这3个因素。

首先，我们将35岁以上试管婴儿的作者数量从10人增加到30人，将试管婴儿/FET/IUI周期伙伴的作者数量从10人增加到50人。主要结论是，该方法能够处理更多的作者，而准确性损失相对较小;在有10个候选作者的帖子中，90%以上的作者被检测出是正确的，而在有30个作者的帖子中，我们的准确性损失不到10%。当作者的数量进一步增加到50人时，准确率再次下降了不到10%。减少取决于作者从实验集中添加或删除。一些作者倾向于写相对较长的信息，他们的帖子更容易使用这种方法。有一些作者倾向于在其他帖子上写大量的短回复(10-20个单词)，识别精度相当低。即使有50个候选作者F得分约为0.83。为了与之前作者归属的结果进行比较，在Kukushkina等[16]，对俄罗斯作家语料库中的82部文学作品的准确率达到73%，但他们使用的训练和测试文本的数量要大得多。Luyckx和daelans [17]研究了准确性对作者数量的依赖性，在10位作者中获得了82%的准确性，但在50位作者中准确率下降到不到50%。

接下来，由于训练数据量被认为是所有统计方法中最具影响力的因素，我们测试了准确性和用于训练的文件数量之间的关系，从20个文件开始更改后者，每次增加20个，直到达到180个文件。的F前100个文件的得分增长很快——从0.50到0.80——然后增长放缓。我们假设达到F分数= 0.90，我们的训练数据要比测试数据多10倍。实际上，这很难实现。

在有训练数据量的实验中，我们的效果最好F得分为0.837。比第一组实验的结果要大。我们可以通过混合两个子论坛的文本来解释这一增长。子论坛的内容不同，这有助于更精确地对消息进行分类。当我们想要识别在各种子论坛上发布消息的作者时，这种方法可能很有帮助。

我们在实验中测试的最后一个因素是测试文本的大小。最初我们将每一篇文章视为独立的测试文本，并基于这些设置进行所有实验。我们注意到一些帖子非常短(3-5个单词)，就像前面展示的例子一样。因此，我们用较长的测试文本片段进行了实验。即使是25个字的信息也能被识别F得分高于0.60，并持续增长，直到消息长度达到300字。的F对于长度在300到500字之间的信息，得分实际上保持不变(大约0.97)。我们可以得出结论，这是该方法的准确性极限，对于长度至少300字的信息，它达到了。

基于已报道的研究和获得的经验证据，我们得出结论，作者可以成功地检测发布在医学论坛上的自由形式的信息。

限制

我们在这项研究中专门关注试管婴儿论坛;因此，我们的研究结果仅限于体外受精。目前还不清楚这些结果是否可以推广到关注不同主题(如戒烟、心脏病、癌症)的论坛。对不同论坛主题的研究应进一步扩大这些结果。

此外，目前还不清楚试管受精论坛的结果是否有助于识别在其他论坛(如戒烟论坛)上发帖的匿名用户。某些文本特征可能是特定于某个主题的，对于在不同主题的论坛中识别匿名作者可能并不有用。

实际意义

我们的研究结果的主要含义是，他们应该提醒用户不要匿名发布敏感信息。鼓励用户输入的在线属性的管理者也应该提醒他们的用户匿名的重要性。实验结果表明，基于字符的作者归属方法比基于单词的作者归属方法更有效。这些是论坛分析的新结果，因为通常的文本分析方法是基于语义并分析单词、短语和其他文本片段的使用。为提高论坛成员的安全，我们建议论坛组织者更多地关注论坛成员的个性特征。

这是否意味着匿名发帖是徒劳的，所有的消费者都应该使用真实身份?向前看，情况就不一定是这样了。未来的工作可以扩展诸如Authorship Attributor之类的工具，以:(1)提醒匿名发布者确定其身份的难度，这样他们就可以对其发布的内容做出更明智的决定(例如，通过告知发布了许多相同主题的帖子的消费者，他们的帖子比发布了许多不同主题的帖子的消费者有更高的机会通过其帖子被重新识别)。(2)自动修改文本，调整其特征，使其与来自同一作者的其他文本的相关性降低，因此，作者属性(Authorship Attributor)等工具令人沮丧。

利益冲突

没有宣布。

‎

多媒体附件1

上下文概率插值一般方法的一个实例。

PDF档案(adobepdf档案)，63KB

‎

多媒体附件2

PPM5方法的细节。

PDF档案(adobepdf档案)，41KB

van der Velden M, El Emam K。“不是我所有的朋友都需要知道”:一项关于青少年患者、隐私和社交媒体的定性研究。J Am Med Inform Assoc 2013 1月1日;20(1):16-24。(CrossRef] [Medline］
Bobicev V, Sokolova M, Jafer Y, Schramm D.从带有个人健康信息的推特中了解情绪。在:人工智能的进展，2012年发表于:第25届加拿大人工智能会议;2012年5月28-30日;加拿大多伦多，第37-48页。(CrossRef］
韦茨曼，科尔，卡奇，曼德尔，杜兰特。社交但安全?糖尿病相关在线社交网络的质量和安全。J Am Med Inform Assoc 2011年5月1日;18(3):292-297 [免费全文] [CrossRef] [Medline］
Balicco L, Paganelli C.获取健康信息:从专业到公共实践。《信息系统与经济情报》，2011年发表于:第四届国际会议- SIIE ' 2011;2011年2月17日;摩洛哥马拉喀什。
Renahy E. Recherche d’information en matière de santé sur Internet: déterminants, pratiques et impact sur la santé et le recours aux soins。巴黎:Université皮埃尔和玛丽·居里-école;2008.
Atkinson NL, Saperstein SL, Pleis J.使用互联网进行健康相关活动:来自全国概率样本的发现。J medical Internet Res 2009;11(1):e4 [免费全文] [CrossRef] [Medline］
Perito D, Castelluccia C, Kaafar M, Manils P.用户名的独特性和可追溯性如何?正确之处:隐私增强技术。海德堡:施普林格;2011:1-17。
李飞，邹鑫，刘鹏，陈建勇。健康数据隐私的新威胁。BMC生物信息学2011;12增刊12:S7 [免费全文] [CrossRef] [Medline］
郑锐，李娟，陈浩，黄铮。网络信息作者身份识别框架:写作风格特征与分类技术。科学通报2006年2月01日;57(3):378-393。(CrossRef］
Narayanan A, Paskov H, Gong NZ, bethcourt J, Stefanov E, Shin ECR，等。论网络尺度作者识别的可行性。2012年发表于:IEEE安全与隐私研讨会(SP);2012年5月20-23日;旧金山，约300-314页。(CrossRef］
作者身份识别的核方法和字符串核:《联邦党人文集》案例。见:自然语言处理的最新进展V.阿姆斯特丹:John Benhamins出版公司;2007:27-29。
作者身份验证的一类分类问题。见:第21届机器学习国际会议论文集。2004年发表于:第21届机器学习国际会议;2004;班夫，AB. [CrossRef］
Argamon S, Koppel M, Pennebaker JW, Schler J.自动剖析匿名文本的作者。通信ACM 2009 Feb 01;52(2):119-123。(CrossRef］
Juola P.作者归属。FNT在信息检索中的应用2007;1(3):233-334。(CrossRef］
王晓燕，王晓燕。作者身份归因的计算方法。中国科学院学报2009 Jan;60(1):9-26。(CrossRef］
库库什金娜OV，波利卡尔波夫AA，赫梅列夫DV。使用文字和语法统计的作者归因。信息传播问题2001;37(2):172-184。(CrossRef］
Luyckx K, Daelemans W.作者归属验证与多作者有限的数据。见:第22届计算语言学国际会议论文集-第一卷。2008年发表于:计算语言学国际会议;2008年8月18-22日;英国曼彻斯特。
Madigan D, Genkin A, Lewis DD, Lewis EGDD, Argamon S, Fradkin D，等。大规模的作者识别。见:北美船级社会议的议事日程。海德堡:施普林格;2005.
现代作者归因方法综述。科学通报:2009年3月60日(3):538-556。(CrossRef］
柯佩尔M, Schler J, Argamon S, Messeri E.数千名候选作者的作者归属。见:第29届ACM年度信息检索研究与发展国际会议论文集。2006年发表于:信息检索研究与发展学术会议;2006年8月06-10日;西雅图,华盛顿州。
科佩尔，施勒，阿加蒙。野外作者归属。郎资源与评价2011;45(1)。(CrossRef］
体外受精。ca论坛网址:http://ivf.ca/forums/[访问2013-04-19][WebCite缓存］
马利克·什，科尔森·NS。在线应对不孕症:在线不孕症支持小组中自助机制的检查。2010年11月81(2):315-318。(CrossRef] [Medline］
Brinegar CS。马克·吐温和昆图斯·柯蒂斯·斯诺格拉斯的信件:作者身份的统计检验。美国统计协会杂志1963年3月58(301):85-96。(CrossRef］
希腊散文的作者。皇家统计学会学报A辑(一般)1965;128(2):169-233。
Tweedie FJ, Baayen RH。常数可以是怎样的变量?词汇丰富度的测量方法。计算机与人文科学1998;32(5):323-352。(CrossRef］
胡佛DL。频繁的搭配和作者风格。文学与语言计算2003年9月01日;18(3):261-286。(CrossRef］
作者归因的体裁特征研究。2003年发表于:IJCAI ' 03风格分析与综合计算方法研讨会;2003年8月;墨西哥阿卡普尔科p. 9-15http://ijcai.org/Past%20Proceedings/IJCAI-2003/content.htm
赵颖。用文体寻找:古典文学的作者归属。见:第三十届澳大利亚计算机科学会议论文集，第62卷。达林赫斯特，澳大利亚:澳大利亚计算机协会;2007:59 - 68。
史立军，李志刚，李志刚。基于计算机的作者归因研究。计算机与人文科学2001;35:193-214。(CrossRef］
Gerritsen厘米。利用词汇吸引的作者归因。剑桥:麻省理工学院电气工程与计算机科学系;2003.
短文本作者鉴别的句法标签研究。文学与语言计算2007年9月21日;22(4):405-417。(CrossRef］
Afroz S, Brennan M, Greenstadt R.检测在线写作风格中的骗局、欺诈和欺骗。: IEEE计算机学会;2012年参加IEEE安全与隐私研讨会;2012年5月20-23日;旧金山。
Abbasi A，陈h。ACM Trans Inf Syst 2008 Mar 01;26(2):1-29。(CrossRef］
彭峰，张晓燕，张晓燕。基于N-gram的作者属性研究。2003年发表于:太平洋计算语言学协会会议论文集(PACLING ' 03);2003年8月;哈利法克斯,NS。
王晓燕，王晓燕。作者身份归属的“基本问题”。英语研究2012年5月;93(3):284-291。(CrossRef］
吴宁，刘志军，刘文华。基于压缩的文本分类。2005年发表于:第27届欧洲信息检索研究进展会议论文集;2005年3月21-23日;圣地亚哥德孔波斯特拉，西班牙。
高性能数据压缩技术。计算机1984年6月01;17(6):8-19。(CrossRef］
古登堡计划。URL:http://www.gutenberg.org/[访问2013-04-19][WebCite缓存］
Teahan W.建模英语文本。汉密尔顿，新西兰:怀卡托大学;1998.
李志强，李志明。枚举编码与自适应编码的比较。IEEE transinform Theory 1984年3月30日(2):306-315。(CrossRef］
使用自适应编码和部分字符串匹配的数据压缩。IEEE通信学报1984年4月32(4):396-402。(CrossRef］
Moffat A.实现PPM数据压缩方案。通信学报1990;38(11):1917-1921。(CrossRef］
Jelinek F, Mercer RL。稀疏数据中马尔可夫源参数的插值估计。1980年出席:模式识别实践研讨会;1980年5月21-23日;阿姆斯特丹，荷兰。
教堂，华盛顿州盖尔。改进的Good-Turing估计方法与删除的估计方法在估计英文双字母组合概率中的比较。计算机语音与语言1991年1月5(1):19-54。(CrossRef］
从稀疏数据估计语音识别器语言模型组件的概率。IEEE跨声，语音，信号处理1987年3月35(3):400-401。(CrossRef］
基于压缩模型的垃圾邮件过滤;技术报告IJS-DP-9227。斯洛文尼亚卢布尔雅那:Jozef Stefan研究所智能系统系;2005.
王晓燕，王晓燕，王晓燕。一种基于压缩的中文分词算法。计算语言学2000年9月26(3):375-393。(CrossRef］
一种有效的、鲁棒的短文本分类方法。2008年发表于:第23届全国人工智能学术会议;2008年7月13-17日;芝加哥。
路透-21578子集的相对硬度分析。科学通报2005年4月56(6):971-974。(CrossRef］
波比塞夫五、基于词的字母文本分类的比较。见:自然语言处理的最新进展V.阿姆斯特丹:John Benhamins出版公司;2007.
IVF.ca。IVF/FET/IUI循环伙伴网址:http://ivf.ca/forums/forum/36-ivffetiui-cycle-buddies/[访问2013-08-02][2013-08-02]WebCite缓存］
IVF.ca。IVF年龄35岁+ URL:http://ivf.ca/forums/forum/166-ivf-ages-35/[访问2013-08-02][2013-08-02]WebCite缓存］
米切尔TM。机器学习。纽约:麦格劳-希尔;1997.
WolframAlpha。URL:http://www.wolframalpha.com/[访问2013-08-02][2013-08-02]WebCite缓存］
Sebastianini F.文本分类。正确的做法:Zanasi A，编辑。文本挖掘及其在智能、客户关系管理和知识管理中的应用。英国南安普顿:WIT出版社;2005:109 - 129。
王晓东，王晓东。基于分类任务的绩效度量系统分析。信息处理与管理2009;45(4)。(CrossRef］
自然语言处理在在线应用中的应用:文本检索、提取和分类。In:用于在线应用的自然语言处理:文本检索、提取和分类(自然语言处理):John Benjamins Pub Co;2007.

‎

HTML:超文本标记语言

试管婴儿:体外受精

PPM:部分匹配预测

支持向量机:支持向量机

G·埃森巴赫编辑;提交27.12.12;S Argamon、P Juola同行评议;对作者22.01.13的评论;修订版收到25.06.13年;接受29.07.13;发表03.10.13

©Victoria Bobicev, Marina Sokolova, Khaled El Emam, Yasser Jafer, Brian Dewar, Elizabeth Jonker, Stan Matwin。最初发表在《医学互联网研究杂志》(//www.mybigtv.com)， 2013年10月3日。

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

医学论坛上的匿名海报能被重新识别吗?

医学论坛上的匿名海报能被重新识别吗?

原始论文

通讯作者:

摘要

关键字

简介

方法

作者归属任务

基于字符的文本分类方法

部分匹配预测

与其他分类方法的比较

实证评估

医学论坛

文本检索

消息预处理

分析

实验1:角色选择

实验2:归因来自不同子论坛的帖子

实验三:重要数据因素

概述

候选作者数量

培训数据量

测试文本的大小

实验四:与其他分类方法的比较

性能的措施

结果的推广

结果

实验1:角色选择

实验2:归因来自不同子论坛的帖子

实验三:重要数据因素

作者数量的影响

训练数据规模的影响

测试文本大小的影响

实验四:与其他分类方法的比较

PPM5结果的统计学意义

讨论

主要研究结果

限制

实际意义

利益冲突

多媒体附件1

多媒体附件2

参考文献

缩写