医学互联网研究杂志- ICDTag:基于web的系统原型，用于使用混合分类法-大众分类法方法组织医生撰写的博客文章

原始论文

马来西亚国民大学信息科学与技术学院人工智能技术中心(CAIT)，马来西亚雪兰莪州

*所有作者贡献相同

通讯作者:

衙门批硕士

人工智能技术中心

信息科学与技术学院“，

马来西亚国民大学

43600 UKM，班吉

雪兰莪州,

马来西亚

电话:60 389216088

传真:60 389256732

电子邮件:yamenbatch@gmail.com

背景:医学博客已经成为一种新媒体，扩展到更广泛的医学受众，包括卫生专业人员和患者，分享与健康有关的信息。然而，从医学博客中提取高质量的健康相关信息具有挑战性，主要是因为这些博客缺乏系统的方法来组织他们的帖子。医学博客可以根据作者的不同分为(1)医生写的博客，(2)护士写的博客，(3)病人写的博客。本研究的重点是如何组织医生撰写的讨论疾病相关问题的博客文章，以及如何从这些文章中提取高质量的信息。

摘要目的:这项研究的目标是创建并实现一个基于web的系统原型，称为ICDTag，该系统基于分类法-大众分类法的混合方法，该方法遵循分类法分类方案和用户生成标签的组合，以组织医生撰写的博客文章，并从这些文章中提取信息。

方法:首先，确定了基于web的系统的设计规范。该系统包括两个模块:(1)实现为一个或多个博客的博客模块;(2)聚合器模块，将来自不同博客的帖子聚合到聚合器网站。然后，我们为这个系统开发了一个原型，其中博客模块包括两个博客，心脏病学博客和消化病学博客。为了分析原型的使用模式，我们使用心脏病学家和胃肠病学家提供的数据进行了一项实验。接下来，我们进行了两种评估类型:(1)对ICDTag博客的评估，其中使用在线问卷从最终用户的角度评估博客模块的浏览功能;(2)对信息质量的评估，其中使用电子邮件问卷从医学专家的角度评估聚合网站上内容的质量。

结果:该实验的参与者包括23名心脏病专家和24名胃肠病学专家。18名参与者通过在线问卷对ICDTag博客的主要功能和信息组织给予了积极评价。这些结果支持了我们的假设，即使用分类法-大众分类法结构在改善医生撰写的博客中的信息组织方面具有显著的潜力。3名心脏病学专家和3名消化病学专家通过电子邮件问卷对聚合网站上的内容质量进行了评估。调查问卷的结果表明，专家们认为聚合标签和类别在语义上与帖子的内容相关。

结论:这项研究表明，将混合分类法-大众分类法应用于医生撰写的讨论疾病相关问题的博客具有宝贵的潜力，可以使这些博客成为更有组织和系统的媒体，并支持从他们的帖子中提取高质量的信息。因此，有必要开发更成熟的系统，利用混合方法来组织医生撰写的博客中的帖子。

中国医学杂志，2013;15(2):e41

doi: 10.2196 / jmir.2353

关键字

基于web的系统；医疗；医生；博客；大众分类法；分类；协作的标签； ICD-11

背景

Web 2.0允许用户在社交媒体对话中相互交流和协作[1］．Web 2.0应用程序的例子包括社交网站、博客、维基、视频共享网站、mashup和folksonomies [1］．医学界越来越多地使用Web 2.0应用程序在线创建、消费和共享健康信息[2］．Eysenbach [3.]确定了医疗保健领域Web 2.0应用程序的三个主要用户群体:患者、卫生专业人员和生物医学研究人员。研究强调了Web 2.0在部分实现电子医疗改善医学和促进医疗保健的承诺方面的潜力[4］．研究还强调，Web 2.0应用程序提供了共享健康信息的强大手段[5]，这可能会创造新的方法来寻求信息，以帮助临床决策[6］．

博客、播客和wiki属于常见的Web 2.0工具，目前正在积极探索将其用于医疗保健环境[7］．博客正在成为支持医疗领域的宝贵工具，据报道，它能够影响学生、临床医生和患者的学习体验，并激励数字领域的合作[8］．以医学或保健为主要主题的博客被称为医学博客[9］．医学博客是医学公共媒介的重要组成部分[10]因为它们提供了新颖的渠道，可以接触到更广泛的医疗受众[10]，并为医学博客提供传播健康资讯的新途径[11］．医学博客根据其作者分为由卫生专业人员或患者撰写的博客[12］．由健康专业人士撰写的博客可分为两种主要类型，医生撰写的博客和护士撰写的博客[13］．病人使用部落格分享自己的健康及疾病经验[13];一些例子包括我的乳腺癌博客和糖尿病博客。相反，卫生专业人员使用博客分享他们的实用知识和技能[13］．这类博客包括CasesBlog和Kevin MD。

博客在医疗保健界迅速变得越来越普遍。14］．同时，健康消费者正在通过博客生成大量内容[2］．因此，健康消费者和健康专业人员可以从医学博客上发现的大量信息中推断出新的医学知识。然而，从医学文章中提取高质量的与健康相关的信息或医学术语具有挑战性，这主要是因为医学博客没有明确的标准来支持基于医学术语的内容检索。为了达到更好的检索效果，医学博客需要更系统的方法来组织文章[15］．组织博客帖子的一种广泛使用的方法是由创建者或查看者添加元数据。这样的元数据可以以两种不同的方式添加[16，17]:(1)关联免费关键字，(2)使用预定义的类别。

关联免费关键字

标记已经成为博客圈中非常流行的技术[18］．标签是附在博客文章上的关键字，用来帮助描述文章内容[18］．用户通过自由选择的形式描述帖子来标记帖子文本标签(19］．提供标签功能的医学博客允许用户提供自由形式的词来描述帖子的内容，以方便将来对帖子的检索。例如，如果用户写了一篇关于白血病新疗法的文章，他可以添加与之相关的标签，如血癌、手术和化疗。在创建帖子期间，标签通常写在文本框中。

当许多用户为共享资源提供标记时，标记活动称为协同标记[20.］．协同标签的主要有形产品是一种被称为“大众分类法”的社会分类系统，它是世界上“民间”和“分类学”的合并[21］．大众分类法(Folksonomies)表示描述和组织Web资源的非层次术语组，用于将来的检索、发现或共享目的[22］．大众分类法提供了很好的特性，包括低成本、易于使用和反映用户的词汇[23］．此外，协同标记系统可以为在线医疗资源快速生成有用的大众分类法[24］．然而，大众分类法缺乏语义的精确性[25]，不足以进行资料搜寻和检索[16]因为标记活动基于一种不包括任何词汇控制的自由注释样式[23］．

使用预定义分类

用户必须在不同的类别中选择最能定义其帖子内容的类别。通常，这些类别是从分类法中选择的，分类法是一组受控词汇表术语。分类是有限的层次结构[17]表示有意义的标签的连贯和完整系统，系统地组织给定的领域[25］．使用文章分类的医学博客允许用户将特定的文章分配到特定的类别。类别可以从博客创建者定义的固定列表中选择。例如，WebMD博客提供了诸如“过敏”、“哮喘”和“疱疹”等类别来对相关帖子进行分类。然而，分类法的创建和维护既昂贵又耗时[26］．此外，使用分类法的内容导航支持经常受到限制，因为分类法是由领域专家定义的;因此，分类法不能反映用户词汇表[27］．

应用上述两种元数据添加方法中的任何一种来描述博客帖子都有局限性。然而，通过结合这两种方法，获得了一种混合分类法-大众分类法方法，通过这种方法，分层分类法术语可以与用户生成的标签相结合，以丰富这些标签的含义[25］．这种混合方法可以改善博客文章的组织和导航，从而带来更好的内容发现和检索结果[25，27］．在医学博客的背景下，这种混合方法是一种非常有前途的方法，可以改善标签活动，促进从医学帖子中产生和提取优质信息。但是，应该定义标准模型和机制，以探索如何将这种混合方法应用于医学博客。

我们提出了一个基于web的系统原型，称为ICDTag，它允许医生使用混合分类法-大众分类法方法来组织帖子。通过使用这种方法，医生可以根据一组固定的医学类别(代表分类学)对帖子进行分类，或者用自由选择的单词标记帖子(代表大众分类法)。该系统还支持从医疗站提取信息。如前所述，有各种类型的医学博客。然而，ICDTag系统是专门为医生写的博客设计的。医生撰写的博客可以由单个或多个作者撰写。其中一些博客与医学主题有关，另一些则与医生的社会兴趣有关。这项研究集中在医生撰写的讨论医疗问题的博客上，不同的帖子由多个医生作者撰写。医生撰写的博客之所以被选中，是因为它们更适合生成和提取医学信息，原因有三。首先，医生是医学博客社区的主要组成部分[10］．其次，医生积极使用专业内容的博客[10］．第三种是医生撰写的博客，讨论医疗问题，包括疾病、特定治疗方法的试验或其他专业经验[13更有可能提供医疗相关信息。

医生可以使用11的内容模型中的类别对他们的职位进行分类^th《国际疾病分类》(ICD-11)(见图1，有关ICD-11修订版内容模式的技术报告[28])。这些分类存储在ICDTag数据库中。选择ICD-11的内容模型作为分类方案的原因如下:

ICD是一个全球公共标准，用于组织和分类有关疾病和相关健康问题的信息[29］．
ICD-11计划于2015年发布[30.]，目前世界卫生组织(世卫组织)正在修订。此修订需要基于web的流程，由协作和社交功能驱动[31]数以千计的医学专家对在线内容进行贡献、评估和审查[32］．
ICD-11的修订过程可以利用医生撰写的博客作为有组织的在线资源，这些资源可以产生卫生专业人员生成的数以千计的医学相关概念。

ICD-11内容模型的类别只能用于编码疾病相关内容，如疾病类型、临床描述、体征和症状以及治疗方法。与疾病无关的其他内容，如程序和实验，不包括在这些类别之内。因此，ICDTag系统仅适用于讨论疾病相关内容的博客文章，ICDTag的用户应该意识到他们只能写与疾病相关的文章。

通过实现其目标，ICDTag系统引入了一种系统模式，使医生撰写的博客成为一种更标准化、更有组织和更系统的媒介。ICDTag系统支持从他们的帖子中提取高质量的信息，这使得这些博客成为健康消费者更有价值的在线健康信息来源。

研究设计

我们实施了4个主要步骤来进行这项研究:

设计基于web的ICDTag系统。
实现符合设计规范的基于web的原型。
运行一个实验来分析基于web的原型的使用模式。
评估基于web的原型。

下面的小节概述了ICDTag系统，并描述了其设计方面。然后，对原型的实现和功能进行了描述。最后，讨论了ICDTag原型的评价。

ICDTag概述

ICDTag是一个基于web的系统，用户在其中执行分层分类和协作标记的组合来组织和注释医生撰写的博客文章。分类是根据ICD-11内容模型中列出的ICD-11类别进行的图1．ICD-11类别被认为是元数据，可以添加到用户生成的标签中，以实现更好的帖子组织。带标签的帖子以可扩展标记语言(XML)格式聚合，以方便将数据导出到其他应用程序。为了实现其目标，ICDTag主要分为两个阶段:

ICDTag首先使用了一种混合分类法-大众分类法方法，根据专业分类法(每个帖子必须由其创建者从ICD-11类别中分类到一个类别)和大众分类法(标签由用户协作添加为自由文本以描述帖子)对博客文章进行分类和注释。因为每篇文章都已经用ICD-11术语进行了分类，所以给定文章的标签将归入指定的ICD-11类别(见图2)．
在分类法-大众分类法分类阶段之后，ICDTag将标记次数足够多的帖子的信息聚合在一起，并将其表示为XML文件。

分类学-大众分类法

ICDTag的分类法-大众分类法混合方法允许用户在创建帖子时为博客文章分配ICD-11类别。之后，用户可以使用自由文本的单词或短语来协作标记帖子。因此，每个博客文章将有两个属性，一个类别(属于专业分类法)和一组由用户添加的标记(表示大众分类法)，如图2．类别属性描述了帖子的语义价值，因为类别代表了来自ICD-11内容模型的有意义的医学术语，而标签集代表了社会价值，因为标签是由在线社区(即医学博客)的用户添加的。

ICDTag模块

ICDTag提供的主要贡献是将分类法和大众分类法应用于医生撰写的博客的好处结合起来，以改进博客的组织和内容检索。系统架构基于2个模块:

博客模块:此模块实现为一个或多个群组博客(即帖子由多个作者撰写的博客)，它们以两种不同的模式与用户和帖子交互，即上传模式和浏览模式。在上传模式，用户可以选择创建帖子。上传新帖子时，创建者必须为帖子提供标题和ICD-11类别。在浏览模式，用户既可以浏览可用的帖子并标记它们，也可以使用搜索组件搜索帖子。
聚合器模块:聚合器模块被实现为服务器端组件，从装载的博客中将标记的帖子聚合到聚合器网站。

用户交互模式

我们使用统一建模语言(UML)用例图描述了ICDTag系统与其用户之间的主要交互，如图所示图3．

医生是ICDTag的典型用户。医生可以从两个不同的角度访问该系统。首先，医生可以验证自己的身份，并以创建者或观众的身份访问博客，分别对医疗帖子进行分类或标记。通过他的分类或标记活动，每个医生都为丰富系统收集的数据做出了贡献。其次，医生可以访问聚合器网站来查看聚合的内容，而不会增加内容的丰富程度。

ICDTag原型的开发

我们基于设计规范为ICDTag实现了一个基于web的原型。原型的博客模块包括两个博客，心脏病学博客和消化病学博客。这两个博客由两组医生、心脏病学家和胃肠病学家访问。聚合网站从两个博客收集聚合的帖子。下面一节讨论原型的实现工具。

实现工具

ICDTag原型是使用Java Server Pages (JSP)作为运行在Tomcat Web容器中的Web应用程序实现的。使用MySQL作为数据库服务器。博客条目的处理是使用用户的Web浏览器执行的。聚合器被实现为一个独立的网站，该网站将聚合后的帖子的信息存储为XML文件。图4显示了ICDTag原型的UML部署图。

ICDTag原型的详细功能

在本节中，我们将详细描述原型的功能，并提供一些示例。

博客模块

如上所述，这个模块包括一个或多个博客，每个博客有两种模式，上传和浏览。要访问这两种模式中的任何一种，用户都需要使用用户名和密码登录。

上传模式

经过身份验证的博客用户可以创建文本、音频或视频形式的帖子。在创建一个新帖子时，用户被要求用一个类别对帖子进行分类。这些类别是通过下拉列表提供的，其中包括ICD-11的所有类别;从ICDTag服务器检索列表，如所示图5．

图6演示了上传模式原型界面的一个示例，其中用户上传了一张胃部图像作为一个新帖子，为帖子提供了一个标题，并选择“ICD概念标题”来使用提供的ICD分类列表对帖子进行分类。

浏览模式

在浏览模式中，经过认证的博客用户可以选择使用“查看帖子”或“搜索帖子”这两个超链接来查看或搜索该博客的帖子。

“查看帖子”超链接

用户可以查看其他人创建的帖子并标记它们(参见图7）;这些职位已经归入ICD-11类别。

当输入一个标签时，用户会从其他用户为同一篇文章提供的一组预先存在的标签中得到自动完成建议。用户还可以选择分配不存在的新标记。标签可以是单个单词或短语。但是，如果标签包含多个单词，则短语的每个单词都被认为是一个独立的标签。图8演示了一个浏览模式原型界面的示例，其中用户正在用单词“肿胀”标记一个肺图像。

在博客的每篇文章中添加标签的数量是5-15个标签[33］．浏览模式允许每篇文章共有10个标记活动。当一篇文章被标记10次后，3个最常用的标签被识别出来并显示在文章下面，并且不允许为这篇文章添加额外的标签;我们把这样的岗位称为稳定岗位。稳定帖子的信息包括创建它的用户、URL、类别和最常用的标签集。该信息被发送到ICDTag服务器的聚合器模块。图9这是一个稳定岗位的例子。

“搜索帖子”超链接

浏览模式包括一个接受用户搜索关键字的搜索组件。该组件根据关键字搜索整个博客标记，并检索由这些关键字标记的所有帖子。然后，它以表格形式展示了结果。每个结果都包含匹配的标记、与文章相关联的统一资源定位符(URL)以及文章的类别。用户可以通过该URL查看相应帖子的数据。图10显示一个搜索查询和结果的示例。

聚合器模块

该模块从ICDTag中收集不同博客的稳定帖子信息，并将其发送到聚合器网站，聚合器网站是编译和显示这些信息的中心点。用户不需要登录就可以访问聚合网站。对于浏览模式下的每一篇稳定的文章，都聚合了许多项:文章的创建者、ICD-11类别、3个最常用的标记和文章的URL。聚合数据在聚合器网站上以倒序时间顺序显示图11)．用户可以将鼠标悬停在条目上，以查看帖子的摘要、它们的类别和最常用的标签。每个标记的频率显示在标记旁边的括号中。此外，该模块还将每个稳定帖子的信息转换为XML格式，并为其生成XML文件。用户可以查看或下载XML文件。图12说明了这样一个XML文件的示例。

ICDTag原型的评估

ICDTag系统有两个主要用途。首先，基于用户定义标签和ICD-11类别的组合，为医生撰写的博客文章实现更好的组织方法。第二，从这些帖子中汇总质量信息。

我们进行了一项实验，要求一些熟悉医学博客的医生使用ICDTag原型。实验的目的是分析原型的动态和使用模式。实验完成后，我们对原型进行了两类评估:

ICDTag博客的评估:使用定量评估(在线问卷)从最终用户的角度评估博客模块浏览模式中的主要功能。
信息质量评估:从医学专家的角度，采用定量质量评估(电子邮件问卷)对聚合器模块中的内容质量进行评估。

这两项评估使我们能够评估原型在实现上述两个目的方面的有效性。

实验装置

ICDTag原型于2011年12月15日在网上发布。在实验中，我们涉及了两组医生:(1)25名心脏病专家参与心脏病学博客，分为5名创建者和20名观众;(2)25名消化病学专家参与消化病学博客，分为5名创建者和20名观众。

创建者的角色是上传和分类医疗帖子，而观看者的角色是浏览和标记上传的帖子。

为了确定潜在用户，我们访问了不同的医疗博客、医疗聚合网站、健康相关网站和黄页目录，黄页目录列出了医生的联系信息和专业。通过这个过程，我们收集了数百名心脏病学家和胃肠病学家的联系信息。2011年12月19日和20日，研究人员通过电子邮件向200名心脏病专家和200名胃肠病学专家发出了使用基于网络的原型的邀请。邀请电子邮件规定，参与者必须熟悉用英语撰写的医学博客。电子邮件还保证了机密性，并通知参与者研究结果将发表在学术期刊上。两周后又发了一封提醒邮件。第一次邀请后一个月，总体反应率为200名心脏病科医生中有35名(17.5%)，200名胃肠科医生中有49名(24.5%)。在受访者中，31名心脏病学家和47名胃肠病学家同意参与实验。从每组中选出最早同意的25名医生。入选的心脏病专家包括23名男性和2名女性。 All of these physicians have postgraduate or higher education degree in cardiology. The selected gastroenterologists included 16 males and 9 females. All of these physicians have postgraduate or higher education degree in gastroenterology. The first 5 selected respondents from each group were assigned the role of creator, and the remaining selected respondents were assigned the role of viewer.

我们向这两组的5名创建者发送了一封电子邮件，其中包含了如何创建医疗帖子的简单说明，并提供了上传模式的登录信息(即每个创建者的用户名和密码)。多媒体附录1为创建者用户提供ICDTag用户手册。用户被特别告知，其帖子的内容应使用ICD-11内容模型的类别进行分类。就ICDTag博客的使用与用户进行了多次电子邮件对话。

从2012年2月6日开始，两组创作者都有一个月的时间来完成他们的任务。每个创建者用户必须注册并上传2篇文章(文本、图像或视频形式)到相应的ICDTag博客(即心脏病学博客或胃肠病学博客)。截至2012年3月7日，所有用户都以创作者身份登录，两个博客各上传了10篇文章。

与协作式标签系统一样，ICDTag博客的标签并不是强制性的。然而，在这个实验中，我们要求浏览者标记帖子，以测试ICDTag博客的协同标记功能。

我们在2012年3月9日给每组的20名观众发了一封电子邮件，描述了标签的功能，并提供了浏览模式的登录信息(即每个观众的用户名和密码)。多媒体附录2提供了ICDTag用户手册供查看用户使用。观众有一个月的时间登录并在相应的ICDTag博客上标记帖子。每个观众都必须为他们选择的帖子分配至少2个标签。在月底，ICDTag数据库中的记录显示，分别有18和19个用户登录了心脏病学博客和消化病学博客。少数观众不使用博客(2人使用心脏病学博客，1人使用消化病学博客)，原因不明。然而，这并没有影响实验，因为两个博客的帖子都添加了相当多的标签(心脏病学博客的61个标签和消化病学博客的72个标签)。

ICDTag博客的评估

实验完成后，我们进行了定量评价。该评估的目的是确认该原型是否实现了其第一个目标，即为医疗岗位提供更好的组织方法。我们实施了一份包含两部分的在线问卷。第一部分由8个问题组成，为参与者收集人口统计信息，并确定他们对医学博客的专业知识水平。这部分的大部分问题都来自另一项研究，调查医学博主的博客习惯[34］．第二部分的问题是专门设计来衡量用户对ICDTag博客在三个方面的评价:(1)导航的易用性，(2)搜索功能，(3)信息的组织。之所以选择这三个方面，是因为它们反映了博客主要功能的有效性。每个领域的评估由5个陈述组成，用李克特5分制打分，从“非常不同意”(1)到“非常同意”(5)。多媒体呈现在线问卷的完整表单。受访者是从参与我们之前实验的心脏病学家和胃肠病学家组的观众用户中挑选出来的;他们已经使用了ICDTag博客中包含的功能。2012年4月10日，我们又给18岁和19岁的观众发了一封来自心脏病专家和胃肠病学专家小组的电子邮件。邮件中包含了简短的信息和在线问卷的URL链接。评估人员被要求在2012年4月25日之前填写在线问卷。截至目前，已完成18份表格。采用SPSS 16.0统计软件对定量资料进行描述性分析(即计算均数和标准差)。

信息质量评价

为了确认原型是否完成了从医生撰写的博客中提取质量信息的第二个目标，医学专家对聚合器网站上收集的数据进行了定量质量评估，以评估聚合标签和ICD-11类别在语义上与帖子内容的相关性或连接程度。我们用“亲缘度”这个术语来指代这个评估指标。

由于汇总的职位属于两个不同的医学领域，心脏病学和消化病学，我们选择了两组医学专家，3名心脏病学家和3名消化病学家。从两组中选出的专家至少在该领域有10年的经验，熟悉国际疾病分类系统。

我们通过电子邮件联系了两组专家。专家们被告知，他们的参与是学术研究的一部分，有可能为卫生信息学产生新的和有用的知识，这项研究的结果将发表在学术期刊上。

在他们同意参与后，通过电子邮件向心脏病组的每一位专家提供5个汇集的心脏病学职位的数据，并通过电子邮件向消化病学组的每一位专家提供6个汇集的消化病学职位的数据。为每个帖子提供的数据包括帖子内容、分配的ICD-11类别和3个最常分配的标签。专家们被要求填写一份通过电子邮件发送的问卷。

两组的问卷都包含了相同的2个问题。一个问题要求专家对ICD-11类别与帖子内容的相关性进行评分，另一个问题要求专家对标签与帖子内容的相关性进行评分。每个问题都采用李克特5分制评分，从“非常不同意”(1)到“非常同意”(5)。心脏病学组和消化病学组的问卷表格分别包含10个和12个问题。专家们有两周的时间来归还完成的问卷。2周后，所有的表格都收到了。采用SPSS 16.0统计软件对定量资料进行描述性分析(即计算均数和标准差)。

概述

在下面的小节中，我们将展示实验中分类和标记活动的动态和模式。此外，我们还列出了ICDTag博客评价和信息质量评价这两项评价的结果。

ICD-11分类的使用

根据ICDTag规范，每个博客应该有两种类型的用户:创建者和查看者。在博客模块中，作者被要求根据ICD-11分类对自己的医疗帖子进行分类。每个职位必须归入一个ICD-11类别。如前所述，在我们的实验中，心脏病学和消化病学博客各创建了10个帖子。表1而且2显示用于对两个博客的帖子进行分类的不同ICD-11类别。

标签的使用

在实验结束时，心脏病学博客生成了61个标签，平均每个用户有3.39个标签。其中42个(69%)为不同标签，19个(31%)为重复标签。对于胃肠病学博客，生成了72个标签，包括38个(53%)不同标签和34个(47%)重复标签，平均每个用户有3.79个标签。我们计算了ICD-11类别中标签的分布。具体来说，我们统计了两个博客中在ICD-11类别下分类的标签数量。表3而且4分别显示心脏病学博客和胃肠病学博客的标记分布。

一些标签被用户拼错了(心脏病学博客和消化病学博客分别拼错了2个和3个标签)。但是，没有一个拼写错误的标记被其他用户重用。

稳定后聚合

实验完成后，我们从心脏病学博客中确定了5篇稳定的文章，从消化病学博客中确定了6篇稳定的文章。这些帖子被发送到聚合网站。图13显示了我们实验中聚合帖子的截图。

ICDTag博客的评估

我们分析了受访者的特征(见表5)．18位受访者年龄大多在30至49岁之间(女性6人，占33%;男性12人，占67%)。半数受访者来自亚洲，5人来自北美，2人来自非洲，1人来自欧洲，1人来自南美。受访者中有7人(39%)是心脏病学家，11人(61%)是胃肠病学家。所有受访者都有研究生或更高水平的医学教育。15人(83%)阅读医学博客，3人(17%)撰写医学文章。

用户对导航易用性的评价平均得分为3.94分(79%)。各报表的平均分和标准偏差值见表6．用户对搜索功能评价的平均分为3.68(73.6%)。各报表的平均分和标准偏差值见表7．用户对信息组织评价的平均分为3.89分(78%)。各报表的平均分和标准偏差值见表8．

信息质量评价

ICD-11类别与汇总的心脏病学职位内容的相关性平均得分为3.93(79%)。专家对每个问题的回答的平均分和SD值见表9．5个聚合的心脏病学帖子的用户标签与帖子内容的相关性的平均得分为4.2(84%)。专家对每个问题的回答的平均分和标准差显示在表10．

ICD-11类别与汇总的胃肠病学职位内容的相关性平均得分为3.94(79%)。专家对每个问题的回答的平均分和标准差显示在表11．6个聚合的胃肠病学帖子的用户标签与帖子内容的相关性平均得分为4.17(84%)。专家对每个问题的回答的平均分和标准差显示在表12．

结果分析

在接下来的小节中，我们将讨论我们的实验数据分析。然后我们讨论了用户对ICDTag博客的评价和信息质量评价这两种评价的结果。

类别的使用

ICD-11内容模型包含一个类别和子类别列表(见图1)．在我们的实验中，只使用了4个ICD-11类别来对两个博客中的帖子进行分类(参见表1而且2)．这种分类模式可以这样解释:作者更喜欢使用ICD-11类别，如“迹象和症状”，而不是“机制”等子类别来对帖子进行分类。

标签的使用

结果表明，这两个博客都包含了相当数量的不同和重复的标签。这反映了查看者在使用新标签或现有标签时的行为，以及查看者能够提供新标签或关注其他用户的标签。这两种类型的标签在协同标记系统中都是必需的。虽然新标签对于描述和分类帖子很有用，但对于帖子聚合则需要重复标签。此外，两个博客中重复标签的百分比表明，大多数用户都受益于自动完成功能，该功能建议其他用户提供的标签。此外，两个博客中的大多数标签都在“ICD概念标题”类别下表3而且4)．这是合乎逻辑的，因为来自两个博客的大多数帖子已经属于这个类别。

用户对ICDTag博客的评价

用户对导航方便性、搜索功能和信息组织3个方面的评价比例分别为79%、74%和78%。这些结果表明，用户对ICDTag博客的主要功能和信息组织有积极的评价。这些结果支持了我们的假设，即在医生撰写的博客中使用分类法-大众分类法具有显著的潜力，可以改善博客浏览者的浏览和搜索功能。

聚合信息的质量

两个博客标签相关度的平均分(4.2和4.17)均高于类别相关度的平均分(3.93和3.94)。这些结果可以用标签和类别的不同性质来解释。与标签相比，类别是描述资源的更通用的方式。然而，质量评估的结果表明，医学专家总体上一致认为，生成的标签和类别在语义上与相应帖子的内容相关，这表明，从医学专家的角度来看，ICDTag原型能够使用其聚合网站产生高质量的信息。

表1。用于分类文章的ICD-11类别(用于心脏病学博客)。

使用ICD-11分类	岗位数量(N=10) n (%)
ICD概念标题	6 (60)
迹象和症状	3 (30)
治疗属性	1 (10)

表2。用于分类文章的ICD-11类别(用于胃肠病学博客)。

使用ICD-11分类	岗位数量(N=10) n (%)
ICD概念标题	6 (60)
迹象和症状	2 (20)
治疗属性	1 (10)
身体系统	1 (10)

表3。ICD-11类别标签的分布(用于心脏病学博客)。

使用ICD-11分类	标签数(N=61) n (%)
ICD概念标题	45 (74)
迹象和症状	14 (23)
治疗属性	2 (3)

表4。ICD-11类别标签的分布(用于胃肠病学博客)。

使用ICD-11分类	标签数(N=72) n (%)
ICD概念标题	60 (83)
迹象和症状	6 (8)
治疗属性	2 (3)
身体系统	4 (6)

表5所示。参与者的特征。

问卷回答选项		数量(N = 18) n (%)
性别
	女	6 (33)
	男性	12 (67)
年龄
	~ 29	0 (0)
	30 - 49	17 (94)
	50 - 64	1 (6)
	≥65	0 (0)
居住地区
	非洲	2 (11)
	南极洲	0 (0)
	亚洲	9 (50)
	澳大利亚	0 (0)
	欧洲	1 (6)
	北美	5 (28)
	南美	1 (6)
医学专业
	胃肠病学	11 (61)
	心脏病学	7 (39)
医学教育
	研究生教育	0 (0)
	研究生教育	13 (72)
	住院医生实习期	3 (17)
	奖学金	1 (6)
	委员会认证	1 (6)
使用医学博客的专业水平
	阅读医学博客	1 (6)
	阅读博客，评论医学文章	6 (33)
	阅读博客并标记医疗帖子	8 (44)
	撰写医疗文章	3 (17)
	我有自己的医学博客	0 (0)

表6所示。导航易用性评价结果。

	平均(SD)(5分)
浏览帖子很容易	4.28 (0.46)
按类别浏览帖子很容易	3.94 (0.24)
通过标签浏览帖子很容易	4.17 (0.38)
通过创建者浏览帖子很容易	3.72 (0.46)
点击链接就能看到我想要的	3.61 (0.70)

表7所示。搜索功能评估结果。

	平均(SD)(5分)
搜索界面清晰	3.72 (0.46)
搜索界面是可以理解的	3.78 (0.55)
通过关键词搜索帖子是很容易的	3.89 (0.76)
搜索结果是精确的	3.28 (0.46)
搜索结果的组织方式很清楚	3.72 (0.46)

表8所示。信息组织评价结果。

	平均(SD)(5分)
博客为不同的任务提供了有用的支持信息(消息和提示)	3.89 (0.32)
ICDTag博客上的信息组织是清晰的	4.11 (0.32)
博客为帖子提供了足够的描述性信息(例如，标题、创建者、标签和日期)	3.83 (0.51)
每个帖子的信息(如标题、内容、创建者、标签和日期)都被清晰地列出	3.78 (0.55)
这个博客比我合作过的其他医学博客组织得更好。	3.83 (0.71)

表9所示。ICD-11类别与汇总的心脏病学职位的相关性。

	意思是(SD)
分配的ICD-11类别是否与职位1的内容有关?	4.67 (0.58)
分配的ICD-11类别是否与职位2的内容有关?	3.67 (0.58)
分配的ICD-11类别是否与职位3的内容有关?	4 (1.00)
分配的ICD-11类别是否与职位4的内容有关?	4.33 (0.58)
分配的ICD-11类别是否与职位5的内容有关?	3 (0.00)

表10。最常用标签与聚合的心脏病文章的相关性。

	意思是(SD)
分配的标签是否与post 1的内容相关?	4.33 (0.58)
分配的标签是否与post 2的内容相关?	4.67 (0.58)
分配的标签是否与post 3的内容相关?	4 (1.00)
分配的标签是否与post 4的内容相关?	4 (0.00)
分配的标签是否与post 5的内容相关?	4 (1.00)

表11所示。ICD-11类别与汇集的消化内科职位的相关性。

	意思是(SD)
分配的ICD-11类别是否与职位1的内容有关?	3.67 (0.58)
分配的ICD-11类别是否与职位2的内容有关?	3.67 (1.15)
分配的ICD-11类别是否与职位3的内容有关?	4 (1.00)
分配的ICD-11类别是否与职位4的内容有关?	4.33 (0.58)
分配的ICD-11类别是否与职位5的内容有关?	4 (0.00)
分配的ICD-11类别是否与职位6的内容有关?	4 (1.00)

表12。最常用标签与聚合的胃肠病学职位的相关性。

	意思是(SD)
分配的标签是否与post 1的内容相关?	4.33 (0.58)
分配的标签是否与post 2的内容相关?	4.33 (0.58)
分配的标签是否与post 3的内容相关?	4 (1.00)
分配的标签是否与post 4的内容相关?	4.33 (0.58)
分配的标签是否与post 5的内容相关?	4 (1.00)
分配的标签是否与post 6的内容相关?	7.67 (0.00)

一般

在本文中，我们介绍了ICDTag，这是一个基于web的原型系统，它遵循一种新的方法，使用ICD-11类别和用户生成的标签作为元数据，系统地组织和聚集医生撰写的博客文章。博客模块允许医生访问ICDTag博客，根据ICD-11分类对帖子进行分类，并使用自己的关键字对帖子进行协作标记。因此，每个帖子都有两个属性，一个类别(属于ICD-11分类法)和一组由用户添加的标签(代表大众分类法)。聚合器模块从ICDTag博客中收集稳定的帖子(即标记了足够次数的帖子)，并将它们显示在聚合器网站上。

实验过程中医生提供的数据被用来分析ICDTag原型的使用模式。然后，我们进行了两种类型的评估:(1)对ICDTag博客的评估(定量评估)，从最终用户的角度评估ICDTag博客的主要功能;(2)对信息质量的评估(定量质量评估)，从医学专家的角度评估汇总信息的质量。定量评估的结果表明，用户对ICDTag博客的浏览和搜索功能以及组织结构有积极的评价。此外，对信息质量的评估表明，聚合标签和类别在语义上与帖子的内容相关。因此，我们可以得出结论，ICDTag原型已经实现了它的目标，即使医生撰写的博客成为一种更好组织的媒介，可以产生高质量的信息。通过使用分类法-大众分类法的混合方法，ICDTag在改善医生撰写的博客内容的结构和质量方面具有很有价值的潜力。因此，开发更成熟的系统，将分类法-大众分类法应用于医生撰写的博客或其他类型的医学博客，使它们成为在线医疗社区更有价值和更可靠的健康信息来源是值得的。混合方法也可以在其他社交媒体上探索，如医疗维基和医疗论坛。通过使用这种混合方法，医生将能够通过添加自己的标签来更好地组织在线医疗资源，从而为社交媒体做出贡献。

在未来的工作中，我们可以研究ICDTag的聚合标签在多大程度上可以代表或产生医学界可以使用的新医学术语。但是，这需要医学专家进行更大规模的试验和术语层面的标签分析。

ICDTag混合方法与其他方法的比较

ICDTag系统采用分类法-大众分类法混合方法，为医疗岗位提供更好的组织方法。分类法与大众分类法的混合方法有四种，即分类法与大众分类法共存、面向大众分类法的分类法、面向大众分类法的分类法和面向大众分类法的层次/本体[35］．我们的方法属于共存的范畴。在本节中，我们将我们的方法与讨论共存方法的现有研究进行了比较。

桥及翠[27]引入了TaxoFolk算法，该算法将大众分类法集成到分类法中，以增强知识分类和Web资源的导航。尽管TaxoFolk和ICDTag方法共享使用混合分类法-大众分类法对资源进行分类的共同概念，但产生这种分类的方式有所不同。TaxoFolk通过对从协作标记工具中提取的标记应用数据挖掘技术来生成分类，而ICDTag方法通过将最常用的标记分组到ICD-11类别中来生成分类。

Sommaruga等[36]介绍了“标签分类法”，这是一种使用混合分类法-大众分类法方法促进网站信息检索的机制。ICDTag和tagsonomy方法具有类似的目标。但是，它们在用户提供标记的方式上有所不同。标记学中的标记不是显式标记过程的结果。相反，tagsonomy中的标记来源于用户的搜索关键字，而在ICDTag方法中，标记是由博客查看器显式提供的，这使得标记更好地反映用户的词汇。

因此，要使这种混合方法获得更多的用户附加价值，标记活动必须是显式的，并由用户贡献。因此，我们的方法是在医疗在线社区中使用分类法-大众分类法结构的有效方法。

限制

本研究使用ICD-11的内容模型对文章进行分类。该模型的类别仅描述与疾病相关的属性，包括疾病、体征、症状和异常结果。其他医学属性，如程序和实验，不能用这些类别来描述。因此，我们的结果仅限于医生撰写的仅讨论疾病相关内容的博客文章。

这项研究的另一个局限性是，医生和医学专家的样本只包括两个医学专业(心脏病科和消化内科)。尽管不同的专业需要不同的信息系统功能，但我们系统的重点是分类和标记功能，我们认为这对任何医学专业来说都是相似的。分类功能是类似的，因为我们的原型使用了一个通用的医疗分类方案(即ICD-11内容模型)，可以应用于任何医疗领域。此外，对于不同的医疗专业，在线医疗资源标签的概念应该是相同的。然而，为了真正推广我们的发现，必须进行更大规模的试验，包括涵盖不同医学专业的博客。

致谢

这些研究结果来自马来西亚高等教育部(MOHE)在基础研究资助计划下资助的一个项目。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。

利益冲突

没有宣布。

‎

多媒体附件1

ICDTag用户手册(创建者用户使用)。

PDF档案(adobepdf档案)，1MB

‎

多媒体附件2

ICDTag用户手册(供查看用户使用)。

PDF档案(adobepdf档案)，1MB

‎

多媒体

ICDTag博客评估问卷。

PDF档案(adobepdf档案)，260KB

Kamel Boulos MN, Wheeler S.新兴的Web 2.0社交软件:健康和卫生保健教育中的一套社交技术。卫生信息杂志2007 3月24(1):2-23。［CrossRef] [Medline］
Fernandez-Luque L, Karlsen R, Bonander J.从社交网络中提取健康个性化信息的综述。中国医学杂志，2011;13(1):e15 [免费全文] [CrossRef] [Medline］
医学2.0:社交网络、协作、参与、调解和开放。中国医学杂志，2008;10(3):e22 [免费全文] [CrossRef] [Medline］
Hughes B. ESADE Knowledge, 2010年3月，Web 2.0互联网:医疗保健领域的民主化互联网合作http://tdx.cat/bitstream/handle/10803/51012/HUGHES_PhD%20Thesis_January%2014_TDX%20Version.pdf?sequence=1[访问2012-01-05][WebCite缓存］
Van De Belt TH, Engelen LJ, Berben SA, Schoonhoven L.健康2.0和医学2.0的定义:系统综述。中国医学杂志，2010;12(2):e18 [免费全文] [CrossRef] [Medline］
Hughes B, Joshi I, Lemonde H, Wareham J.初级医生使用Web 2.0进行信息搜索和医学教育:一项定性研究。国际医学杂志2009 10月;78(10):645-655。［CrossRef] [Medline］
默里PJ。Web 2.0和社会技术:它们能为健康信息学的未来提供什么?医疗保健资讯在线2008年6月30日;12(2):5-16 [免费全文］
Boulos MN, Maramba I, Wheeler S.维基，博客和播客:虚拟协作临床实践和教育的新一代基于网络的工具。BMC Med Educ 2006 Aug 15;6:41 [免费全文] [CrossRef] [Medline］
评估医学博客的内容多样性。蒂尔堡:CEUR-WS;2009年发表于:第一届生命网络国际研讨会，与第八届国际语义Web会议(ISWC 2009)同步;2009年10月26日;华盛顿特区:http://livingknowledge.europarchive.org/images/publications/LivingWeb.pdf
Lagu T, Kaufman EJ, Asch DA, Armstrong K.健康专家撰写的博客内容。J Gen Intern Med 2008 10月;23(10):1642-1646 [免费全文] [CrossRef] [Medline］
Sweet MA, Simons MJ。随着大众媒体演变为“大众媒体”，对我们的健康有什么影响?医学杂志2009年12月;191(11-12):618-619。［Medline］
Denecke K, Nejdl W.医疗社交媒体数据有多大价值?医疗网站内容分析。信息科学2009年5月30日;179(12):1870-1880。［CrossRef］
Denecke K, Stewart A.从医疗社交媒体数据中学习:现状和未来挑战。在:白B，王I，曾P，编辑。学习环境中的社交媒体工具和平台。柏林海德堡:施普林格;2011:353 - 372。
Miller EA, Pole A.诊断博客:在博客圈查看健康博客。美国医学杂志公共卫生2010年8月;100(8):1514-1519。［CrossRef] [Medline］
癌症博客文章的内容分析。中国医学图书馆杂志2009 10月;97(4):260-266 [免费全文] [CrossRef] [Medline］
A.使用本体来加强大众分类法，丰富博客中的信息检索。巴尔的摩县:马里兰大学;2007年发表于:第一届网络日志和社交媒体国际会议(ICWSM 2007);2007年3月26日至28日;博尔德有限公司
Golder SA, Huberman BA。协同标记系统的结构。《信息科学》2006;32(2):198-208。
李松，李强，陈松，徐安。基于关键词提取的web2.0博客圈标签自动推荐。威斯康星州史蒂文斯角:世界科学与工程学会(WSEAS);2008年发表于:第七届WSEAS应用计算机与应用计算科学国际会议(ACACOS '08);2008年4月6日至8日;杭州,中国。
Körner C, Benz D, Hotho A, Strohmaier M, Stumme G.停止思考，开始标记:标记语义从协作冗长中涌现。纽约:ACM;2010年发表于:第19届国际万维网大会(WWW2010);2010年4月26日至30日;罗利,数控。
王娟，Clements M，杨娟，de Vries AP, Reinders MJ。标签系统的个性化。信息处理与管理2010 Jan;46(1):58-70。［CrossRef］
范德瓦尔t·托马斯·范德瓦尔。2005年11月2日。大众分类法定义和维基百科网址:http://vanderwal.net/random/entrysel.php?blog=1750[访问2012-01-06][WebCite缓存］
金海林，崔俊华。大众分类法中用户生成内容的版权元数据的语义表示。网络信息评论2010;34(4):626-641。［CrossRef］
Kim HL, Decker S, Breslin JG。用语义表示和共享大众分类法。信息科学2009;36(1):57-72。
Good BM, Tennis JT, Wilkinson MD.生命科学中的社会标记:表征一种新的生物信息学元数据资源。BMC生物信息学2009 9月25日;10:313 [免费全文] [CrossRef] [Medline］
Quintarelli E, Resmini A, Rosati L.信息架构:Facetag:在社会标签系统中集成自底向上和自顶向下分类。小羊。点。Soc。信息。科学。科技2007;33(5):10 - 15。［CrossRef］
标记和大众分类法的内部网应用。在线2006;30(3):43-45 [免费全文］
乔春林，徐东。TaxoFolk:一种用于知识分类和导航的混合分类法-大众分类法结构。专家系统与应用2011年5月;38(5):6049-6058。［CrossRef］
涂斯伟，Bodenreider O， Çelik C, Chute CG, Heard S, Jakob R，等。技术报告bm- 2010-1405。加州斯坦福大学:斯坦福生物医学信息研究中心;2010.ICD-11修订版的内容模型网址:http://bmir.stanford.edu/file_asset/index.php/1752/BMIR-2010-1405.pdf[访问2013-02-17][WebCite缓存］
Tudorache T, Falconer S, Nyulas C, Storey MA, Ustün TB, Musen MA。支持与WebProtégé合作编写ICD-11。2010年11月13日;2010:802-806 [免费全文] [Medline］
Pöschko J, Strohmaier M, Tudorache T, Noy NF, Musen MA。使用iCAT分析对基于人群的知识生产系统进行实用分析:ICD-11本体的可视化变化。斯坦福:AAAI出版社;2012年美国科学研究院(AAAI)春季大众智慧研讨会;2012年3月26日至28日;斯坦福大学,CA。
Falconer SM, Tudorache T, Nyulas C, Noy NF, Musen MA。WebProtégé:支持ICD-11的创建。蒂尔堡:CEUR-WS;2010年发表于:ISWC 2010海报和演示轨道:收集摘要;2010年11月9日;上海,中国。
图多拉什T，法尔科纳S，纽拉斯C，诺伊N，穆森MA。语义Web技术会对ICD-11的发展起作用吗?柏林:斯普林格出版社;2010年发表于:第九届国际语义Web语义Web会议;2010年11月7-11日;上海,中国。
WordPress.com。2012.类别vs标签http://en.support.wordpress.com/posts/categories-vs-tags/[访问2012-07-27][WebCite缓存］
科维奇I，卢里克I，布鲁米尼G.检查医学博客圈:医学博客的在线调查。J medical Internet Res 2008 9月23日;10(3):e28 [免费全文] [CrossRef] [Medline］
毕奇R, Wlodarczyk P.混合方法的分类学和大众分类法。马萨诸塞州卡莱尔:Early & Associates;2009年发表于:语义技术会议2009;2009年6月14-18日;圣何塞，加利福尼亚州。
Sommaruga L, Rota P, Catenazzi N。“标记分类法”:通过分类法和大众分类法的组合方便地访问Web站点。智能计算与软计算研究进展;2011;26(6):531 - 531。［CrossRef］

‎

ICD-11:《国际疾病分类》第11版

JSP:Java服务器页面

UML:统一建模语言

URL:统一资源定位器

XML:可扩展标记语言

G·艾森巴赫(G Eysenbach)编辑;提交15.09.12;M Awad, C Smith同行评审;对作者18.01.13的评论;修订版本收到06.02.13;接受09.02.13;发表27.02.13

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

ICDTag:一个基于web的系统原型，用于使用混合分类法-大众分类法方法组织医生撰写的博客文章

ICDTag:一个基于web的系统原型，用于使用混合分类法-大众分类法方法组织医生撰写的博客文章

原始论文

通讯作者:

摘要

关键字

简介

背景

关联免费关键字

使用预定义分类

方法

研究设计

ICDTag概述

分类学-大众分类法

ICDTag模块

用户交互模式

ICDTag原型的开发

实现工具

ICDTag原型的详细功能

博客模块

上传模式

浏览模式

“查看帖子”超链接

“搜索帖子”超链接

聚合器模块

ICDTag原型的评估

实验装置

ICDTag博客的评估

信息质量评价

结果

概述

ICD-11分类的使用

标签的使用

稳定后聚合

ICDTag博客的评估

信息质量评价

结果分析

类别的使用

标签的使用

用户对ICDTag博客的评价

聚合信息的质量

讨论

一般

ICDTag混合方法与其他方法的比较

限制

致谢

利益冲突

多媒体附件1

多媒体附件2

多媒体

参考文献

缩写