发表在20卷第五名(2018): 5月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/9683,首次出版
贡献者经验对维基百科健康相关文章质量的影响

贡献者经验对维基百科健康相关文章质量的影响

贡献者经验对维基百科健康相关文章质量的影响

短论文

1IWM莱布尼茨研究所für Wissensmedien(知识媒体研究中心),知识建设实验室,Tübingen,德国

2德国汉诺威莱布尼茨大学L3S研究中心

通讯作者:

Peter Holtz, Dipl Psych, Phil博士

IWM莱布尼茨研究所für Wissensmedien(知识媒体研究中心)

知识建设实验室

Schleichstraße 6

图宾根,72076

德国

电话:49 7071979303

传真:49 7071979105

电子邮件:p.holtz@iwm-tuebingen.de


背景:在互联网上咨询与健康相关的信息是一个普遍而广泛的现象,而维基百科可以说是与健康相关的信息最重要的资源之一。因此,确定影响维基百科健康相关文章质量的因素是相关的。

摘要目的:在我们的研究中,我们假设了贡献者体验对与健康相关的维基百科文章质量的积极影响。

方法:我们挖掘了维基百科英文版健康与健身门户网站类别中列出的所有(截至2017年2月)18805篇文章的编辑历史。我们在文章的编辑历史中确定了标签,这些标签表明了有关文章质量或中立性的潜在问题。在所有抽样的文章中,99篇(99/ 18805,0.53%)的文章在某个时刻至少收到了一个这样的标签。在我们的分析中,我们只考虑了那些编辑最少10次的文章(总共10,265篇;96篇,占0.94%)。此外,为了验证我们的假设,我们构建了贡献者配置文件,其中一个配置文件由贡献者编辑的所有文章和相应的编辑数量组成。我们没有区分回滚和具有新内容的编辑。

结果:非参数Mann-Whitney u检验表明,非标记文章的编辑者先前编辑过的文章数量更高(标记平均排名2348.23,未标记平均排名5159.29;U = 9.25,P<措施)。然而,我们没有发现贡献者的编辑总数有显著差异(平均排名标记4872.85,平均排名未标记5135.48;U = 0.87,P=点)。使用逻辑回归分析,以文章的编辑次数和编辑次数为协变量,只有编辑文章的数量对文章的标记状态和无标记状态(假编码;NagelkerkeR2对于完整模型=.17;B(SEB) = -0.001 (0.00);瓦尔德c2[1] = 19.70;P<.001),而我们再次发现仅仅编辑次数没有显著影响(NagelkerkeR2对于完整模型=.15;B(SEB) = 0.000 (0.01);瓦尔德c2[1] = 0.01;P=总收入)。

结论:我们的研究结果表明,贡献者经验对与健康相关的维基百科文章的质量有影响。然而,只有以前编辑过的文章数量可以预测文章的质量,而仅仅是编辑的数量不能预测文章的质量。需要更多的研究来理清贡献者经验的不同方面。我们讨论了我们的研究结果对确保合作知识建设平台中健康相关信息质量的影响。

中国医学网络杂志,2018;20(5):e171

doi: 10.2196 / jmir.9683

关键字



网上健康资讯

关于互联网上健康相关信息质量的讨论可以追溯到20世纪90年代末[12]并在最近继续[3.-5].在互联网上查阅与健康相关的信息无疑已成为一种普遍而广泛的现象[67].在过去几年中,维基百科已成为网络上最重要的健康相关信息知识资源之一[489].在本文中,我们(1)描述了与健康相关的维基百科文章中社区应用标签所指示的潜在质量问题,(2)分析了贡献者体验对与健康相关的维基百科文章质量的重要性。

维基百科作为资源

维基百科在很大程度上依赖于同行评审,以确保其协作构建的知识语料库的质量,维基百科的贡献者被期望并被邀请纠正其他贡献者的错误[9].有争议和冲突的问题将由贡献者进行辩论,直到达成共识[1011].引发此类讨论的一种方法是应用几个维基百科模板消息中的一个标签)到一篇文章,这表明质量相关的问题,如文章有偏见,误导,或事实错误。在我们的研究中,我们将一篇文章的编辑历史中至少出现一个质量问题标签作为潜在质量问题的代表。

尽管维基百科不是由专家组织管理的,但维基百科中与健康相关的文章的质量并不一定比专家生成的互联网内容差[12].人们一再呼吁有经验的医疗专业人员更积极地参与提高与健康相关的维基百科文章的准确性[1314].然而,有经验证据表明,尽管维基百科竭尽全力确保知识质量,但它的文章可能是有偏见的;例如,由于以男性为主的维基百科作者低估或贬低了女性的显著成就(性别偏见) [15].另一种形式的偏见是,关于维基百科作者自己国家群体的信息呈现出比关于其他群体的信息更积极的方式(派系的偏见) [16].与之前的研究一致[1718],我们假设,这种扭曲的一定比例是由于缺乏经验的一方,各自的文章的贡献者。


在这项研究中,我们挖掘了维基百科门户网站类别中列出的18805篇文章的完整编辑历史(截至2017年2月)健康与健身19]在维基百科的英文版本中。我们开发了自己的公开代码来挖掘数据[20.].我们首先在文章的编辑历史记录中确定了标记或模板消息的出现,这表明了质量问题。这些标签是违反中立观点策略(样本42例),矛盾的内容(13),不平衡的内容(12),混乱的内容(17),不准确的内容(23)。文章各自讨论页中的标签没有被考虑在内。标签,例如违反中立观点策略而且不平衡的内容指违反维基百科的客观性标准,这可能是由社会偏见造成的,如群体偏见或性别偏见,而其他标签则与一般的质量问题有关。在所有抽样文章中,99篇(99/ 18805,0.53%)文章在某个时刻至少收到了上述标签中的一个。为了比较有标签的文章和没有标签的文章,我们只使用了由至少10次编辑组成的文章,尽管可以想象,一些精心制作的维基百科文章是由相对较少的相对实质性的编辑产生的。这一限制使文章总数减少到10,265,而标记文章的总出现次数从99次减少到96次(96/10,265,0.94%)。

对于每个在样本文章中至少编辑过一次的贡献者,我们构建了贡献者的个人资料,包括所有维基百科文章的编辑总数以及该贡献者到目前为止编辑过的文章总数。我们对编辑的质量不做任何区分;因此,我们以相同的方式处理具有新内容的回滚和编辑。所有统计分析均采用SPSS 22软件包。所有报告的显著性检验都是双面的,我们将显著性水平设置为P= . 01。


标签物品的内容

99篇带标签的文章被手动分配到分析中出现的四个不同的内容类别之一:立法和政治(41篇文章;例子包括“伊朗堕胎”、“自由市场医疗”和“禁烟”),医学有关的话题(21篇文章;例子包括“抗菌素耐药性”、“肥胖”和“齐多夫定”),与替代医学相关的话题(19篇文章;例子包括“占星术和健康”、“捏脊术”和“悉达医学”),还有地点、人物和事件(18篇文章;例如“2009年墨西哥流感大流行”、“贝特莱姆皇家医院”和“阿诺德·施瓦辛格”)。详情见多媒体附件1

这99篇文章的平均总编辑数为940.60 (SD 1458.67),作者平均为186.27 (SD 251.97)人。与18,706篇无标记文章相比(平均编辑49.67,SD 194.56;平均编辑16.16,SD 38.26),标记文章的编辑数量显著高于(t98.02= 6.10;P<措施;d=1.08),并且它们的作者数量明显更高(t98.02= 6.72;P<措施;d= 1.17)。这些差异的部分原因可以解释为,大量没有标记的文章都是“存根”,只不过是一个文章标题。这样的存根(少于10次编辑)从所有进一步的分析中被省略。因此,标记(mean editits 969.75, SD 1472.23;平均编辑量191.96,SD 253.81)和非标记文章(平均编辑量88.13,SD 257.66;平均编辑27.30,SD 49.16),包括10个或以上的编辑,就平均总编辑次数而言(t95.06= 5.87,P<措施,d=1.07)和编辑(t95.07= 6.36,P<措施,d=1.09)可以在一定程度上降低,但差异仍然显著。

贡献者经验的影响

剩余的10265篇文章平均编辑数为100.12次(SD 311.00),平均作者为29.79名(SD 57.97)编辑。根据他们的用户资料,这些文章的编辑在1033.42 (SD 648.71)篇维基百科文章中平均编辑了32,031.05 (SD 27,513.01)次。根据Kolmogorov-Smirnov检验,编辑总编辑数和编辑文章数均呈正偏,且非正态分布(P值<措施)。因此,我们使用曼-惠特尼u检验来分析96篇文章的作者之间的差异,这些文章由至少10次编辑组成,并且收到了至少一个表明质量问题的标签,而那些没有标签的文章的作者则与编辑之前的编辑活动有关。我们发现在编辑文章总数方面存在显著差异(平均标记秩为2348.23,平均未标记秩为5159.29;U= 9.25,P<.001),而总编辑数的差异不具有统计学意义(平均标记rank为4872.85,平均未标记rank为5135.48;U= 0.87,P=点)。

为了解释包含10个或更多编辑的标记文章和未标记文章之间的显著差异,关于平均编辑总数和编辑人数(见上文),我们进一步使用逻辑回归分析(逐步)检验我们的初步发现,以标记文章与未标记文章的状态(虚拟编码)为因变量,各自文章的总编辑数和总编辑数为控制变量,并以投稿者的编辑总数和编辑文章数(分别)作为独立预测因子。这种方法控制了一篇文章的编辑或编辑的数量可能产生的混淆线性效应。我们再次发现,贡献者编辑的文章总数显著地预测了文章的状态(NagelkerkeR2对于完整模型=.17;B(SEB) = -0.001 (0.00);瓦尔德c21) = 19.70;P<.001),而贡献者编辑的总数并没有产生显著的影响(NagelkerkeR2对于完整模型=.15;B(SEB) = 0.000 (0.01);瓦尔德c21) = 0.01;P=总收入)。


主要结果

维基百科中与健康相关的最大类别的文章在编辑历史中一度收到了一个用户应用标签,表明质量问题集中在政治和立法问题的主题上。其他文章涉及替代医学、一般医学主题以及具体事件和人物。

有标签文章的作者(平均而言)编辑的维基百科文章比没有标签文章的作者少。然而,我们并没有发现仅仅是贡献者以前编辑的数量有显著差异。假设作者的能力与维基百科文章收到质量问题标签的概率之间存在关系,这可能表明仅仅是活动的量并不能表明维基百科作者的能力,而是一定的经验广度。这一发现,如果得到证实,可能会对维基百科(和其他平台)的编辑系统以及协作式知识建设平台的质量管理产生影响。例如,由编辑撰写的文章,其以前编辑的文章范围相对较窄,可以自动识别并标记以便进行进一步的质量检查,作为确保和改进与健康相关文章质量的一种手段。然而,还需要更多的研究来理清维基百科贡献者活动的不同方面对维基百科文章质量的影响。

限制

我们研究的一个主要限制因素是,相对较少的文章收到至少一个表明质量问题的标签。在未来的研究中,为了重复我们的发现,解决这个问题的一种方法是使用基于文章特征的质量指标,如长度、段落数量和图片数量[21].还应该注意的是,有标签和无标签文章的作者(平均而言)在几百篇文章中进行了几千次编辑,因此是相对有经验的维基百科贡献者。需要进一步的研究来分析不同级别的编辑经验(或经验不足)对维基百科文章质量的影响。为本研究采样的文章仅构成维基百科上可用的医疗内容的一部分[22].未来的研究需要在更广泛的与健康相关的维基百科文章和英语以外的其他语言的文章中复制我们的发现。

结论

与以往的研究一致[41321],我们的发现凸显了维基百科作为健康相关信息的宝贵资源的潜力。然而,维基百科文章的质量依赖于有经验和知识渊博的贡献者愿意承担编辑和改进维基百科文章的无偿劳动。鼓励有经验的专业人士进一步参与维基百科内容的一种方法是为此类活动提供奖励(例如,以继续医学教育学分的形式)[22].

致谢

这项工作得到了欧盟研究计划“地平线2020”(项目“AFEL -日常学习分析”;项目没有。687916)。

利益冲突

没有宣布。

多媒体附件1

被标记文章的概述。

PDF档案(adobepdf档案),53KB

  1. Eysenbach G, Diepgen T.迈向互联网上医疗信息的质量管理:信息的评估、标签和过滤。英国医学杂志1998 11月28日;317(7171):1496-1502。[CrossRef
  2. Silberg WM, Lundberg GD, Musacchio RA。评估、控制和保证互联网医疗信息的质量:警告的讲师和观众——让读者和观众当心。中国医学杂志1997年4月16日;277(15):1244-1245。[Medline
  3. 米卡吉塔,Rodney T,徐杰,Hladek M,韩华。在线心力衰竭信息的质量与健康素养需求。中华心血管病杂志2017;32(2):156-164。[CrossRef] [Medline
  4. Fahy E, Hardikar R, Fox A, Mackay S.互联网上患者健康信息的质量:回顾一个复杂和不断发展的景观。澳大利亚医学杂志2014;7(1):24-28 [免费全文] [CrossRef] [Medline
  5. 肖尔滕先生,凯德斯,范吉杰。自我引导的基于web的干预:对用户需求的范围审查和嵌入式会话代理解决这些需求的潜力。J Med Internet Res 2017 11月16日;19(11):e383 [免费全文] [CrossRef] [Medline
  6. 宋海松,金金杰,张文杰,林伟,等。信任社交媒体作为健康信息的来源:比较美国、韩国和香港的在线调查。J Med Internet Res 2016年3月14日;18(3):e25 [免费全文] [CrossRef] [Medline
  7. 福克斯S,达根M.皮尤互联网和美国生活项目。华盛顿特区;2013.健康在线2013网址:http://www.pewinternet.org/2013/01/15/health-online-2013/[访问时间:2018-04-16][WebCite缓存
  8. Laurent MR, Vickers TJ。在线寻找健康信息:维基百科重要吗?中国医学杂志2009;16(4):471-479 [免费全文] [CrossRef] [Medline
  9. Jirschitzka J, Kimmerle J, Halatchliyski I, hanke J, Meurers D, Cress U.一个富有成效的观点冲突?文章和作者观点之间的相互作用,以及他们在一个有争议的领域对维基百科编辑的影响。PLoS One 2017;12(6):e0178985 [免费全文] [CrossRef] [Medline
  10. 欧伯斯特,霍洛奇利斯基,柯默勒。维基百科知识建构的系统建构主义分析。科学通报2014年4月30日;23(2):149-176 [免费全文] [CrossRef
  11. Greving H, Oeberst A, Kimmerle J, Cress U.维基百科文章中关于人为和自然造成的负面事件的情感内容。J Lang Soc Psychol 2017 Jun 29:0261927X1771756。[CrossRef
  12. Rajagopalan MS, Khanna V, Leiter Y, Stott M, Showalter T, Dicker A,等。互联网上以患者为导向的癌症信息:维基百科和专业维护的数据库的比较。J Oncol Pract 2011年9月;7(5):319-323 [免费全文] [CrossRef] [Medline
  13. Heilman JM, Kemmann E, Bonert M, Chatterjee A, Ragar B, beard GM,等。维基百科:促进全球公共卫生的重要工具。中国医学杂志,2011;13(1):e14 [免费全文] [CrossRef] [Medline
  14. Masukume G, Kipersztok L, Das D, Shafee TMA, Laurent MR, Heilman JM。医学杂志和维基百科:全球健康问题。Lancet Glob Health 2016 11月;4(11):e791 [免费全文] [CrossRef] [Medline
  15. Wagner C, Garcia D, Jadidi M, Strohmaier M,这是男人的维基百科?在在线百科全书中评估性别不平等。2015年4月21日出席:第九届国际AAAI网络与社交媒体会议;2015年4月21日;英国牛津,p. 454-463 URL:https://www.aaai.org/ocs/index.php/ICWSM/ICWSM15/paper/view/10585
  16. Oeberst A, Cress U, Back M, Nestler S.个人与协作信息处理:维基百科偏见的案例。In: Cress U, Moskaliuk J, Jeong H,编辑。大众合作与教育。Cham, CH:施普林格国际出版;2016:165 - 185。
  17. 凯恩GC。维基协作中信息质量的多方法研究。ACM Trans Manage Inf Syst 2011 march 01;2(1):1-16。[CrossRef
  18. Dang QV, Ignat CL。评估协作编辑文档的质量:以维基百科为例。2016发表于:2016 IEEE第二届协作与互联网计算国际会议(CIC);2016年11月;宾夕法尼亚州匹兹堡网址:http://dx.doi.org/10.1109/cic.2016.044CrossRef
  19. 维基百科》2018。门户网站:健康健身网址:https://en.wikipedia.org/wiki/Portal:Health_and_fitness[已访问2017-11-30][WebCite缓存
  20. Fetahu B. Github库我们的维基百科文章解析功能。2018.URL:https://github.com/bfetahu/utils[访问时间:2018-02-07]WebCite缓存
  21. Blumenstock我。规模很重要。2008年4月发表于:WWW 2008:第17届国际会议万维网会议;2008年4月;中国北京网址:http://dx.doi.org/10.1145/1367497.1367673CrossRef
  22. Heilman JM, West AG。维基百科和医学:量化读者、编辑和自然语言的重要性。中国医学网络学报2015;17(3):e62 [免费全文] [CrossRef] [Medline

G·艾森巴赫(G Eysenbach)编辑;提交18.12.17;M Laurent, M Zimmermann同行评审;对作者18.01.18的评论;修订版本于09.02.18收到;接受14.03.18;发表10.05.18

版权

©Peter Holtz, Besnik Fetahu, Joachim Kimmerle。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2018年5月10日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map