发表在16卷第四名(2014): 4月

泄密是不可避免的吗?

泄密是不可避免的吗?

泄密是不可避免的吗?

的观点

1澳大利亚新南威尔士大学卫生创新研究所卫生信息学中心,悉尼,澳大利亚

2美国马萨诸塞州波士顿哈佛医学院生物医学信息学中心

3.儿童医院信息学项目,哈佛-麻省理工学院健康科学与技术,波士顿儿童医院,马萨诸塞州波士顿,美国

通讯作者:

亚当·G·邓恩博士

卫生信息学中心

澳大利亚卫生创新研究所

新南威尔士大学

悉尼,2052年

澳大利亚

电话:61 9385 8699

传真:61 9385 8692

电子邮件:a.dunn@unsw.edu.au


2014年,绝大多数已发表的生物医学研究仍然隐藏在付费墙之后,而不是开放获取。十多年来,对其他数字内容的类似限制催生了非法活动。音乐文件共享在20世纪90年代末变得猖獗,因为围绕着新的共享方式形成了社区。针对商业和政府利益的网络攻击的频率和规模急剧增加。通过少数人的行动,大量的政府机密文件被公之于众。然而,我们并没有看到同行评议学术文章的非法分享有显著增长。我们真的应该期望生物医学出版在某种程度上比其他内容生成行业的风险更小吗?更大的威胁——“文献泄露”事件——数据库被破坏和大量生物医学文献档案的公开泄露——又是什么呢?随着所有研究成果都应该向所有人开放的期望成为年轻一代研究人员和更广泛社区的常态,这种泄密的动机很可能会增长。我们探讨了为研究人员、期刊、出版商以及更广泛的医生和他们所服务的患者社区举办Biblioleaks活动的可行性和后果。

中国医学网络杂志2014;16(4):e112

doi: 10.2196 / jmir.3331

关键字



通过共同努力,黑客获得了六家出版商的数据库,这些出版商共同控制着对大多数基于订阅的生物医学期刊文章的访问。这个组织复制了每本期刊的每一篇文章,并将它们发布到公共领域。文章的子集被镜像到匿名的点对点网络中,创建了一个分散和多重冗余的存储库,任何人类或计算机算法都可以访问。当它的用户开始添加新的和缺失的文章时,存储库就会增长,从而创建一个无摩擦、免费和普遍访问已发表研究的自我维持系统。尽管违规者会被追索,尽管更广泛的学术界可能不太可能接受非法活动,但一个强大的国际文章共享地下组织就这样建立起来了。富裕国家的学者通常享有机构订阅许多期刊的特权,但需要付费阅读或下载的文章(付费墙)在很大程度上超出了其他人的阅读或下载能力,因此有大量动机访问这种新资源。

这种形式的游击式开放获取的潜力很少被讨论。1尽管最近发生了针对商业和政府利益的大规模网络攻击。大型事件,如Napster上非法音乐文件共享的兴起,以及包括战争日志在内的政府文件的大规模发布和全球监控披露,可以迫使这些访问和透明度问题进入主流公共辩论。

这种事件对出版商、期刊、研究人员和更广泛的社区可能产生的后果在很大程度上是未知的。我们考虑了生物医学研究的生产者和消费者目前的行为,最近数据泄露的规模和形式,以及支撑匿名共享的技术,推测了泄漏的后果和分散的地下文章共享的合理性。


在PubMed(一个访问生命科学和生物医学文献的MEDLINE数据库的搜索引擎)目前索引的2360万篇文章中,只有300多万篇全文版本可以通过PubMed Central (图1).这意味着目前PubMed索引的同行评议的生物医学文章中约有13%可以通过PubMed Central直接免费获取。尽管开放获取出版业发展迅速(2000年至2011年间增长了16倍),2]),生物医学研究的总体发表量似乎超过了开放获取的增长量,创造了一个潜在无法访问的生物医学研究的持久档案。

PubMed索引了大部分符合最低质量标准的生物医学研究,但PubMed Central并没有捕获所有可以免费访问的文章。其他访问选项包括图书馆或个人期刊订阅、向作者发送电子邮件、一系列以研究为基础的社交网络和机构网页等分散的存储库[3.],并向出版商支付获取个别文章的费用。即使对积极从事研究的专家来说,这种获取付费文章全文的过程也是低效的,但其最严重的影响可能是对访问选择较少的群体——临床医生和更广泛的公众。

图1。PubMed当前索引的文章数量(蓝色)和PubMed Central免费提供的文章数量(橙色),按出版年份排列,涵盖1945年至2013年间发表的文章(数据访问时间为2014年3月17日)。
查看此图

“所有信息都应该是免费的”这一理念背后的动机已经明确地嵌入学术界的结构中至少50年了。4].在访问已发表研究的成本无法承受的情况下,颠覆访问限制的驱动因素似乎与推动最近大规模数据泄露的驱动因素没有什么不同。在曾经的秘密或受限制的信息越来越多地为了公共利益而泄露的时代,至少有一位倡导者公开推动了同行评审文献中的游击开放获取[1,出版商应该解决大规模数据泄露的威胁。

规模不是网络攻击的障碍。从超过7600个记录数据泄露的数据库中[5],其中21起涉及超过2000万条记录,表明这种规模的数据泄露是近期明确的先例(图2).在最大的21起黑客袭击中,有18起是黑客所为,其中大多数发生在过去5年。从这些记录可以明显看出,大型企业也不能幸免于数据泄露,而且大型数据泄露有增无减。

文章一旦发布到公共领域,可能就很难或不可能收回,因为一旦获得已发表的研究,就不存在泄露的技术障碍。用以清洗文件及以匿名方式在网上散播文件的软件已备妥[67].上世纪90年代末,随着Napster的出现,可以用来存储、跟踪和访问泄露文章的点对点网络结构成为主流。89].虽然出版商目前参与向违反许可发布自己文章的作者和机构发出下架通知,但如果文章在网上匿名泄露,这种强制版权所有权的策略就无法使用。新形式的点对点网络也通过暗网结构的隐私和安全抵制这种形式的审查[1011],以及使用分布式存储,将文件分割为加密块,以便所有用户都可以访问,但没有单个用户存储整个文件[11].

图2。按记录数量计算的最大数据泄露记录(2014年1月7日访问)。黑客是蓝色的,所有其他入侵类型是橙色的(例如,被盗/丢失磁盘)——与PubMed索引的全文版本需要订阅或付费才能访问的假设入侵数量相比较。与6个最大的出版商相关的比例(2014年1月7日从PubMed输出链接中抽样)占这些不可访问文章的72%(红色)。
查看此图

出版业已经尝试了多种开放获取模式[1213].传统出版商对新期刊和现有期刊都采用了金色、绿色和混合开放获取模式。在黄金开放获取中,作者通常在发表时付费发表文章,然后文章就可以免费访问。然而,这并不一定意味着这些文章的发布没有任何使用限制。在绿色开放访问中,允许作者将文章的某个版本上传到存储库,有时会有延迟。即使传统出版商的大部分文章都是在绿色开放获取许可下发布的,他们仍然能够获得极高的利润。14],而新的掠夺性出版商也在不断扩大的市场中蓬勃发展[1516].

大规模数据泄露的商业风险将向传统出版商倾斜,这些出版商的商业模式包括对发表的研究收费,以及依靠网站流量获取广告收入的期刊。这种情况还可能通过将读者从期刊网站转移到其他学科,从而影响某些学科的社团结构,减少社团内部的互动[17].在Biblioleaks的情况下,开放获取出版商在出版时获得大部分收入,不依赖于订阅或广告收入,因此相对于其他出版商,它们将处于优势地位。


订阅期刊授予作者的许可通常允许他们通过将手稿的版本上传到政府和学术机构的资料库或个人网页来分享他们已发表的作品。被称为绿色开放获取,约81%的已发表文章属于这一类别(62%在发表后立即发表,其余的在不同的延迟后发表)[2].尽管公共研究资助机构越来越多地要求研究是开放获取的,但只有大约12%的绿色开放获取文章可以通过搜索存储库或个人网页找到,因为作者没有利用这一选项[2].这意味着,尽管有能力和义务这样做,研究人员的自我存档率很低。

与上世纪90年代末Napster音乐共享网络的惊人扩张相比,相对较少的研究人员参与了违反出版商条件的游击开放访问共享文章。Twitter上最近出现了两种分享行为。第一个,#icanhazpdf [18),它始于2011年,是一种“拉”式的做法,需要文章的人提出要求,然后等待有权限的人提供一份。第二个,#pdftribute [19,始于2013年的一种“推送”活动,作者在网上为自己撰写或持有的文章的完整版本做广告。这两种做法都稳定在较低的请求和上传率上。根据这些证据,并考虑到学术界内部观察到的低水平的自我存档和公民不服从,我们推测,破坏性的变化更有可能来自“书目泄露事件”的场景——少量的大规模泄露,可能来自学术界之外,而不是学术界集体来自学术界内部的非暴力反抗。

大规模的泄露似乎对个别研究人员几乎没有直接的负面影响。主要的影响将是增加对他们出版作品的访问。总的来说,更好地链接和综合研究的能力也可能导致自动化文献发现的改进[20.21,为新形式的研究提供了机会。在Biblioleaks的情况下,由于被动的角色,同行评议研究的作者的利益将得到满足,没有直接相关的风险。


虽然对大学里的研究人员来说,获取已发表的文献是个问题,但更广泛的社区面临着巨大的障碍。有证据表明,公众希望获得已发表的研究成果,但受到了付费墙的阻碍。22].有证据表明,开放获取文章被更频繁地浏览和下载,而不一定会导致更高的引用率,这进一步暗示了更广泛的社区正在参与同行评议研究[23].

在医学领域,我们知道医护人员不太可能阅读同行评议的文献,他们更可能询问同事,使用参考书,或通过谷歌或维基百科访问网站[24].在美国的患者中,58%的人在网上查找健康信息,四分之一的人遇到了付费墙[25].证据表明,临床医生和公众试图使用互联网寻找文献,但往往无法达到他们所需要的。由于没有付费的机构访问,也没有个人网络来帮助规避访问限制,社区的普通成员更有可能忽略无法访问的文章,而依赖未经同行评审的来源。因此,一旦他们习惯于访问这样的存储库,大规模泄漏就有可能创建一个更知情的临床和患者社区。

在人口层面,研究共识与公众理解之间的差距对全球健康产生了重大影响,在包括疫苗接种、顺势疗法和气候变化在内的问题上,同行评议的证据所显示的与大部分公众所相信的之间存在明显的不一致[26-28].虽然先前的信念在决策中起着重要作用,但在搜索中访问的第一份文件在转换信念的可能性中起着重要作用[29].通过消除限制获取大多数同行评议文献的障碍,大规模泄露可以提供更高的透明度,并将可用信息的重心从灰色文献转移到同行评议的研究,从而有助于减少有问题的公众舆论。


即使开放获取越来越多,大规模泄露的动机仍将持续存在,因为无法访问的研究档案仍在增长。威胁是显而易见的。切尔西·曼宁(Chelsea Manning)和爱德华·斯诺登(Edward Snowden)证明,个人可以让政府的保密能力和公众对秘密项目的态度发生结构性转变,尽管泄密者自己也要为此付出巨大的个人代价。娱乐业在十多年前也经历过类似的情况,当时消费者从从收音机录制到磁带,转向在本地和全球计算机网络上共享。这种破坏留下了文件共享网络的遗产,这些网络变得越来越安全,对审查越来越有抵抗力。今天,即时访问音乐、电视和电影被许多人认为是理所当然的,而娱乐业继续蓬勃发展,通过寻找合法和低成本的方式来吸引那些否则会转向非法文件共享服务的观众。

从这个角度来看,生物医学出版面临着威胁,但也面临着机遇。学术界目前的非法分享形式主要依赖于个人网络或容易被审查的网站。相对较少的学者已经开始探索更广泛的非暴力反抗形式。由于开放获取已经成为一个主流问题,学者和公众开始期待免费和立即获取新研究成果成为常态,而不是例外。随着非法分享的形式变得越来越复杂和普遍,出版商面临着一种让人想起十多年前娱乐业所面临的情况。

我们认为,低水平的非暴力反抗(或者作者不知道他们的文章的哪个版本被允许上传到存储库)本身不太可能导致非法文章共享的临界质量。大规模泄露是一个更大的威胁,因为它们可能会立即影响已发表研究的获取方式。出于这个原因,出版商可能会看到加强现有系统的价值,以检测和防止异常大规模的下载,或非典型的系统或有序的全文访问。

有先见之明的出版商也可以考虑其他选择,尽量减少非法访问背后的动机,避免技术和法律军备竞赛的成本,这可能只会推迟不可避免的事情。出版商可能会选择故意按照自己的条件发布文章,当他们回应对获得全面临床试验数据的日益增长的需求时,这种方法提高了葛兰素史克的声誉和信任[30.].他们也可以考虑其他形式的低成本访问,这可以极大地扩大同行评议研究的市场到更广泛的社区。新形式的低成本接入的例子,如限时租赁,已经可用[31].

从这一领域有限的证据来看,“圣经泄密”事件在技术上是可行的。有一些证据表明,在研究人员和更广泛的社区中,非法文件共享的新形式正在出现,这表明当前的环境与非法文件共享的初期类似。在那段时间里,在线用户越来越多地接触到免费获取音乐的工具,碎片化的社区开始联合成一个全球共享网络。如果有针对性的数据泄露引发了类似的地下文章共享增长,可能会对一些出版商产生负面影响,对公众访问生物医学研究的方式产生颠覆性变化,新的低成本访问选项的快速发展,并改善公众对医学研究的参与。

致谢

这项研究没有得到具体的资助。

利益冲突

没有宣布。

  1. 《游击开放获取宣言》,2008。URL:https://ia700808.us.archive.org/17/items/GuerillaOpenAccessManifesto/Goamjuly2008.pdf[访问时间:2014-02-17][WebCite缓存
  2. Björk B, Laakso M, Welling P, Paetau P.绿色开放获取解剖。科学通报2013年11月6日;65(2):237-250。[CrossRef
  3. 拉克索M, Björk BC。开放存取出版剖析:纵向发展与内部结构研究。BMC医学2012;10:124 [免费全文] [CrossRef] [Medline
  4. 黑客:计算机革命的英雄。纽约州花园城:锚出版社/双日出版社;1984.
  5. 开放安全基金会。数据丢失数据库-最大事件。2013。URL:http://datalossdb.org/index/largest[访问时间:2014-02-17][WebCite缓存
  6. Dingledine R, Mathewson N, Syverson P. Tor:第二代洋葱路由器。2004年发表于:第十三届USENIX安全研讨会论文集;2004;加州圣地亚哥,第21页。
  7. Ramakrishnan C, Patnia A, Hovy E, Burns GA。从科学文章全文PDF中提取可感知布局的文本。源代码生物医学2012;7(1):7 [免费全文] [CrossRef] [Medline
  8. DeVoss DN, Porter JE。为什么Napster对写作很重要:文件共享是数字传播的新伦理。计算机与合成2006 Jan;23(2):178-210。[CrossRef
  9. Saroiu S, Gummadi KP, Gribble SD。测定和分析Napster和Gnutella宿主的特性。多媒体系统2003 8月1日;9(2):170-184。[CrossRef
  10. 比德尔P,英格兰P,佩纳多M,威尔曼B.暗网络和内容保护的未来。数字版权管理,计算机科学讲座讲稿2003;2696:155-176。[CrossRef
  11. 克拉克I,米勒S,洪T,桑德伯格O,威利b保护网上言论自由与Freenet。计算机科学与技术,2002;6(1):40-49。[CrossRef
  12. Guédon J.开放准入的“绿色”和“黄金”道路:混合搭配的案例。科学通报2004年1月30日(4):315-328。[CrossRef
  13. 政府政策和做研究的成本。科学1985年2月1日;227(4686):480-484。[Medline
  14. 《经济学人》。科学出版:信息价格网址:http://www.economist.com/node/21545974[访问时间:2014-02-17][WebCite缓存
  15. 博汉南·j,谁会害怕同行评议?《科学》2013年10月4日;342(6154):60-65。[CrossRef] [Medline
  16. Haug C.开放获取出版的缺点。中华外科杂志2013年2月28日;368(9):791-793。[CrossRef] [Medline
  17. 戴维斯点。PubMed Central的生物医学文章的公共可及性降低了期刊的读者——回顾性队列分析。FASEB J 2013 7月;27(7):2536-2541 [免费全文] [CrossRef] [Medline
  18. @AndreaKuszewski。2011年1月21日。天哪,这应该是新的“我要一篇论文”标签!#icanhazPDF RT @BoraZ:我可以hazPDF ?URL: http://bit.ly/eCsfKohttps://twitter.com/AndreaKuszewski/status/28257118322688000[访问时间:2014-02-17][WebCite缓存
  19. Vivalt E. @EvaVivalt2013年1月13日。为了表示敬意,我将把所有收集到的pdf文件放在网上进行研究。我鼓励每个人都这样做。http://aideconomics.com/index.php/2013/01/12/in-memoriam/ #pdftribute网址:https://twitter.com/evavivalt/status/290287659681726464[访问时间:2014-02-17][WebCite缓存
  20. 李国强,李国强,李国强。基于文本挖掘的新生物学研究。Cell 2008 7月11日;134(1):9-13 [免费全文] [CrossRef] [Medline
  21. Wren JD, Bekeredjian R, Stewart JA, Shohet RV, Garner HR。通过隐式关系的自动识别和排序来发现知识。生物信息学2004 Feb 12;20(3):389-398 [免费全文] [CrossRef] [Medline
  22. 戴维斯是首相,沃尔特斯是州长。免费获取科学文献的影响:近期研究综述。中国医学图书馆杂志2011年7月;99(3):208-217 [免费全文] [CrossRef] [Medline
  23. 戴维斯点。开放获取,读者,引用:科学期刊出版的随机对照试验。FASEB J 2011 7月;25(7):2129-2134 [免费全文] [CrossRef] [Medline
  24. O'Keeffe J, Willinsky J, Maggio L.公共获取和使用卫生研究:国家卫生研究院(NIH)公共获取政策的探索性研究,使用访谈和卫生人员的调查。中国医学杂志,2011;13(4):e97 [免费全文] [CrossRef] [Medline
  25. 福克斯S,达根M.健康在线。:皮尤网络与美国生活项目;2013.URL:http://www.pewinternet.org/files/old-media//Files/Reports/PIP_HealthOnline.pdf[访问时间:2014-02-17][WebCite缓存
  26. Kahan DM, Peters E, Wittlin M, Slovic P, Ouellette LL, Braman D,等。科学素养和计算能力对感知气候变化风险的两极分化影响。自然气候变化2012 5月27日;2(10):732-735。[CrossRef
  27. 毛瑞尔J,乌斯派恩L,哈里斯KM。季节性流感和甲型H1N1流感的严重性、美国成年人对疫苗接种的态度和疫苗接种:信息来源重要吗?Prev Med 2010 Aug;51(2):185-187。[CrossRef] [Medline
  28. 顺势疗法是危害所在:资助不科学的“疗法”的五个不道德的影响。《医学伦理学》2010年3月36日(3):130-131。[CrossRef] [Medline
  29. Lau AY, Coiera EW。预测网络搜索对决策的影响的贝叶斯模型。j。Soc。科学通报2006年5月;57(7):873-880。[CrossRef
  30. Coombes R.葛兰素史克授权研究人员获取临床试验数据。BMJ 2012; 345: e6909。[Medline
  31. Baynes G, Hanson M.试用期刊内容的移动和文章租赁访问选项。图书馆员2012年1月;62(1-4):217-221。[CrossRef

G·艾森巴赫(G Eysenbach)编辑;提交16.02.14;I Oransky, P Kudlow同行评议;对作者14.03.14的评论;修订本收到日期:03.04.14;接受13.04.14;发表22.04.14

版权

©Adam G Dunn, Enrico Coiera, Kenneth D Mandl。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年4月22日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map