JMIR J Med Internet Res 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v23i12e20028 34860667 10.2196/20028 的观点 的观点 开源软件可持续性模型:来自癌症研究信息技术可持续性和行业合作工作组的初始白皮书 Kukafka 丽塔 Chue香港 尼尔。 Hettrick 西蒙 医学博士,公共卫生硕士,博士 1 https://orcid.org/0000-0002-1138-9846 Barapatre Seemran 1 https://orcid.org/0000-0001-8112-6147 戴维斯 迈克尔·K 女士 1 https://orcid.org/0000-0002-7754-3957 Elliston Keith O 博士学位 2 3. 4 https://orcid.org/0000-0002-9110-9233 Davatzikos 克里斯托 博士学位 5 https://orcid.org/0000-0002-1025-8561 Fedorov 安德烈 博士学位 6 https://orcid.org/0000-0003-4806-9413 Fillion-Robin 约翰• MSc 7 https://orcid.org/0000-0002-9688-8950 福斯特 伊恩 博士学位 8 https://orcid.org/0000-0003-2129-5269 其中, 约翰R 医学博士 1 https://orcid.org/0000-0001-9679-8261 套索 安德拉斯 博士学位 9 https://orcid.org/0000-0002-4220-7064 米勒 詹姆斯五世 博士学位 10 https://orcid.org/0000-0003-1877-7881 摩根 马丁 博士学位 11 https://orcid.org/0000-0002-5874-8148 皮珀尔 史蒂夫 博士学位 12 https://orcid.org/0000-0003-4193-9578 Raumann 林E 博士学位 13 https://orcid.org/0000-0003-3067-0366 Sarachan 布里维 10 https://orcid.org/0000-0002-6266-799X Savova Guergana 博士学位 14 https://orcid.org/0000-0002-5887-200X 西尔弗斯坦 Jonathan C 医学博士,女士 1 https://orcid.org/0000-0002-9252-6039 泰勒 唐纳德·P MBA, PhD, CLP 1 https://orcid.org/0000-0002-2146-8804 Zelnis 乔伊斯B 废话 1 https://orcid.org/0000-0002-5785-968X Guo-Qiang 女士博士 15 https://orcid.org/0000-0002-3663-1109 Cuticchia 杰米 博士,法学博士 2 https://orcid.org/0000-0002-2447-5161 Becich 迈克尔·J 医学博士 1
生物医学信息系 医学院 匹兹堡大学 5607 Baum Blvd办公室,502,15206 宾夕法尼亚州匹兹堡 美国 1 412 648 9244 becich@pitt.edu
https://orcid.org/0000-0001-5998-8074
生物医学信息系 医学院 匹兹堡大学 宾夕法尼亚州匹兹堡 美国 Axiomedix公司。 贝德福德,马 美国 PHEMI系统公司 温哥华公元前 加拿大 tranSMART基金会 韦克菲尔德,马 美国 放射科 医学院 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 布莱根妇女医院 哈佛医学院 波士顿 美国 Kitware Inc .) 克利夫顿公园,纽约州 美国 计算机科学系 芝加哥大学 芝加哥, 美国 派克穿皮手术实验室 计算机学院 皇后大学 在金斯顿 加拿大 通用电气全球研究部 纽约尼什卡纳 美国 生物统计与生物信息学学系 罗斯威尔公园综合癌症中心 纽约布法罗 美国 Isomics Inc .) 剑桥,麻 美国 芝加哥大学 芝加哥, 美国 波士顿儿童医院 哈佛医学院 波士顿 美国 位于休斯顿的德克萨斯大学健康科学中心 休斯顿,德克萨斯州 美国 通讯作者:Michael J Becich becich@pitt.edu 12 2021 2 12 2021 23 12 e20028 17 5 2020 23 7 2020 14 12 2020 23 9 2021 ©Ye Ye、Seemran Barapatre、Michael K Davis、Keith O Elliston、Christos Davatzikos、Andrey Fedorov、Jean-Christophe filion - robin、Ian Foster、John R Gilbertson、Andras Lasso、James V Miller、Martin Morgan、Steve Pieper、Brigitte E Raumann、Brion D Sarachan、Guergana Savova、Jonathan C Silverstein、Donald P Taylor、Joyce B Zelnis、张国强、Jamie Cuticchia、Michael J Becich。原发表于医学互联网研究杂志(//www.mybigtv.com), 02.12.2021。 2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。

背景

国家癌症研究所癌症研究信息技术(ITCR)项目提供了一系列资助机制,以创建一个满足癌症研究需求的开源软件(OSS)生态系统。随着ITCR生态系统的大幅增长,它面临着ITCR受助人开发的软件的长期可持续性的挑战。为应对这一挑战,ITCR可持续性和行业伙伴关系工作组(SIP-WG)于2019年成立。

客观的

SIP-WG的章程是调查各种选项,以增强ITCR正在开发的OSS的长期可持续性,部分是通过开发一组业务模型原型,这些原型可以作为ITCR OSS开发计划的可持续性计划。为了支持这一目标,工作组从ITCR项目、其他研究以及与其他组织(例如,Chan Zuckerberg Initiative、Open Source Initiative和软件可持续性研究所)的广泛关系网络中收集模型。

方法

本文回顾了现有的可持续性模型,并描述了SIP-WG和其他机构在10个可持续性方面传播的10个OSS用例,包括3D切片器、Bioconductor、Cytoscape、Globus、i2b2(集成生物学和床边的信息学)和tranSMART、Insight Toolkit、Linux、观察健康数据科学和信息学工具、R和REDCap(研究电子数据捕获)。治理、文档、代码质量、支持、生态系统协作、安全、法律、财务、营销和依赖卫生。

结果

公开的信息显示,所有10个OSS都有有效的治理、全面的文档、高质量的代码、可靠的依赖、强大的用户和开发人员支持以及积极的市场营销。这些OSS包括各种许可模型(例如,通用公共许可版本2、通用公共许可版本3、Berkeley Software Distribution和Apache 3)和财务模型(例如,联邦研究基金、行业和会员支持以及商业支持)。然而,大多数OSS并没有公开提供关于生态系统协作和安全的详细信息。

结论

我们推荐研究软件的6个基本属性:与未满足的科学需求保持一致,一个专门的开发团队,一个充满活力的用户社区,一个可行的许可模式,一个可持续的财务模式,以及有效的产品管理。我们还强调了未来ITCR活动中需要考虑的重要行动,包括讨论ITCR OSS的可持续性和许可模式,建立一个中央库,分配代码质量控制的咨询资源,生态系统协作,安全性和依赖卫生。

开源软件 可持续性 许可模式 金融模型 产品管理 癌症信息学
介绍 背景

癌症研究资讯科技(ITCR)计划[ 1由美国国家癌症研究所(NCI)于2012年成立,旨在创建一个满足癌症研究需求的开源软件(OSS)生态系统。ITCR支持由癌症研究人员发起的信息技术开发,包括4个校外部门:癌症生物学、癌症控制与人口科学、癌症预防和癌症治疗与诊断。ITCR的协调机构是NCI生物医学信息学和信息学技术中心。

ITCR的具体目标包括:(1)促进信息学技术发展与假设驱动的癌症研究和转化或临床研究的整合;(2)利用多种机制,提供灵活、可扩展和可持续的支持,以适应信息技术在整个开发生命周期中的不同需求和不同阶段;(3)在技术开发和推广方面促进跨学科合作和公私伙伴关系;(4)促进数据共享和开发信息学工具以实现数据共享;(五)促进技术传播和软件复用;(6)促进开发团队之间的沟通和互动;(7)利用研究所内NCI项目的专业知识和资源,弥合现有NCI信息学资助组合中的差距。

ITCR计划的范围是服务于跨越癌症研究连续体的信息学需求。ITCR计划提供了一系列资助机制,支持整个开发生命周期的信息学资源,包括创新方法和算法的创建(R21),早期软件开发(R21),高级软件开发(U24),以及癌症研究和转化信息学社区所依赖的高价值资源的维持(U24)。 表1)。该计划还提供补充剂( 有竞争力的修正),让目前获得资助的NCI受助人将ITCR技术纳入他们正在进行的研究中。现时的资助机会可浏览资讯科技研究中心网页[ 2]。

癌症研究信息学技术(ITCR)资助机制。

机制 目的 2020年9月9日前获奖 直接成本上限
一下R21 创新的信息学方法和算法 25 两年27.5万美元
U01 早期软件开发 34 每年30万美元,为期3年
U24 高级阶段软件开发 40 每年60万美元,为期5年
U24 维持高价值资源 6 没有预算上限和长达5年的支持
竞争性修订(新) 采用、调整和集成ITCR工具和资源 1 每年10万美元,为期2年

这一系列资助机制在美国国立卫生研究院(NIH)所有研究所和中心中都是创新和独特的。这些机制解决了创建可互操作和协作的计算基础设施的基本需求,将许多执行翻译信息学的信息学和计算生物学团队联系起来。ITCR生态系统已经大幅增长,现在包括55个高度协作的资助项目,正如其所证明的那样 连接图 图1)。此地图摘自网络数据交换网站[ 3. 4]。在这张地图中,每个节点代表ITCR资助的一个项目。这些节点之间的链接表示项目之间的连接。现有连接用橙色实线表示,正在进行的连接用蓝色实线表示,建议的连接用灰色虚线表示。节点大小由连接性评分决定,其计算方法是为每个提议的连接分配0分,为每个正在进行的连接分配1分,为每个现有连接分配3分。节点大通常表示该项目与其他项目有许多现有连接。连通性分数可在网络数据交换网站上获得。

癌症研究项目的信息技术地图。

随着ITCR项目进入第二阶段,它面临着由受助者开发的软件的长期可持续性的挑战。无论从单个资助项目还是从所有itcr资助项目的角度来看,一些软件都会自然地 研究生在达到成熟后,要为项目的持续创新留下空间。由于成熟的项目通常会基于多年的人力投入、资金和累积的专业知识而产生复杂而成功的产品,这些项目需要进入下一个支持阶段,而不是冒着被放弃的风险。

应对项目长期可持续发展的挑战,是ITCR可持续发展及业界伙伴关系工作小组的主要工作。[ 5],该会议于2019年召开。工作组最初设定的目标是解决转化癌症信息学社区感兴趣的4个主题:(1)出版由开源许可支持的成功传播软件产品的案例研究集,并提供已被证明可行的许可和可持续性方法的实际示例;(2)开发一个工作流或决策树,以支持符合ITCR期望和开源工具未来许可需求的明智决策;(3)与ITCR项目合作提供许可咨询服务。(4)开发商业模型原型的集合,这些原型可以作为开始模板,并正式记录新软件开发计划的传播和可持续性计划。ITCR授权资源将代表 最佳实践方法和利用我们与组织的广泛关系网络,如开放源代码倡议,软件可持续性研究所和陈扎克伯格倡议,以保持在这一领域的相关知识。如上所述,第一个主要主题——案例研究的出版——是本文的主题。其余3个主题将是ITCR SIP-WG未来白皮书和手稿的重点。

文献综述

我们简要介绍了文献中出现的几个软件可持续性模型[ 6- 8]。首先,Aartsen等[ 8]描述了医学研究中公私伙伴关系维持数字资产的两种模式:非营利组织模式和分布式网络模式。的 非营利组织模式例如,使用基础(Kuchinke等人也讨论过)[ 6])作为骨干组织,保证资产的最大价值。Apache软件基金会就是这样一个例子。非营利组织的一个优势是他们有长远的眼光。非营利组织的可持续性可以通过会员资格得到缓解。基金会的概念有一个优点,即工件的开发受到学术用户的强烈影响,因此它的设计可以集中在科学目标而不是商业目标上。非营利组织模式的缺点是它依赖于一个组织来管理所有的数字资产。的 分布式网络模型其建立的前提是,为数字资产发展做出贡献的个人合作伙伴有兴趣看到这些资产持续存在,并通过进一步发展获得未来价值。分布式网络模型的缺点在于科研使命与产业使命的冲突;具有研究使命的组织不会专注于生产准备被行业商业化的数字资产。

Gabella等[ 9]提供了一个全面的审查,增加了10个资产可持续性模型,包括4个非商业模型和6个商业模型。作为一种非商业模式 国家资助模式通过非周期性融资项目直接支持基础设施建设。另一方面,在 基础设施模型在美国,资助机构在研究经费中留出一定比例,根据明确的选择标准在核心数据资源中重新分配。在 机构支持模式,资金由机构内部提供 捐赠模型依赖于外部慈善基金。在6款商用车型中 内容许可或产业支持模式要求商业用户支付访问和营利使用费用,非商业用户免费使用资产(Kuchinke等人也讨论过)。 6])。的 用户订阅模式(Chang等人也讨论过[ 7])依赖于一段时间内的订阅。的 免费增值模式(Chang等人也讨论过[ 7])提供了一个免费的核心,附加组件需要付费。的 剃须刀和刀片模型(维基百科对OSS商业模型的介绍中也有讨论[ 10]作为商业模式)提供免费试用( 剃须刀),鼓励日后继续购买跟进服务( 叶片)。的 混合模型依赖于多个多元化的资金流。例如,常见的混合模型实践是将OSS与安装、配置和故障排除方面的服务(由公司提供)结合起来。Linux就是一个熟悉的例子。然而,Linux模型依赖于一个庞大的用户群,这可能不一定是生物医学研究工具的情况。

除了上一段讨论的模型外, 宏观研发基础设施以政府研究资助或本地或国际合作机构的研究资助为基础[ 7]。的 拆分许可模式提供通用公共许可(GPL)下的免费版本和带有自己许可的不允许软件再分发的商业版本(例如MySQL [Sun Microsystems, Inc .]和openClinica [openClinica, LLC]) [ 10]。

当前的文献也讨论了软件产品背后社区的力量和健康的重要性[ 11- 13]。Iaffaldano等[ 11]使用睡眠阶段的比喻来描述开发人员周期:清醒阶段是开发人员在项目中活跃的阶段,睡眠阶段是开发人员暂停他们的包提交活动的阶段,而死亡阶段是开发人员放弃项目的阶段。他们进一步探讨了阶段转换的原因,列出了个人因素(例如,生活事件,财务和兴趣的变化)和项目因素(例如,社会,项目变化和角色变化)都在发挥作用。Atiq等[ 12]建议以各种方式赞助开源项目,因为越来越多的专有公司参与、赞助并为开源项目提供开发人员。jimsamnez等[ 13]为可持续的开源项目提供了4条建议:(1)从第一天起公开访问源代码,(2)通过流行的社区注册表提供软件元数据,使软件易于发现,(3)采用符合第三方依赖项许可的许可系统,以及(4)定义清晰透明的贡献、治理和沟通过程。Nyman等[ 14 15讨论了在OSS环境下的代码分叉(实现在独立项目中找到的现有代码库)。分叉代码的权利是内置在开源定义中的。代码分叉可以恢复社区对项目的兴趣,或者为收购提供另一种选择,这就是Oracle收购Sun Microsystems后MySQL的情况。MySQL代码在一个不同的名字下分叉,MariaDB,因为考虑到MySQL代码的管理和未来的开放性。奈曼和林德曼[ 14state,“鉴于分叉确保了只要有足够的社区兴趣,任何项目都可以继续下去,我们之前将分叉描述为开源中‘可持续性的看不见的手’。”对于特定的大型生物,Prins等[ 16]描述了创建可持续软件解决方案的挑战:大多数OSS是作为原型软件开发的,许多OSS没有扩展到tb级的数据,并且缺乏对软件开发的科学归因。

方法

我们在工作组的成员中进行了一项调查,以选择成功传播软件产品的案例示例集合。我们要求每个成员提供 最好3可持续的OSS作为ITCR开源项目模型的例子。该调查由13名参与者完成,其中大多数是本白皮书的作者,并且具有多年开发用于癌症研究的OSS的经验。为了分析可持续发展的成功模型,本次调查提供了22个OSS用例,然后将前10个工具分配给作者,然后要求作者分析以下模型: 17]、生物导体[ 18]、细胞壁[ 19], Globus [ 20.], i2b2(整合生物学和床边的信息学)[ 21]及tranSMART [ 22]、Insight Toolkit (ITK) [ 23]、Linux [ 24]、观察健康数据科学与信息学(OHDSI) [ 25], r [ 26]和REDCap(研究电子数据捕获;提供非营利性最终用户许可协议,但其代码库不向个人开发人员开放)[ 27]。

在回顾文献并在ITCR工作组中讨论之后,我们决定每个OSS用例都应该根据Nesbitt的建议进行概要分析[ 28在他的论文中:“一个可持续的开源项目是什么样的?”因此,前10个OSS用例中的每一个都在以下可持续性方面进行了概述:治理、文档、代码质量、支持、生态系统协作、安全、法律问题、融资、市场营销和依赖卫生。分析主要依赖于公开可用的信息。由于一些合著者是3D切片器(AF、SP、JCFR、JVM和AL)和Globus (IF和BER)的主要开发人员,我们能够提供关于这两个案例的更多第一手信息。

结果

在本节中,我们将根据这10个可持续性方面来检查每个OSS用例。关于OSS用例的完整描述可以在 多媒体附录1

治理

所有10个OSS用例都有一个管理委员会和一个技术开发团队。ITK和REDCap已经建立了联盟。这三种模型(i2b2、tranSMART、R和Linux)已经建立了基础。涉众通常在软件开发的早期阶段选择一个联盟管理模型。在联合体模式下,成员对发展方向的控制更强。财团管理模型稍后可能会迁移到基础模型中。在基础模型中,组织考虑所有涉众的利益,鼓励更多的新贡献者和用户参与软件开发测试过程。因此,基金会通常需要认真的社区努力和各种技能(例如筹款)[ 29]。

这6种OSS工具已经公开提供了它们的路线图。i2b2 tranSMART基金会[ 30.]定义了一个路线图,指导tranSMART与i2b2的整合[ 31]。3D切片机的路线图[ 32]列出了与Slicer 4.10的过渡计划和Slicer 5.x的拟议更改相关的社区建议。Cytoscape的路线图[ 33表明它正在同时沿着若干条道路前进,包括Cytoscape桌面、Cytoscape向云扩展和Cytoscape社区扩展。Globus的产品路线图[ 34计划提供 研究信息技术服务。ITK的团队一直在不断更新其路线图[ 35- 37]是基于其用户和开发者社区以及医学研究界的反馈。OHDSI有几个路线图,包括架构路线图[ 38], CDM v6.0的路线图[ 39],以及webAPI的路线图[ 40]。另一方面,有关Linux及其他类unix操作系统软件的电脑网络杂志LWN.net指出,一般而言,自由软件开发模式是抗拒中央计划的[ 41]。虽然Linux并不总是可靠的,但是可以通过查看它当前的项目来合理地预测它的未来。

定期会议使利益相关者能够做出业务决策并确定发展优先事项。3D切片机的核心开发人员和用户每年会面两次,Globus为其用户和订阅者举办年度会议。小组通常有更频繁的定期会议。另一方面,Bioconductor的技术顾问委员会每月召开一次会议,制定战略,确保核心基础设施的长期技术适用性。为了接触到更广泛的潜在开发者和用户群体,一些模型(3D Slicer和i2b2 tranSMART)提供了完全开放的沟通渠道,如基于网络的论坛和录制的网络研讨会。

由于这10个OSS用例的公开信息数量有限,我们不知道每个核心开发团队的确切规模,也不知道核心基础设施上的个人任务。如果只有一个人在处理关键组件的复杂细节,那么在失去这个关键人之后,OSS项目将很快变得飘忽不定。

文档

所有10个OSS用例都以各种格式向用户提供文档,例如用户指南(ITK [ 42]、Linux [ 43], r [ 44]和3D切片器[ 45])、Wiki网页(3D切片器[ 46]和i2b2 [ 47]),教程(Bioconductor [ 48], Globus [ 49]、细胞壁[ 50]、tranSMART [ 51]、3D切片机[ 52]和OHDSI [ 53]),以及YouTube (Google, Inc .)视频(REDCap [ 54]、3D切片机[ 55]和Cytoscape [ 56])。

进一步的文档提供给新的开发人员,以鼓励新的贡献OSS扩展。Bioconductor提供3个级别的文档-工作流程,包装插图和功能手册页[ 57——鼓励用户成为开发人员,将自己的算法和方法提供给他人。类似的,细胞壁 应用阶梯教授应用程序开发的基本技能[ 58]。R提供各种完整开发的文档,充分涵盖两种类型的开发:编写R扩展和开发R本身(通过提供内部结构和编码标准)[ 59]。

代码质量

在没有测试的情况下发布软件可能对其可靠性和可再现性非常危险,因此严格的测试对OSS至关重要。在将最新的软件包传播到面向用户的存储库之前,Bioconductor开发人员会进行测试,以确保软件包的整体完整性以及与软件包依赖项当前版本的集成。3D切片器已经建立了基础设施,可以为其核心应用程序连续运行大约700次测试,测试结果是公开的[ 60]。然而,3D切片器的一些扩展的质量控制略弱于核心应用程序。扩展贡献者自己管理代码质量和测试,3D切片器的核心开发团队不执行或验证这些扩展。Cytoscape开发人员使用Jenkins持续构建软件项目,并在发布之前彻底测试软件包。Globus使用持续集成环境、自动化测试、多个预发布环境,以及文档化的、标准化的、人工质量保证测试来确保代码质量,在将代码发布到生产环境之前,除了代码作者之外,至少有一名工程师对代码进行审查。i2b2和tranSMART都有广泛的自动化和手动测试,作为其定义良好的发布过程的一部分。早在1999年,ITK就已经实现了夜间自动化构建和测试,在持续集成和GitHub (GitHub, Inc .)被广泛采用之前,ITK是这种软件工程最佳实践的早期采用者。R提供了广泛的支持,以方便外部开发人员的包测试和发布,其中包括发布指南、软件包和用于测试的服务器[ 61]。几个模型(3D切片器[ 62], ITK和R [ 63)强制一致的编码风格。

支持

所有OSS用例都为用户和新开发人员提供支持。例如,OHDSI社区提供了两种支持渠道:基于社区的话语论坛为实施OHDSI工具提供支持,提出或参与网络研究,以及请求有关OHDSI相关主题的信息[ 64];OHDSI的GitHub项目网站通过任何人都可以发出的票据来管理特定的技术问题[ 65]。Globus有几个支持选项:基于web的自助工具、listserv组和带有响应性支持团队的票务提交系统。R主要依赖于基于web的自助工具、常见问题列表和基于订阅的电子邮件列表,包括通用R帮助电子邮件列表、R开发人员列表和R包开发人员列表。虽然这些模型提供了各种支持通道,但Linux和Cytoscape主要依赖于专用通道(Linux: LF JIRA [ 66];Cytoscape:一个特定的帮助台[ 67])。

并非所有支持OSS的模型都是免费的。例如,ITK具有三向支持:(1)ITK的话语论坛可以让用户之间进行讨论和相互帮助,通常有专门的志愿者提供详细的示例代码[ 68];(2) NIH继续为bug修复、增量改进和中等水平的用户支持提供维护合同(维护通常由Kitware (Kitware, Inc)执行,提供连续性和专业知识);(3) Kitware还提供收费的商业ITK支持。另一个例子是Globus,它提供免费的支持列表,运行一个票务系统[ 69],并保证订户在1个工作日内响应支持票。

令人惊讶的是,免费的支持往往是及时的。一个很好的例子是3D切片器,2018年有超过13,000个论坛帖子,平均响应时间<2天(工作日<8小时)。对于3D切片器,支持可以由核心开发人员或用户社区的经验丰富的成员提供。公共论坛可能非常活跃;例如,Bioconductor每小时有超过100名访客。

生态系统合作

生态系统合作通常由工作组、会议、网络和社区论坛组织。关于OSS项目如何与其他项目协作的公开信息有限。

安全

安全性对于生物医学软件工具非常重要,因为它们通常用于管理和处理患者数据。为保障病人的私隐,i2b2透过网页服务提供安全的远端访问医疗机构的病人,并匿名列出每间医疗机构的病人数目[ 21]。多年来,Globus一直使用基于标准的组件和协议维护强大的安全模型,这些组件和协议处理分布式基础设施的消息保护、身份验证、委托和授权。Globus的授权基于完善的标准,如OAuth 2和OpenID Connect,并利用联合登录系统允许用户使用许多支持的身份提供者之一进行身份验证(例如,机构身份,eRA Commons, ORCID和Google [Google, Inc])。Globus高保证层提供了额外的安全控制,以满足访问受限数据(如受保护的健康信息)所需的更高身份验证和授权标准。数据传输可以使用OpenSSL库进行加密,与Globus服务的通信通道是传输层安全1.2加密的。

Linux具有强大的安全特性,在生物医学领域之外被广泛使用。Linux内核允许管理员通过修改内核操作的属性,在内核中构建额外的安全措施以避免常见的缓冲区溢出攻击,以及为不同类型的用户设置不同的访问限制来提高最低级别的安全性。 70]。此外,还有许多Linux安全扩展增强,如ExecShield和位置独立可执行文件[ 71]。其他被检查的OSS用例没有公开提供有关安全性的详细信息。然而,安全性增强应该成为未来发布的研究软件的重点。

法律因素

在10个OSS用例中,一个流行的许可模型是GPL,它允许分发和销售修改和未修改的版本,但要求所有的副本都在相同的许可下发布,并附带完整的相应源代码。例如,Linux是在GPL版本2下发布的,而R和tranSMART使用GPL版本3。

对OSS的不同组件使用不同的许可模型也是可行的。例如,Bioconductor软件包属于多个许可组:艺术许可版本2、GPL、麻省理工学院(MIT)、伯克利软件分发(BSD),以及对如何重新分发软件有最低要求的创作共用许可[ 72]。Globus还使用混合许可模型。客户端软件在Globus社区许可下获得许可,该许可允许订阅者出于代码审查和贡献的目的访问源代码,而由Globus作为服务运行的软件则没有许可。

其他OSS用例使用的开源许可模型包括Apache 2 (OHDSI和ITK)、Mozilla公共许可版本2.0,以及医疗保健免责声明附录(i2b2) [ 73],以及GPL版本3 (tranSMART)。REDCap需要机构和范德比尔特大学之间的非营利性最终用户许可协议,其代码库不向个人开发人员开放。最后,3D切片器许可证,虽然通常是高度宽松的,但不是一个标准的开源倡议认证许可证。相反,它是通过与布莱根妇女医院的法律部门协调定义的定制许可,其主要目的是减轻责任风险,因为应用程序的性质(支持临床图像研究应用的可视化和分析)。

融资

在10个OSS用例中,有8个(80%)是从联邦研究基金开始的。例如,Bioconductor于2003年开始获得NIH国家人类基因组研究所的支持,并于2014年获得NCI/ITCR的资助。在过去的几十年里,3D切片机获得了许多研究资助(主要是NIH)的直接或间接支持[ 74但没有来自任何单一来源或项目的持续资助。Cytoscape得到了国家普通医学科学研究所和国家网络生物学资源的支持。REDCap早期得到了国家研究资源中心的支持。Globus的早期开发得到了美国国家科学基金会和能源部的支持,而最近关于高保证机制的工作则得到了美国国立卫生研究院的支持。联邦研究资金是至关重要的,因为它鼓励对OSS的研究将重点放在科学探索和研究生态系统开发上。与此同时,尽管资助保证了研究人员进行实验的资金,但研究人员仍然必须在资助周期之外寻找可持续的解决方案[ 29]。

行业和成员支持在成熟的OSS案例中很常见。例如,高级Globus功能(例如,数据共享、使用报告和保证支持级别)是按年订阅的方式提供给机构的,这是一种基于机构研究活动水平的固定年费。Linux继续受到个人会员(数千名会员)和年度企业会员(>1000名企业会员)的支持[ 75]。R基金会主要由会员支持(从支持个人、机构和捐助者那里收取的会员费) 一次性捐款

包括学术和行业赞助商的多重赞助计划也是可行的。例如,ITK从美国国立卫生研究院获得了持续的维护资金,使其能够免费使用,同时也获得了商业级的支持。OHDSI也得到了私人和公共资金的支持。i2b2 tranSMART基金会有4个赞助项目:贡献赞助商、企业赞助商、持续赞助商和活动赞助商[ 76]。通过tranSMART和后续的i2b2 tranSMART基金会的努力,Keith Elliston及其同事于2018年创建了Axiomedix (Axiomedix, Inc .),专门为政府资助的OSS提供商业(营利)支持机制。Axiomedix提供了一个由4部分组成的业务模型,帮助支持和维持开源平台:首先,商业级软件发布和支持模型;其次,为这些受支持的平台提供全套服务解决方案,包括安装、配置、数据加载、管理等;第三,软件开发和定制模型(Axiomedix专家网络),使核心开源开发人员能够为客户承担合同和咨询;最后,一个利用开源工具开发新产品和平台的模型,一个由经验丰富的开源开发人员组成的网络,以及开发新的开源或商业工具的主题专家的知识。

市场营销

10个OSS用例有各种营销渠道,包括使用徽标(3D切片器、Globus和i2b2 tranSMART)、网站(3D切片器、Bioconductor、Globus和i2b2 tranSMART)、邮件列表(Cytoscape、Globus和i2b2 tranSMART)、论坛(3D切片器、Cytoscape和i2b2 tranSMART)、Twitter (Twitter, Inc;3D切片机,Bioconductor, Cytoscape, Globus和i2b2 tranSMART), LinkedIn (LinkedIn, Inc;Globus和i2b2 tranSMART), Facebook (Meta平台,Inc;i2b2 tranSMART)、YouTube (Google, Inc;3D切片机,Bioconductor和i2b2 tranSMART), Tumblr (Tumblr, Inc;Cytoscape), Vimeo (Vimeo, Inc;Cytoscape)和Pinterest账户(Pinterest, Inc;Cytoscape)。

其他渠道包括会议、研讨会和出版物。例如,ITK在医学成像会议上被介绍。R通过an获得市场份额 传福音者统计学家、数据分析师和其他生物医学界人士之间的方法。此外,收集用户反馈的调查也是一种营销形式。例如,3D Slicer团队在论坛上进行小规模调查,并在培训课程期间收集反馈表格。类似地,Globus团队在研讨会和教程期间进行调查。

依赖卫生

在这10个OSS(除了R)中,有9个(90%)对其他软件包有很多依赖。Bioconductor和OHDSI依赖于许多R包,REDCap依赖于MySQL,而Cytoscape依赖于外部服务,包括cxMate。由于依赖关系可能会使安装和使用复杂化,i2b2提供了Docker容器以方便安装[ 77]。软件模型主要通过文档提供依赖信息,例如安装指南;然而,很少有模型描述每个依赖项的许可和安全状态。克莱顿( 78指出了复杂依赖关系的潜在危险,并警告说“Blackbox可能会让人很难看到,在这些开源项目的幕后工作的维护者比人们可能期望的要少得多。”因此,提供关于代码库依赖树的透明信息是至关重要的。3D切片器就是一个很好的例子,因为它提供了一个广泛的公开可用的依赖项列表。

讨论

我们讨论了10个代表性的OSS用例,它们已经展示了可持续的实践,特别是在生物医学领域。尽管不是一个全面的列表,这些例子强调了成功的OSS开发的以下基本属性:与未满足的科学需求保持一致,一个专门的开发团队,一个充满活力的用户社区,一个可行的许可模式,一个可持续的财务模式,以及有效的产品管理。

与未满足的科学需求保持一致

在OSS项目的初始阶段,它必须确定并满足重要的科学需求,而不是遵守强制性规则或获得外部财务奖励[ 79]。满足了这些需求,软件就有了它的功能 灵魂,即其独特的身份。例如,Cytoscape满足了对分子间复杂相互作用的可视化工具的需求,而Bioconductor则降低了有效使用和共享计算生物学和生物信息学工具的门槛[ 57],而Globus解决了无摩擦数据传输和共享的需求。由于科学社区的需求是多样和动态的,开发人员应该考虑超越第一个应用程序的潜在扩展,甚至在初始阶段就采用高度可重用的基础设施。

专门的开发团队

一个OSS项目应该有一个核心开发团队,这个团队不仅开发了软件的初始版本,而且还将继续致力于未来的版本。这个团队是 大脑软件和它的智力中心。例如,Globus包括用于身份管理、数据传输、数据共享和组管理的服务;接口,如应用程序编程接口、web应用程序和命令行客户端;以及管理10个以上不同存储平台和文件系统的数据访问的软件。只有专门的、经验丰富的开发团队才能以协调一致的方式将所有这些组件组合在一起。

然而,维护这样的团队可能很困难。根据Atiq等人[ 12],开发者的动机通常包括内在动机(例如,创造力和乐趣)和外在动机(例如,经济奖励、与工作相关的技能发展和同伴认可)。Atiq等[ 12]进一步指出,透明和公平的外部奖励以及开发人员之间有效和开放的沟通是确保OSS项目长期可持续性的关键特征。

更重要的是,整个研究社区需要认识到,如果一个团队的贡献不能得到认可,那么创建一个专门的开发团队是非常困难的。不幸的是,在学术界,投资于软件开发的努力通常不被认为是重要的,而且肯定没有传统的研究活动那么受欢迎,这仍然是事实。

活跃的用户社区

为了取得成功,OSS项目还应该有一个充满活力的用户社区,其组织结构和正在进行的活动可以促进开发人员和用户组之间和之间的交流。这个社区会培养 物质化的值,同时指定未来版本的功能需求。一个充满活力的用户社区代表了驱动开发周期的软件。例如,3D Slicer和ITK拥有庞大而稳定的用户基础,主要在放射学和生物医学成像社区。OHDSI工具在临床信息学和人口健康信息学社区拥有庞大的用户基础。此外,我们强烈建议让原始团队以外的科学家参与进来,并让广泛的利益相关者参与进来。此外,我们支持鼓励 移民的影响在那里,转到其他机构的博士后和学生继续使用他们原来的团队使用或创建的软件。

同样重要的是要认识到 用户企业级OSS的开发者是机构,而不是个人研究人员。事实上,Masys等人[ 79]将成功采用定义为至少50%的预期机构采用和实施一种工具。他们建议,开发人员应该提供灵活的本地实现和自定义,而不是一刀切的技术方法,例如可选地使用术语标准。这种灵活性对于构建充满活力的用户社区和促进成功采用至关重要。

可行许可模式

一个可持续的OSS项目还需要一个符合软件性质、其分发渠道和涉众利益的许可模型。许可模型类似于 骨骼系统,为软件的合法运行提供了一个框架。

OSS许可通常分为4类:非许可、弱许可、完全许可和不兼容。开源许可证是由开源促进会(Open Source Initiative)评估它们是否符合开源定义的,开源促进会是一个501c3非营利组织,旨在管理开源许可证。

非许可许可,例如GPL和Affero GPL,不仅允许商业和非商业重用,而且还要求发布所有修改过的代码和链接到该代码的任何外部代码。最著名的例子是Linux,它现在使用GPL版本2。在没有聘请律师的情况下,它的创始人Linus Torvalds写了一份简短的许可证,声明发布该软件不收取任何费用。由于基于互联网的传输系统还处于发展的早期阶段,这一举措消除了互联网 软驱工厂通过这种方式,个人或公司可以付费向消费者发送Linux的副本。因为目标是不允许别人在上面赚钱 自由软件分发在撰写本文时,该模型是合适的。当要修改或添加OSS代码时,会创建和发展几个开源许可证。GPL版本3 (R和tranSMART使用)是最严格的开源许可证,它要求将任何增强功能(例如新功能)合并到软件中,必须与源代码一起发布。商业软件公司将GPL版本3称为 有毒的许可证。一旦软件包含任何GPL版本3代码,其未来的许可和所有其他携带它的软件将永远在GPL版本3许可下。的 传染性使商业公司远离在其产品中使用GPL代码;然而,这可能是R被广泛使用并成功发展的最重要原因之一。从我们的观点来看,非许可许可可能最适合那些对重要的科学发现至关重要的软件,这些软件被来自非常广泛领域的研究人员高度使用,并且资金支持可能主要来自非商业来源。

弱许可许可证(例如Mozilla公共许可证2)允许商业和非商业用途,并要求对任何修改的代码逐个文件发布。完全许可许可为商业和非商业目的提供不受限制的代码重用。完全许可的许可证包括Apache 2、MIT和BSD许可证等。流行的Apache 2许可证的主要动机之一是能够将开源代码集成到项目中,而无需发布对代码的任何增强,也就是说,能够 站在巨人的肩膀上。最后,许多在自定义许可下被认为是开放源代码发布代码的项目是不符合开放源代码计划的。因此,尽管这些项目可以使代码可用,但它们不能被认为是开源兼容的。

由于有限的商业支持,研究软件领域向完全许可许可的迁移速度很慢。德国埃尔斯特( 80]讨论了研究软件的许可如何对获得工业资金支持产生影响。许多信息技术公司选择具有完全许可许可的研究软件,而不是非许可许可,因为非许可许可增加了对商业软件中代码重用的限制,增加了对未来商业化的关注。BSD许可证,作为一个完全宽松的许可证的例子,允许在商业代码中包含开源代码。另一方面,一些公司更喜欢非宽松的许可证,而不是完全宽松的许可证,因为他们不希望他们的竞争对手在这些公司以前资助的OSS之上构建商业代码。尽管这种自利许可在软件行业的早期盛行,但行业很快意识到,数十或数百个团队重新发明相同的代码限制了行业的进步。因此,人们越来越广泛地采用完全许可的许可证,如MIT和Apache [ 81]。

软件许可在被许可方使用或分发程序或代码的方式上创建了一个有约束力的协议。正如软件包装或点击用户许可协议具有约束力一样,开源软件和代码的使用也具有约束力。当一个研究软件商业化时 免费版可保留作学术用途;但是,如果在该许可的条款之外使用,则a 商业许可证必须购买。因此,软件的使用环境可以在用户是否违反适用的许可方面发挥重要作用。违反规定可能会导致高额的额外费用甚至法律诉讼。

可持续财务模式

OSS项目需要一个可持续的财务模型(正式的或非正式的),以保持软件及其用户社区向前发展。一个可持续的金融模式是 循环系统,提供维持软件生态系统。i2b2 tranSMART、Globus和Linux都是利用多种类型的源代码来维持软件开发的优秀例子。

公私伙伴关系正在成为长期支持OSS项目的可行方式;然而,建立这些伙伴关系可能并不容易。行业合作伙伴通常关注盈利的商业化时间。OSS项目的公开发布,包括它的知识和源代码,可能允许市场竞争者迅速赶上,这与传统的商业化软件业务实践相反,在传统的商业化软件业务实践中,知识产权通常被尽可能长时间地隐藏。然而,与此同时,OSS项目可能会迅速吸引大量的外部用户和新的开发人员,他们的贡献可以改善产品的健壮性,使跨多个机构的基于平台的定制成为可能。健壮的实现和庞大的用户基础增加了OSS项目的商业潜力。

随着OSS的发展,其财务模式也会随着时间的推移而改变。Globus已经尝试了几种财务可持续性策略的组合:依靠基于拨款的联邦资金,提供免费的OSS,组建一个国际研究联盟,启动一个商业公司,以及组建一个行业组织[ 82]。Globus发现许多对维持软件至关重要的活动不在联邦资助机构的职责范围之内。很少有开发人员可以自由地为一个软件项目做出贡献,这个项目主要是为了满足研究社区的需求,而不是直接推进贡献者自己的使命。贡献者并不总是能够为他们所贡献的代码提供持续的维护或用户支持,更不用说为其余的代码库提供支持了。作为副本()由单独的团队维护,新功能可能不再与整个社区共享,非营利性研究社区和行业之间的用户需求并不总是一致。15年后,Globus转向了一种可持续的模式,即为研究人员提供免费的、基于云的软件即服务,为机构提供付费订阅。将主要软件产品的重点放在研究人员的需要和为资源提供者创造价值的收入机制上,这被证明是维持Globus的一个可行的财务模式。

在文献回顾部分,我们总结了长期软件可持续性的金融模型的范围。每种方法都有自己的优点和缺点。例如,以社区为基础的可持续性(例如,文献综述中提到的非营利组织模式),包括分支机构发展工作的适当分支,在许多方面都是理想的,因为它利用了整个社区的集体和持续努力。但是,它可能不适用于重要的利基发展领域;它可能过分强调广泛的采用,而不是质量、新颖性或重要性,并且它可能无法利用不遵循相同开源许可结构的努力。商业化(例如,内容许可模式、用户订阅模式、免费增值模式、剃刀和刀片模式),比如在临床工作站中采用软件模块,除了为愿意为此付费的广大用户群创造一条直接途径外,还利用了大量的资源和软件库。然而,商业化受到专利限制和对盈利动机的依赖的限制,这可能与生物医学意义或与 为未来投资政策。各种基于基础设施的模式(例如宏观研究和开发基础设施模式)可以是汇集资源和避免复制的有效方式;然而,它们依赖于一个决策机制来选择一小部分将被支持的软件产品。此外,基于基础设施的模型可能不太倾向于支持创新,因为它们不那么动态。各种基于资助的机制(例如,国家资助模型和机构支持模型)通过基于绩效的审查过程结合了软件产品的动态选择和进化的优势。不幸的是,他们受到严酷现实的限制,即现有的资金远远少于值得称赞的软件的长期维护成本,这种情况在可预见的未来不太可能改变。

有效的产品管理

最后,一个OSS项目需要有效的产品管理,这是项目管理的一部分 神经系统的快速通信 大脑和其他系统。

路线图概述了项目的发展状况,包括过去事件和未来事件的日期,因此个人可以了解特定项目的速度、目标和活动,从而通过精心设计的截止日期和结构提高可持续性[ 83]。我们发现我们列表中的6个OSS案例都有精心设计的路线图。路线图的设计通常是一个不断发展的过程,需要多轮内部讨论以及与用户社区和外部开发人员的广泛沟通。R和Linux公开提供了一个路线图。这两种OSS工具可能高度依赖于开发人员社区的贡献,而社区自己决定什么是重要的,这显示了它对中央计划的部分抵制。

虽然路线图指定了计划,但显示实际成果的是软件发布。由于OSS经常涉及大量外部开发人员的参与,软件发布的协调可能会更加复杂。R提供了一个很好的例子,它为外部开发人员的包测试和发布提供了广泛的支持。关于发布策略,OSS社区采用基于特性或基于时间的发布[ 84]。早期阶段的OSS项目更常采用基于特性的发布策略。随着OSS项目规模和复杂性的增长,它可能会转向基于时间的发布,这有助于确定开发活动的优先级。

关于OSS质量保证,大型用户社区可能会为项目提供良好的bug搜索、性能和可伸缩性测试方面的覆盖;然而,大多数用户并没有有意识地探索未知的边缘功能,因此留下了一些未发现的bug [ 84]。因此,建议进行专业测试,并通过公共票务跟踪器与公众分享核心bug报告[ 85]。此外,OSS项目需要一个版本控制系统来协调发布管理、bug管理、代码稳定性和实验开发工作、开发人员之间的沟通以及特定开发人员对更改的授权[ 86]。公开信息显示,讨论的10个OSS用例中的大多数都经过了严格的测试。

随着 软件使用手册( 87],文档对于创建一个可持续的社区是必不可少的,因为它允许用户和外部开发人员迅速熟悉软件并将其用于他们自己的项目。因此,文档是在几代核心开发人员之间创建更顺畅的内部过渡的关键方法。对于新用户和外部开发人员来说,通过文档来使他们熟悉OSS是不够的,那么特定的支持是必要的,例如在公共论坛上回答问题。正如在 结果章节中,所有10个OSS用例都为用户和新开发人员提供了全面的文档和各种类型的支持。

优势与局限

评审软件产品的甄选工作由13名参加者完成,他们对开放源码软件工具的可持续性和促进业界伙伴关系有丰富的知识。尽管我们对选定的OSS用例的10个方面进行了全面的分析,但似乎存在使论文的发现偏向ITCR工作组的利益并忽视潜在重要的可持续性模型的风险。由于受限于公开可用的信息,我们无法讨论失败的OSS示例和重要的检查点。我们未来的目标是对更广泛的研究群体进行调查,以继续这些讨论。

除了使用Nesbitt列表讨论有关OSS的一般方面的信息外[ 28],我们想简要地讨论一下研究软件的其他重要方面,比如科学的准确性和可重复性、合规性、道德和诚信。Rougier等[ 88]将可复制软件定义为软件和数据的发布,作为使用的软件、相关数据和所涉及的文章的产品。为了使软件具有可复制性,必须对其源代码进行研究,并且必须对其模型进行彻底而精确的记录。巴克( 89]解释说,为了提高可重复性,透明度必须是重中之重,尽管有高成本的干扰。为了增加透明度,免费的OSS为其他科学家(除了软件开发人员)提供了廉价的选择来验证他们报告的结果,并进一步将这个开放的科学框架应用到其他科学研究活动中。另一个方面,遵从性,对于OSS也是至关重要的,因为软件可能被合并到商业用途中,用于提高对遵从性的认识,或者用于显示特定的不遵从情况[ 90]。当分发到外部源时,必须在实现遵从性之前审查OSS许可(例如,为了共享、许可费用和兼容性目的)。最后,伦理和诚信对于生物医学研究中的软件是必不可少的。OSS的使用应该允许研究人员满足实践的专业标准,并且OSS的使用必须与该领域的4个基本原则保持一致:非恶意、仁慈、自治和正义。

其他倡议和未来展望

除了NCI ITCR之外,NIH的几项信息学工作也强调了创建OSS可持续性方法。国家促进转化科学、临床和转化科学奖中心与NIH主任办公室的项目联系在一起,包括大数据到知识(BD2K) [ 91 92]和数据科学项目[ 93],最近,全美精准医疗倡议[ 94]。BD2K是2013年启动的一项跨nih倡议,旨在支持创新和变革性方法和工具的研发,以最大限度地加快大数据和数据科学与生物医学研究的整合。BD2K认识到,软件是任何现代生物问题解决方案的必要组成部分。代表国家临床和转化科学奖联盟的共同利益,国家数据健康中心对数据管理基础设施的可持续性战略特别感兴趣,这同样不可避免地涉及围绕临床数据的软件工具的可持续性。

其他国家,如英国和德国,也在制定国家政策来提高软件的可持续性。目前,英国已经制定了研究和创新路线图,并正在使用 研发体系作为通往大学、研究机构、政府实验室、慈善机构和企业的资金来源的纽带[ 95]。英国正在努力减少公共资金系统中的官僚主义,以保持检查和批准,从而有效地管理公共资金,并为该系统做出明智的决定。此外,联合王国正在提高研究和发展资金的清晰度和一致性,使研究人员对长期投资有信心,并使资金灵活,使系统能够解决国家优先和紧迫的问题。在生物医学方面,英国学者推荐在医疗保健信息系统中使用OSS,以提高安全性和有效性[ 96]。同样,德国制定了更统一的软件政策[ 97]并概述了以下建议:(1)在其基础上,研究软件必须具有开源代码,以及值得信赖、支持和适当的基础设施和基础设施;(2)高级研究人员和研究管理人员必须发展良好的科学实践,必须普遍转向获得中央许可,而不是商业软件和服务;(3)在提供研究软件方面,必须从开发者的角色转变为提供者的角色。在与研究的开发、使用和提供相关的组织和技术层面上仍然存在许多挑战。

展望未来,从国际治理的例子中学习并与其他对可持续软件模型感兴趣的团体合作将是非常重要的。一个值得注意的社区是可持续科学软件研讨会:实践与经验(WSSSPE) [ 98],这是一个旨在通过关注原则和最佳实践、职业、学习和认证来促进可持续研究软件的系列研讨会。第四届WSSSPE创建了一个小组,他们对撰写专注于科学环境及其含义的白皮书感兴趣,目标是研究软件的开发人员和项目经理。另一个著名的社区是科学门户社区研究所,它为可持续发展和商业规划提供咨询服务[ 99]。

结论 概述

我们对现有可持续性模型和10个开源软件用例的回顾有力地证实了SIP-WG提出的3个未来重点领域的重要性:(1)开发一个工作流或决策树,以支持符合ITCR期望和开源工具未来许可需求的明智决策;(2)与ITCR项目合作,就10个可持续发展方面提供咨询服务,特别是治理、许可、代码质量和社区建设;(3)开发一组商业模型原型,这些原型可以用作启动模板,正式记录新软件开发计划的传播和可持续性计划。此外,我们强调在今后的ITCR活动中应考虑的5项重要行动,如下所述。

ITCR项目可持续性模式可行性探讨

SIP-WG未来工作的一个重要议程项目应该是讨论许多ITCR支持项目的各种可持续性模式的可行性,包括非营利模式(例如,非营利组织模式、国家资助模式、基础设施模式、机构支持模式和捐赠模式)和商业模式(例如,分布式网络模式、内容许可或工业支持模式、用户订阅模式)。免费增值模式、拆分许可模式、剃刀和刀片模式、宏观研发基础设施模式和混合模式)。

潜在许可模式的探索

研究软件的许可将对公私伙伴关系产生直接影响。混合许可模式可能是在免费使用(用于广泛使用)和付费使用(用于资金支持)之间取得平衡的最佳方式。考虑到不同OSS方法的潜在复杂性,关键涉众应该尽早考虑其软件模型的许可结构。重要的决策和更改必须与软件开发和维护的路线图保持一致,因为更改现有项目的许可可能非常具有挑战性。一旦开源项目集成了来自外部贡献者的代码,就很难合法地更改代码的许可。

提供奖励机制,加强持份者关注可持续发展的动力

WSSSPE社区指出了通过信用和奖励来增强利益相关者动机的重要性[ 98]。目前,开发研究开源软件的主要功劳是通过出版物。应该鼓励主要贡献者在他们的简历上列出软件资源的创建,并在拨款审查过程中进一步重视OSS。我们还应该提供奖励机制,公平地分配对成功扩展和采用做出贡献的外部开发者的信用。最后,大学和研究机构应该为在学术界开发软件的研究人员创造可行的职业道路,以鼓励他们继续研究OSS开发。

建立一个中央库,使OSS可见和可重用

此外,我们应该考虑建立一个中央图书馆,使itcr资助的OSS对大量生物医学研究人员更加可见和可重用。开放存取库应该对开源软件工具进行索引,并提供其功能的简要描述和简单的示例。这个库应该指向每个OSS工具的最新版本。它将特别充当已退休的开源软件工具的存储库,这些工具可能在短期内难以获得资金支持。理想情况下,这个库应该是可搜索的,像Google搜索研究OSS一样。当研究人员有一定的需求时,他们可以首先在这个库中搜索,看看是否有一个现有的工具可以满足他们的需求,或者是否有一个现有的工具可以扩展以满足他们的需求。

在建立这样一个软件库之前,我们需要充分了解库的预期用户是谁,他们使用它的动机是什么,条目添加和更新的频率是多少,谁的责任是更新记录,以及什么资金来源将支持一个软件的未来版本。如果没有持续的管理,软件库最终可能会成为软件的墓地。

提供行业标准支持

最后,我们应该将咨询资源分配给研究OSS项目(特别是在开发的早期阶段),这可以指导这些项目遵循代码质量控制、生态系统协作、安全性和依赖卫生方面的最先进的行业标准。

开源软件用例的完整描述。

缩写 BD2K

从大数据到知识

BSD

伯克利软件发行

GPL

一般公共许可证

i2b2

整合生物学和床边的信息学

ITCR

癌症研究的信息技术

ITK

洞察力工具包

麻省理工学院

麻省理工学院

NCI

国家癌症研究所

国家卫生研究院

美国国立卫生研究院

OHDSI

观察健康数据科学与信息学

OSS

开源软件

搬运工

研究电子数据捕获

SIP-WG

可持续发展和行业伙伴关系工作组

WSSSPE

可持续的科学软件:实践与经验研讨会

作者感谢ITCR计划对SIP-WG作者的支持,他们为本文做出了贡献。作者特别要感谢Mervi Heiskanen在许多会议上的支持和出版这篇手稿所需的战略协调。最后,特别感谢战略科学计划中心的项目主任兼ITCR的主任Juli Klemm,感谢她的战略建议,为ITCR SIP-WG提供的投入,以及这个重要的OSS可持续性模型的努力。作者感谢匹兹堡大学的Richard Boyce博士对OHDSI案例研究的贡献,感谢芝加哥大学的Lee Liming和Vas Vasiliadis对手稿修订的贡献,感谢圣地亚哥大学的Rudi Pillich博士对ITCR连通性图提供的指导。作者感谢两位审稿人的深刻见解。作者得到了以下资助:国家职业安全与卫生研究所疾病预防控制中心MJB和YY U24 OH009077;YY,国家医学图书馆K99LM013383;1 .中国科学院院士;Mm, nih u24ca180996;Bds, nci-itcr u01ca204826; GS, U24CA248010; SP, NIH-NIBIB grant P41 EB015902; and GQZ, ITCR R21 CA231904.

MJB、YY、JRG、GS、GQZ、CD和KOE定义了手稿的范围,并起草了最初的部分。AF, IF, BER和JCS提供了重要的评论并对手稿的编辑做出了贡献。AF、SP、JCFR、AL、GS、MM、JCS、MKD、IF、JRG、BER、DPT、JBZ、MJB、koeyy、BDS、JVM、GQZ评审OSS用例并起草 多媒体附录1。SB对关于产品管理以及英国和德国的OSS国家政策的额外讨论做出了贡献。JC参与了关于许可模式的额外讨论。

KOE是Ingentium, Inc .的股东或投资者;Axiomedix公司;Seneca Creek Research LLC;和Trazend, Inc;KOE担任开源非政府组织制药基金会和i2b2 tranSMART基金会的顾问,目前担任PHEMI Systems Corp.的首席执行官。他是SpIntellx, Inc.的创始人和股权。

关于ITCR 国家癌症研究所癌症研究信息技术 2019 2021-11-09 https://itcr.cancer.gov/about-itcr 资金的机会 国家癌症研究所癌症研究信息技术 2019 2021-11-09 https://itcr.cancer.gov/funding-opportunities 普拉特 D J Pillich R Rynkov V 加里 一个 德姆查克 B Ideker T NDEx 2.0:癌症途径研究的交流中心 癌症Res 2017 11 01 77 21 e58 61 10.1158 / 0008 - 5472. - 17 - 0606 29092941 77/21 / e58 PMC5679399 Pillich R ITCR连通性图 2020-10-22 http://www.ndexbio.org/#/network/04c0a7e8-af92-11e7-94d3-0ac135e8bacf 癌症研究信息技术(ITCR)倡议 NCI中心 2019 2021-11-09 https://ncihub.org/groups/itcr/sustainability_and_industry_partnership_wg Kuchinke W Ohmann C Stenzhorn H Anguista 一个 斯法基纳基斯 年代 伯爵 N 降级 J 通过与研究基础设施合作,确保软件工具和服务的可持续性 每地中海 2016 01 13 1 43 55 10.2217 / pme.15.43 29749867 V 米尔斯 H 纽豪斯 年代 从开源到长期可持续性:对商业模式和案例研究的回顾 2007年英国电子科学全体会议论文集 2007 2007年英国电子科学全体会议论文集 2007年9月10日至13日 英国诺丁汉 Aartsen W 此人 P 赌注 年代 Williams-Jones B 通过“死亡之谷”从公私合作研究项目中获取数字资产,并使其可持续发展 前地中海(洛桑) 2018 5 65 10.3389 / fmed.2018.00065 29594123 PMC5855043 Gabella C Durinx C Appel R 资助知识库:为UniProt用例建立可持续的资助模型 F1000Res 2017 6 灵丹妙药- 2051 10.12688 / f1000research.12989.2 29333230 PMC5747334 维基百科 开源软件的商业模式 2019 2019-02-11 https://en.wikipedia.org/wiki/Business_models_for_open-source_software Iaffaldano G Steinmacher Calefato F Gerosa Lanubile F 为什么开发人员在为OSS项目做贡献时要休息一下?初步分析 第二届软件健康国际研讨会论文集 2019 第二届软件健康国际研讨会 2019年5月28日 蒙特利尔,魁北克,加拿大 10.1109 / SoHeal.2019.00009 Atiq 一个 特里帕西 一个 财务利益对开源软件可持续性的影响 第三十七届国际信息系统会议论文集 2016 第三十七届国际信息系统会议 2016年12月11日至14日 都柏林 吉梅内斯 钢筋混凝土 设计 Alhamdoosh 巴克 Batut B Borg Capella-Gutierrez 年代 Chue香港 N 烹饪 Corpas 弗兰纳里 加西亚 l 盖尔皮 莱托 最终 年代 Goble C 冈萨雷斯Ferreiro Gonzalez-Beltran 一个 格里芬 个人电脑 Gruning B Hagberg J Holub P Hooft R J 卡茨 DS š埃克莱斯科 B 洛佩兹戈麦斯 F 奥利维拉 LJ Mellor D Mosbergen R 穆德 N Perez-Riverol Y Pergl R Pichler H 教皇 B Sanz F 施耐德 MV Stodden V Suchecki R Svobodova Vařekova R Talvik H 托多罗夫 Treloar 一个 Tyagi 年代 范Gompel 沃恩 D 通过 一个 X Watson-Haigh NS 屈膝;蜷伏 年代 四个简单的建议,以鼓励研究软件的最佳实践 F1000Res 2017 6 灵丹妙药- 876 10.12688 / f1000research.11407.1 28751965 PMC5490478 尼曼 l Lindman J 开源软件中的代码分叉、治理和可持续性 科技创新管理Rev . 2013 3. 1 7 12 10.22215 / timreview / 644 尼曼 l Mikkonen T Lindman J 馥香 开源软件中代码分叉和可持续性的观点 开放源码系统国际会议 2012 柏林,海德堡 施普林格 274 9 王子 P de Ligt J Tarasov 一个 詹森 钢筋混凝土 Cuppen E 伯恩 体育 为大型生物提供有效的软件解决方案 生物科技Nat》 2015 07 33 7 686 7 10.1038 / nbt.3240 26154002 nbt.3240 Fedorov 一个 Beichel R Kalpathy-Cramer J Finet J Fillion-Robin J Pujol 年代 鲍尔 C 詹宁斯 D Fennessy F Sonka Buatti J Aylward 年代 米勒 合资企业 皮珀尔 年代 Kikinis R 3D切片机作为定量成像网络的图像计算平台 曼瑞森影像公司 2012 11 30. 9 1323 41 10.1016 / j.mri.2012.05.001 22770690 s0730 - 725 x 00181 - 6 (12) PMC3466397 绅士 钢筋混凝土 凯里 VJ 贝茨 DM Bolstad B Dettling Dudoit 年代 埃利斯 B Gautier l 通用电气 Y 绅士 J Hornik K Hothorn T 休伯 W Iacus 年代 R Leisch F C Maechler 罗西尼 AJ Sawitzki G 史密斯 C 史密斯 G Tierney l 司法院 J Bioconductor:用于计算生物学和生物信息学的开放软件开发 基因组医学杂志 2004 5 10 R80 10.1186 / gb - 2004 - 5 - 10 - r80 15461798 gb - 2004 - 5 - 10 - r80 PMC545600 香农 P Markiel 一个 Ozier O Baliga NS JT 拉梅奇 D 阿明 N Schwikowski B Ideker T Cytoscape:生物分子相互作用网络集成模型的软件环境 基因组Res 2003 11 13 11 2498 504 10.1101 / gr.1239303 14597658 13/11/2498 PMC403769 甜菜 K Tuecke 年代 福斯特 Globus:最近的增强和未来的计划 XSEDE16多样性、大数据和大规模科学会议论文集 2016 XSEDE16多样性、大数据和大规模科学会议 2016年7月17日至21日 美国迈阿密 10.1145/2949550.2949554 墨菲 SN 韦伯 G Mendis 获得者 V Chueh HC 丘吉尔 年代 小羽 为企业及其他领域提供信息学服务,整合生物学和临床(i2b2) 美国医学信息协会 2010 02 26 17 2 124 30. 10.1136 / jamia.2009.000893 20190053 17/2/124 PMC3000779 Scheufele E Aronzon D Coopersmith R 麦克达菲 卡普尔 Uhrich CA Avitabile J D Palchuk MB tranSMART:一个开源的知识管理和高内容数据分析平台 中国科学院国际学术会议 2014 4 7 2014 96 101 25717408 PMC4333702 关于ITK ITK 2021-10-01 https://itk.org/ 关于Linux Linux 2021-11-09 https://www.linux.org/ Hripcsak G 杜克大学 JD 沙阿 NH 帝国 CG 溶血性尿毒综合征 V Schuemie 乔丹 Suchard 公园 RW 集成电路 Rijnbeek 公关 范德雷 J 普拉特 N 诺尔 GN Y-C 体育 马迪根 D 瑞安 PB 观察性健康数据科学和信息学(OHDSI):观察研究人员的机会 Stud健康技术信息 2015 216 574 8 26262116 PMC4815923 统计计算的R项目 2021 2021-10-01 https://www.r-project.org/ 欧贝得 JS 麦格劳 CA 提单 康德 Pawluk R J 银行 Hemphill SA 泰勒 R 哈里斯 巴勒斯坦权力机构 采购共享数据仪器进行研究电子数据采集(REDCap) J生物医学信息 2013 04 46 2 259 65 10.1016 / j.jbi.2012.10.006 23149159 s1532 - 0464 (12) 00160 - 8 PMC3600393 一个可持续的开源项目是什么样的? Libraries.io 2017 2021-11-09 https://medium.com/libraries-io/what-does-a-sustainable-open-source-project-look-like-bf9b8cf824f8 为开源提供财务支持的方便指南 GitHub 2019 2021-10-01 https://github.com/nayafia/lemonade-stand i2b2 tranSMART基金会修订并重述章程 2017-04-25 https://drive.google.com/file/d/0B8lizkKDeaKhTUF3QmNTTFk0ZnM/view 修订及重述i2b2 transmart基金会章程 i2b2 tranSMART 2017 2021-11-09 http://roadmap-i2b2-transmart-pmc.hms.harvard.edu 文档/实验室/ Slicer5-roadmap 3D切片机路线图 2021-11-09 https://www.slicer.org/wiki/Documentation/Labs/Slicer5-roadmap Cytoscape产品路线图 Cytoscape财团 2021-11-09 https://cytoscape.org/roadmap.htm 产品路线图 Globus在线 2021-11-09 https://www.globusworld.org/files/2010/02/120412-GW2012_Tuecke_Roadmap.pdf ITK ITK路线图2005-2006 2020-09-01 https://itk.org/Wiki/ITK/Roadmap_2005_2006 ITK路线图2008-2009 ITK 2021-11-09 https://itk.org/Wiki/ITK_Roadmap_2008_2009 ITK/Release 4/DICOM/会议路线图 ITK 2021-11-09 https://itk.org/Wiki/ITK/Release_4/DICOM/Meeting_2011.09.01_Roadmap OHDSI架构路线图 观察健康数据科学与信息学 2021-11-09 https://www.ohdsi.org/web/wiki/doku.php?id=development:roadmap CDM v6.0路线图 观察健康数据科学与信息学 2021-11-09 https://forums.ohdsi.org/t/cdm-v6-0-roadmap/4809 OHDSI WebAPI路线图 观察健康数据科学与信息学 2021-11-09 https://github.com/OHDSI/WebAPI/wiki/Roadmap Linux路线图 Corbet 2021-11-09 https://lwn.net/Articles/114804/ ITK软件指南 ITK 2021 2021-11-09 https://itk.org/ItkSoftwareGuide.pdf Linux引导 维基教科书 2021-11-09 https://en.wikibooks.org/wiki/Linux_Guide R入门 r项目 2009 2021-10-26 https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf 欢迎来到3D切片器的文档 3 d切片机 2021-10-01 https://slicer.readthedocs.io 3D切片器Wiki GitHub 2021-11-09 https://github.com/Slicer/Slicer/wiki 欢迎来到i2b2社区Wiki i2b2社区Wiki 2021-11-09 https://community.i2b2.org/wiki/pages/viewpage.action?pageId=342684 生物导体教程第一部分 Bioconductor 2003 2021-11-09 https://bioconductor.org/help/course-materials/2003/MGED6/MGED6I.pdf 利用Globus研究数据管理云的强大功能 Globus文档 2021-11-09 https://docs.globus.org/ Cytoscape教程 GitHub 2021-11-09 https://github.com/cytoscape/cytoscape-tutorials/wiki tranSMART平台教程 i2b2 tranSMART基金会 2021-11-09 https://transmartfoundation.org/transmart-platform-tutorials/ 3D切片器夜间教程 2020-03-12 https://www.slicer.org/wiki/Documentation/Nightly/Training OHDSI 2019教程- OMOP通用数据模型和标准化词汇表 观察健康数据科学与信息学 2019 2021-11-09 https://www.ohdsi.org/2019-tutorials-omop-common-data-model-and-standardized-vocabularies/ 搬运工教程 YouTube 2021-11-09 https://www.youtube.com/playlist?list=PLrnf34ZtZ9FohXnuD6KmwVb1xgbGDu3rY 3D切片器YouTube教程 YouTube 2021-11-09 https://www.youtube.com/channel/UC8vxI0-dEWrw0_tBF-v8xGA Cytoscape YouTube频道 YouTube 2021-11-09 https://www.youtube.com/channel/UCv6auk9FK4NgXiXiqrDLccw 休伯 W 凯里 VJ 绅士 R 安德斯 年代 卡尔森 卡瓦略 废话 布拉沃 HC 戴维斯 年代 l Girke T Gottardo R Hahne F 汉森 KD 类风湿性关节炎 劳伦斯 心肌梗死 麦克唐纳 J Obenchain V Oleś 正义与发展党 页面 H 雷耶斯 一个 香农 P 史密斯 门将 特南鲍姆 D 沃尔德伦 l 摩根 编排高通量基因组分析与Bioconductor Nat方法 2015 02 12 2 115 21 10.1038 / nmeth.3252 25633503 nmeth.3252 PMC4509590 Cytoscape应用程序阶梯 GitHub 2019 2021-11-09 https://github.com/cytoscape/cytoscape/wiki/Cytoscape-App-Ladder R手册 凹口 2021-11-09 https://cran.r-project.org/manuals.html 3D切片器预览 CDash 2021-11-09 http://slicer.cdash.org/index.php?project=SlicerPreview 发布软件包 R包 2021-11-09 http://r-pkgs.had.co.nz/release.html 文档/夜间/开发人员/风格指南 3 d切片机 2021-11-09 https://www.slicer.org/wiki/Documentation/Nightly/Developers/Style_Guide R版本3.6.3的R内部组件 2020 2020-03-12 https://cran.r-project.org/doc/manuals/R-ints.html OHDSI OHDSI论坛 观察健康数据科学与信息学 2021-11-09 https://forums.ohdsi.org/ OHDSI Github Repository 观察健康数据科学与信息学 2021-11-09 https://github.com/ohdsi/ Linux帮助中心 Linux基金会 2021-11-09 https://support.linuxfoundation.org/ Cytoscape Helpdesk主页 Cytoscape帮助台 2021-11-09 https://groups.google.com/forum/ !论坛/ cytoscape-helpdesk ITK论坛 ITK 2021-11-09 https://discourse.itk.org 在社交媒体上与Globus联系 2021-11-09 https://www.globus.org/contact-us Mookhey K Burghate N Linux:安全、审计和控制特性 2005 伊利诺斯州绍姆堡东高尔夫路 ISACA UNIX/LINUX安全特性 Winsock 2021-11-09 https://www.tenouk.com/linuxunixsecurityfeatures.html 生物导体上的R包如何获得许可 凹口 2021-11-09 http://seankross.com/2016/08/02/How-R-Packages-are-Licensed.html i2b2 MPL 2.0许可及其医疗保健免责声明附录 i2b2 Web客户端 2021-11-09 https://community.i2b2.org/wiki/display/webclient/The+i2b2+MPL+2.0+License+with+Healthcare+Disclaimer+Addendum 文档/ 4. x /确认 3 d切片机 2021-11-09 https://www.slicer.org/wiki/Documentation/4.x/Acknowledgments Linux基金会会员资格 Linux基金会 2021-11-09 https://www.linuxfoundation.org/membership/ i2b2 tranSMART基金会赞助计划 2021-11-09 https://transmartfoundation.org/contributing-sponsors-program/ Wagholikar KB Dessai P Sanz J Mendis 贝尔 DS 墨菲 SN 将生物学和床边(i2b2)平台集成为Docker容器的信息学实现 BMC Med Inform Decis mark 2018 07 16 18 1 66 10.1186 / s12911 - 018 - 0646 - 2 30012140 10.1186 / s12911 - 018 - 0646 - 2 PMC6048900 开源可持续性 Tech Crunch 2018 2021-11-09 https://techcrunch.com/2018/06/23/open-source-sustainability/ 玛萨斯说 博士 哈里斯 巴勒斯坦权力机构 费恩看来 巴勒斯坦权力机构 小羽 设计一个研究计算的公共广场 科学与医学 2012 08 29 4 149 149年fs32 10.1126 / scitranslmed.3004032 22932220 4/149/149fs32 PMC3725749 科学软件:一些个人思考 arXiv 2013 2021-11-09 https://arxiv.org/abs/1309.2357 开源许可:趋势和预测 白色的来源 2021 2021-11-09 https://resources.whitesourcesoftware.com/blog-whitesource/open-source-licenses-trends-and-predictions 嘉宾博客:全球与可持续发展之路 科学网关 2019 2021-11-09 https://sciencegateways.org/-/guest-blog-globus-and-the-path-to-sustainability?inheritRedirect=true&redirect=/community/blog 佛格尔 K 第二章:入门 生产开源软件:如何运行一个成功的自由软件项目。第二版 2020 在知识共享署名-相同方式共享(4.0)许可下 版权所有©2005-2021 Karl Fogel 特谢拉J 尽早发布,经常发布,按时发布。发布管理的实证案例研究 IFIP开放源码系统国际会议论文集 2017 开放源码系统国际会议 2017年5月22-23日 布宜诺斯艾利斯,阿根廷 10.1007 / 978 - 3 - 319 - 57735 - 7 - _16 佛格尔 K 第五章:作为企业、非营利组织或政府机构参与 生产开源软件:如何运行一个成功的自由软件项目。第二版 2020 在知识共享署名-相同方式共享(4.0)许可下 版权所有©2005-2021 Karl Fogel 佛格尔 K 第三章:技术基础设施 生产开源软件:如何运行一个成功的自由软件项目。第二版 2020 在知识共享署名-相同方式共享(4.0)许可下 版权所有©2005-2021 Karl Fogel Eghbal N 道路和桥梁:数字基础设施背后看不见的劳动 2016 纽约,纽约 福特基金会 鲁吉尔 N Hinsen K 亚历山大 F Arildsen T 胡须 Benureau 足球俱乐部 棕色(的) CT de Buyl P 恰拉扬 O 戴维森 美联社 Delsuc 希姆 Detorakis G 吴廷琰 正义与发展党 德里克斯 D 埃奈尔 P 吉拉尔 B 客人 O 大厅 毫克 戴安娜 RN Hinaut X 杰伦 KS Khamassi 克莱因 一个 Manninen T Marchesi P McGlinn D 梅兹勒 C Petchey O 叩诊槌 Poisot T 内存 K 内存 Y 罗斯切 E 罗森特 C Rostami V Shifman 一个 Stachelek J Stimberg Stollmeier F Vaggi F G Vitay J Vostinar AE Yurchak R 鸡头 T 可持续计算科学:科学倡议 计算机科学 2017 3. e142 10.7717 / peerj-cs.142 34722870 cs - 142 PMC8530091 巴克 年代 解决再现性 科学 2015 06 25 348 6242 1403 10.1126 / science.aac8041 Schoettle H 开源许可遵从性——为什么以及如何遵从? 电脑 2019 8 52 8 63 7 10.1109 / mc.2019.2915690 从大数据到知识 国家卫生研究院战略协调办公室共同基金 2021-11-09 https://commonfund.nih.gov/bd2k 伯恩 体育 Bonazzi V 邓恩 绿色 艾德 盖伊 Komatsoulis G 拉金 J 罗素 B 美国国立卫生研究院大数据到知识(BD2K)计划 美国医学信息协会 2015 11 22 6 1114 10.1093 /地点/ ocv136 26555016 ocv136 PMC5009910 NIH的数据科学 美国国立卫生研究院数据科学战略办公室 2021-11-09 https://datascience.nih.gov/ 精准医学倡议队列计划——为21世纪医学奠定研究基础 国家卫生研究院 2015 2021-11-09 https://www.nih.gov/sites/default/files/research-training/initiatives/pmi/pmi-working-group-report-20150917-2.pdf 英国研发路线图 Gov.UK 2020 2021-11-09 https://www.gov.uk/government/publications/uk-research-and-development-roadmap 雷诺兹 CJ 怀亚特 JC 开源、开放标准和医疗保健信息系统 J Med Internet Res 2011 02 17 13 1 e24 10.2196 / jmir.1521 21447469 v13i1e24 PMC3221346 有关发展、使用及提供研究软件的建议 Zenodo 2018 2021-11-09 https://zenodo.org/record/1172988#.X9Q1UdhKiF 卡茨 D 年代 拉普兰人 H Maheshwari K Loffler F 土耳其人 第一届可持续科学软件:实践与经验研讨会(WSSSPE1)总结 J Open Res software 2014 2 1 e6 10.5334 / jors.an 科学门户社区研究所 2021-11-09 https://sciencegateways.org/gateway-support/consulting-services
Baidu
map