原始论文
摘要
医疗保健相关网站数量的快速增长要求医学图书馆员能够评估网站的质量。通过分析美国19所顶尖医学院的链接来源医学图书馆网页,本研究使用了引文分析方法。通过文献计量学方法,研究人员从数千个被引用的链接中筛选出78个被引用次数最多的WWW网站。用文献计量学方法识别当前健康科学相关网站的核心部分,为图书馆员和信息科学家提供了另一种评估网站的方法。
中国医学杂志,1999;1(1):e4doi: 10.2196 / jmir.1.1.e4
关键字
简介
医疗保健相关网站数量的快速增长和不断变化使得对网站质量的评估成为一项困难但有益的任务。互联网是“一种媒介,任何人只要有一台电脑,就可以同时担任作者、编辑和出版人,如果他或她愿意,还可以匿名地担任这些角色中的任何一个或全部。”在这样的环境下,无论是新手还是精明的互联网用户,都很难分清好坏,辨别有用的和有害的。
].利用Yahoo及Excite两个搜索引擎,系统搜寻有关发烧儿童家庭管理的家长网页,[ 这项研究的调查人员,将网站上的信息与一本印刷书籍提供的父母在家控制发烧的指南进行了比较。调查人员在检索和审查的41个网页中发现:28个网页给出了儿童发烧的特定温度,26个页面指出了测量体温的最佳位置,38个页面推荐了非药物措施,36个页面给出了何时应该打电话给医生的一些指示。只有四个网页与指南中的主要建议密切相关。研究人员从这些观察中得出结论,只有少数网站提供了关于这种常见和广泛讨论的疾病的完整和准确的信息。根据麦克朗的说法,[ 在被调查的60家主要医疗机构网站中,有48家在儿童腹泻治疗方面的信息不准确。虽然控制网页的内容几乎是不可能的(而且可能是不可取的),但对所提供的信息的质量进行某种衡量肯定是有用的。一种可能是建立一个基于标准标准的官方评级体系。在上述调查中,[
作者还建议迫切需要检查互联网上面向公众的医疗保健信息的准确性、完整性和一致性。已经进行了许多尝试,并制定了有助于实现这些目标的核心标准。最被广泛接受的建议是,根据网络资源调整传统印刷品的五个评价标准:准确性、权威性、客观性、通用性和覆盖面[ , , ].然而,“许多网民强烈反对任何‘官方’规范信息的尝试”,尽管很少有人希望看到不准确的信息出现!此外,“网络的交互式格式意味着用于纸质期刊的标准可能不适用于基于网络的信息。”[
].Jadad指出:“网络的本质使得这很难,如果不是不可能的话。”Jadad在调查了用于评估互联网上提供健康信息的网站的工具后得出结论,“互联网上存在许多未完全开发的评估健康信息的工具。然而,尚不清楚它们是否应该首先存在,它们是否衡量它们所声称衡量的东西,或者它们是否利大于弊。 ].在这一点上,很难达到或制定一个标准,每个互联网用户都可以遵守。有人建议,可以用与传统印刷媒体类似的方式来评估Web站点。当我们评估一本教科书或期刊时,我们不仅评估作者、内容和结构,而且更客观地衡量出版物对读者的影响。引文分析,即统计引文数量以确定著作的学术影响力的实践,是图书馆长期以来作为馆藏开发的重要工具使用的方法。在文献计量学中,期刊的影响是通过在一定时期内被引用的频率来评估的。
评估科学期刊的一个主要工具是期刊引用报告(JCR) [
].JCR由科学信息研究所(Institute for Scientific Information)出版,包括一些基于引文的期刊影响力衡量指标。图书馆员和研究人员可以利用JCR查看发表在某些期刊上的文章被引用的次数和速度。还有一种衡量有效性的方法,即影响因子,它将选定期刊收到的引用规范化,只关注前两年的出版情况。虽然没有类似的工具来评估一个WWW页面的影响,但相对容易确定哪些页面被其他页面的编译者引用(“链接到”)。我们还发现了一项针对精选美术图书馆的WWW页面进行的研究[http://webcite.net)贡献和实践这种方法。
].通过分析艺术图书馆网页上的链接来源,Neth的研究从数千个被引用的链接中发现了20个常被引用的WWW网站。当我们调查与健康科学相关的网站时,我们也发现一些完善的网站已经成功地使用了这种方法。例如,爱荷华大学的Hardin-Meta的编纂者查看了每个领域的许多网站,并选择了最常被该领域的人引用的列表。这种分析提供了一种基本的同行评价形式。他们称之为“列表中的列表”[ ].再如,Eysenbach在一篇关于互联网医疗信息质量管理的论文中,提出了一些间接的质量指标,其中就包括“网络引用”。类似于科学引文索引的“网站引用索引”,可以根据某一网站的超链接的绝对数量或在一段时间内建立的新超链接来编制[ ].作者开发了一个网站网络(在本文中,我们分析了美国前25所医学院网页的“其他链接”部分链接到的页面。假定网站管理员只会引用或链接到他/她认为是权威的网页。我们检查这些页面的链接,并获得被引用次数最多的页面列表。这为利用引文分析的原理来评估网站提供了一种新的方法。
方法
(1).样本选择:
选择“关键网站”来计算最常被引用的网站是非常重要的。在我们的方法中,我们使用了《美国新闻与世界报道》公布的“美国前25所医学院”名单。
].接下来我们确定了他们的初级卫生信息WWW网站。通常这是医学院图书馆的主页。在这25所大学中,有7所大学的网页因网址检查软件的技术限制和网站的多样性而被取消。我们最后检查了美国前25所医学院中的19所的网页。排名前25位的
本研究中剔除者用星号(*)表示。(2).根据被引频次对网站进行排名
下一步是检查这些页面的链接。这是通过使用软件程序"Checkweb"来实现的[
],它会检查所选网页的链接,并报告哪些链接已移动,或无法定位或连接。第二步是清理和清除这个名单上的孤儿(状态404 -不再存在,状态301和302 -移动),以及“噪音项目”。噪音项目是来自主机网页的“噪音”,例如“回家”或同一网站上其他部分的链接。这确保了最终的列表只是到外部url的活动链接。最后一步是根据这些url的不同级别计算它们的频率。例如,我们有这样的url:http://www.lib.uiowa.edu/hardin/md/speech.html.该URL可以分解为如下所示的组件部分 .我们将这些url划分为不同的组件级别,并计算它们的频率。在本例中,一级域名是第一个斜杠之前的部分,"http://www.lib.uiowa.edu".
顶级域名包括。edu、。com、。ca和。nl等标识符。对tld进行排序导致
.不。 | TLD | tld的含义 | 频率。 | Percen | 那么一点点。P |
1 | edu | 美国四年制学院和大学 | 1124 | 30.47 | 30.47 |
2 | com | 美国商业实体 | 839 | 22.74 | 53.21 |
3. | 政府 | 美国联邦政府实体 | 683 | 18.51 | 71.73 |
4 | org | 各种各样的组织 | 623 | 16.89 | 88.61 |
5 | 网 | 直接参与互联网运营的机构 | 93 | 2.52 | 91.14 |
6 | 英国 | 联合王国 | 83 | 2.25 | 93.39 |
7 | ca | 加拿大 | 47 | 1.27 | 94.66 |
8 | ch | 瑞士 | 33 | 0.89 | 95.55 |
9 | 德 | 德国 | 24 | 0.65 | 96.20 |
10 | 我们 | 美国 | 18 | 0.49 | 96.69 |
11 | 非盟 | 澳大利亚 | 16 | 0.43 | 97.13 |
12 | se | 瑞典 | 10 | 0.27 | 97.40 |
13 | 摩根大通 | 日本 | 9 | 0.24 | 97.64 |
14 | fr | 法国 | 8 | 0.22 | 97.86 |
15 | int | 国际 | 8 | 0.22 | 98.08 |
16 | 它 | 意大利 | 6 | 0.16 | 98.24 |
17 | 问 | 荷兰 | 5 | 0.14 | 98.37 |
18-52 | 顶级域名出现的次数少于5次 | 60 | 1.63 | 100.00 | |
总计 | 52 | 3689 | 100.00 |
结果与分析
对三种级别的url进行了统计,结果显示在
, 而且 .(1)顶级域名分布。
链接的频率非常集中在几个顶级域名,特别是。edu,。com,和。gov和。org。这些占了88.61%的链接。
如
被引用次数最多的顶级域名(超过600次)是。edu, .com, .gov和。org。这些顶级域名都在美国注册。其他被引用较少的美国顶级域名是。net, . US和。mil。美国相关的网页几乎占了被引用网址的90%。这并不意外,因为样本来源是美国的医学院,而且美国的互联网高度发达。在美国顶级域名中,那些来自四年制学院和大学的域名,即那些有权使用。edu后缀的域名,被引用的频率最高,因此被认为是最重要的。后缀为。edu的链接几乎占所有链接的三分之一。其他tld经常被引用的国家有英国(uk)、瑞士(ch)、加拿大(ca)、德国(de)、澳大利亚(au)、瑞典(se)和荷兰(nl)。这种分布与美国科学信息研究所(ISI)在《科学观察》(Science Watch)上发表的1992 - 1996年每篇论文被引次数排名的30个国家的结果非常相似[
].在这项研究中,排名前十的国家是瑞士、美国、荷兰、瑞典、丹麦、英国、比利时、芬兰、加拿大和德国。我们的研究结果在一定程度上也代表了世界医学信息出版和研究的发展水平。然而,本文的重点并不放在这两个列表的比较上。(2)一级域的分布。
这项研究的目标之一是确定美国学术健康科学图书馆最常引用的网站。
显示这19个机构的主页总共引用(链接)了1731个网站。根据Bradford 's Law of Scatter: [
“如果科学期刊是按照某一特定主题的文章产量递减的顺序排列的,它们可以分为一个更专注于该主题的期刊核心和几个包含与核心相同文章数量的组或区域,当核心和后续区域的期刊数量为1:n:n2”。在我们的研究中,我们按照被引用频次递减的顺序列出网站,正如Bradford在他的原始论文中所做的那样,我们将网站的总被引用次数分为三个相等的部分。第一部分是排名前78位的网站(详见 )占总被引次数的33.69%,第二节从第79位到第530位,约占总被引次数的33%,最后一节从第531位到第1731位。因此,这些网站被引用频率几乎相等的数量是78:452:1201,接近1:4:42。因此,将这一规律应用于网站引文分析中,我们可以将第一部分(78个网站)作为这1731个网站的核心部分。(3)全域名网站分布:
大部分网站在整个域名表中列出(
)已列于先前的表格内。这是因为大多数“其他链接”都指向url的第一级域。该表中只有带有星号(*)的url有更多详细信息。事实上,整个url列表中的大部分已经在“一级域”(
),因为大部分网址也以“一级域”表示。发现的一些链接是深入网站的页面,并为我们提供有关为什么网站被选择链接的信息。例如,许多(虽然不是全部)CDC的访问者想要查看发病率和死亡率周报(MMWR),许多访问NIH的访问者想要关于补助金和奖学金计划的信息,因此除了CDC或NIH网站的更一般的链接之外,这两个页面通常都有直接链接。结合“一级域”分析和整个URL分析的结果,如果存在某些“一级域”,我们将其替换为整个URL扩展。从这个分析中,确定了被引用最多的健康科学相关网站的指南。我们希望这个列表可以作为一个更完整的医疗保健核心网站列表。
为了进一步清晰地表示这些与健康相关的核心网站,我们将这些核心网站分别按其主要用途、原始网站分为6类(
).结论
在被选定的学术医疗机构引用的url中,几乎90%的顶级域名(tld)来自美国。不到10%的学生来自英国、瑞士、加拿大、德国、澳大利亚和荷兰。剩余tld数量小于2%。
第一级域根据布拉德福德定律分布。有一个核心包含78个引用率最高的健康科学相关网站。这些核心网站代表了广泛的信息需求领域。
讨论
用文献计量学方法鉴定与健康相关网站的核心部分,为图书馆员和信息科学家提供了另一种评估网站的方法。虽然印刷出版物的“核心列表”有其缺点,但它们是帮助图书馆员和用户选择出版物的有用指南。同样,通常链接到WWW页面的列表可以为重要的健康相关网站提供建议,并帮助主页编纂者选择合适和可靠的链接。最好检查一下所有美国医学院图书馆的主页,并将这些结果与其他英语国家(如加拿大、英国和澳大利亚)的医学院图书馆的主页进行比较。
致谢
作者要感谢Paul D. Clayton(美国医学信息协会主席)在这个项目中的指导,以及David S. Crawford(加拿大麦吉尔大学健康科学图书馆主任)在撰写本文时给予的帮助和建议。
利益冲突
没有一个
参考文献
- Silberg WM, Lundberg GD, Musacchio RA。评估、控制和保证互联网医疗信息的质量:警告者和观看者——让读者和观看者当心。中国医学杂志1997年4月16日;277(15):1244-1245。[Medline] [CrossRef]
- Impicciatore P, Pandolfini C, Casella N, Bonati M.在万维网上为公众提供的卫生信息的可靠性:关于在家管理儿童发烧的建议的系统调查。英国医学杂志1997 Jun 28;314(7098):1875-1879 [免费全文] [Medline]
- Mcclung HJ, Murray RD, Heitlinger LA。互联网作为获取当前患者信息的来源。儿科学1998 Jun;101(6):e2 [免费全文] [Medline] [CrossRef]
- Alexander J, Tate M.教授万维网资源的关键评估技能。URL:URL: http://www.science.widener.edu/ ~威瑟斯/ alaslides / pptfirst.htm[进入1999年3月25日]
- 布兰德DS。评估互联网上的信息。URL:http://thorplus.lib.purdue.edu/~techman/evaluate.htm[进入1998年1月28日]
- 贝克。好的,坏的和丑陋的:或者为什么评估网络资源是一个好主意。URL:http://lib.nmsu.edu/staff/susabeck/eval.html[进入1997年7月29日]
- Jadad AR, Gagliardi A.在互联网上评估健康信息:导航到知识还是巴别塔?中国医学杂志1998年2月25日;279(8):611-614。[Medline] [CrossRef]
- 怀亚特JC。评论:衡量万维网的质量和影响。BMJ 1997(314): 1897 - 1881。
- 引用索引理论及其在科学、技术和人文科学中的应用。纽约州纽约:Isi出版社;1983年6月。
- 引文分析与网络。艺术文献1998;17(1):29-33。
- 关于哈丁医学博士。http://www.lib.uiowa.edu/hardin/md/about.html[进入1998年2月10日]
- 最佳研究生院(美国最佳研究生院,1998年)。华盛顿:《美国新闻与世界报道》;1998.
- Magnusson C. CheckWeb。URL:http://www.alterego.fr/dev/chkweb.htm[进入1999年3月25日]
- 引文数据显示世界科学论文排名。科学观察1997;8(3):1-2。
- 布拉德福德JS。论文分布:在某一科学期刊上论文的分布工程1934(137):85 - 86。
- 艾森巴赫,戴普根。互联网医疗信息的质量管理:信息的评估、标签和过滤。英国医学杂志1998 11月28日;317(7171):1496-1500 [免费全文] [Medline]
- Eysenbach G. Webcite。URL:http://webcite.net/[进入1999年3月25日]
G·艾森巴赫(G Eysenbach)编辑;提交24.03.99;A Risk, V Della Mea同行评审;对作者01.04.99的评论;修订版本收到01.04.99;接受01.04.99;发表05.08.99
版权©崔磊。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 1999年8月5日。除非另有说明,发表在《医学互联网研究杂志》上的文章都是根据创作共用署名许可协议(http://www.creativecommons.org/licenses/by/2.0/)发布的,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用原创作品,包括完整的书目细节和URL(参见上面的“请引用”),并包括本声明。