这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
要获得HONcode认证,网站必须符合HONcode的8项原则。在目前的手动认证过程中,HONcode专家会根据每项原则的精确指导方针对候选网站进行评估。在欧洲项目KHRESMOI的范围内,网络健康(HON)基金会开发了一个自动化系统,以协助检测网站的HONcode符合性。执行HONcode审查的自动化协助可以加快当前耗时的HONcode认证和持续监督任务。此外,作为通用搜索引擎插件使用的自动化工具可能有助于检测遵守HONcode原则但尚未获得认证的健康网站。
这项研究的目标是确定自动化系统是否能够像人类专家一样在卫生网站上识别HONcode原则。
本研究以HONcode高级专家的人工评估为基准,比较了HONcode自动检测系统与HONcode高级专家的能力。由资深HONcode专家手动评估了27个与健康相关的网站是否符合8项HONcode原则。基于监督机器学习的HONcode合规性检测的自动化系统处理了同一组网站。然后比较了这两种方法的结果。
对于隐私标准,自动化系统在27个站点中的17个站点(14个真阳性和3个真阴性)中获得了与人类专家相同的结果,没有噪音(0个假阳性)。隐私标准的其余10个假阴性实例代表了可容忍的行为,因为所有自动检测到的原则符合性都是准确的,这很重要(即,隐私标准的特异性[100%]优于敏感性[58%])。此外,自动化系统的精度至少为75%,其中联系人详细信息(100%精度,69%召回率)、权威信息(85%精度,52%召回率)和参考信息(75%精度,56%召回率)的召回率超过50%。结果还揭示了一些标准的问题,如日期。在自动化系统中改变“文档”的定义(即使用句子而不是整个文档作为分类单位)解决了一些问题,但不是全部。
研究结果表明,在权限、隐私、参考和联系详细信息方面,自动遵从性检测与专家手动遵从性检测之间存在一致性。结果还表明,使用相同的通用参数自动检测每个准则会产生次优结果。未来为每个HONcode原则配置最优系统参数的工作将改善结果。本文还讨论了集成HONcode一致性自动检测到未来搜索引擎的潜在用途。
互联网给个人获取和获取健康信息的方式带来了巨大的变化[
最近的一项研究表明,35%的美国成年人曾经使用互联网来收集他们或其他人患有的疾病的健康信息。
然而,考虑到互联网上以健康相关网站或科学文章的形式提供的健康相关信息的数量,用户往往被可用信息的数量压垮。最近,已开始努力根据在线健康网页所提供的信息质量自动标记[
搜索引擎是最常用的来源。在一项调查中,77%的在线健康咨询寻求者的最后一次咨询是在谷歌、必应或雅虎等通用搜索引擎上开始的。
在这项研究中,作者对选择的30个健康网站的HONcode原则的自动系统检测结果与由高级HONcode专家(例如,具有10年以上HONcode认证经验的专家)进行的标准手动HONcode过程中获得的结果进行了比较。资深HONcode专家具有医学背景;他/她负责培训新的HONcode审查员和处理复杂的认证案例。
一旦网站申请了HONcode认证,专家就会浏览网站的页面,以确定该网站是否遵守了HONcode的每项原则[
当在一个页面上找到原则证明(即,该网站符合给定的原则),摘录和网址被添加到HONcode文件中并存储在数据库中。当一个原则没有得到完全或部分的尊重时,建议将被发送给网站编辑。手动HONcode认证描述在
HONcode手动和自动检测流程。
为了衡量专家评审员之间的一致程度,并估计专家给出错误评估的可能性,我们比较了3名高级评审员对总共36个网站所做的评估。每一项标准都由所有3名评审员打分。
HONcode原则合规性的自动检测由以下步骤组成,如
对于给定的健康相关网站,WebCrawler检索其可访问网页的最大集合。这是从网站主页开始,然后是内部链接。
系统从给定网站中检索到的网页中提取“有意义的内容”。这些内容由页面内的文本信息组成。
然后,自动系统检查从每个网页提取的内容是否符合每个HONcode原则。自动化系统体现了Williams和Calvo所描述的机器学习框架[
为了指定文档字数到向量值的转换,作者使用了两种加权方案,即tfc和tfx,其中
作者选择了30个医疗保健网站的方便样本进行比较评估(自动检测vs由高级HONcode专家手动评分)。然而,30个网站中只有27个可以被自动化系统处理,因此研究结果使用了27个网站的样本。便利性样本的选择广泛涵盖HONcode潜在和实际的地点,如下所示:
新的可认证网站(n=9): HONcode专家估计这些网站符合HONcode,但尚未获得认证。
可能无法认证的网站(n=9): HONcode专家估计,在充分分析后,这些网站不符合HONcode原则。
新认证网站(n=4):最近首次认证的网站。
先前认证的HONcode网站(n=5):选择这些网站是因为它们正在等待年度重新评估。
为了评估的目的,高级HONcode专家手动审查了所描述的27个网站。同时,HONcode自动检测系统根据每个评价标准对27个网站进行了审查[
HONcode自动检测评估与人工评估的比较。
评估专家(用黄色突出显示)和自动化系统(红色框=最重要,绿色框=最不重要)检测到的术语的“互补性”标准。
手动与自动(使用tfc和tfx权重)评估(N=27)。
标准 | 手册 | 自动化 | |||||||||
|
|
交通 | 的敏感性 | ||||||||
|
|
真正的一个 | 假b | 其他c | 真正的一个 | 假b | 其他c | ||||
|
|
- - - - - - | + | - - - - - - | + |
|
- - - - - - | + | - - - - - - | + |
|
权威 | 21 | 4 | 1 | 10 | 2 | 10 | 4 | 4 | 14 | 2 | 3. |
互补 | 26 | 1 | 0 | 21 | 0 | 5 | 1 | 2 | 23 | 0 | 1 |
隐私 | 24 | 1 | 14 | 9 | 2 | 1 | 3. | 14 | 10 | 0 | 0 |
引用(属性) | 16 | 5 | 0 | 6 | 6 | 10 | 8 | 4 | 7 | 3. | 5 |
合理性 | 6 | 14 | 1 | 1 | 7 | 4 | 8 | 3. | 3. | 13 | 0 |
详细联系方式 | 26 | 1 | 6 | 16 | 0 | 4 | 1 | 15 | 8 | 0 | 3. |
财务信息披露 | 17 | 8 | 1 | 9 | 2 | 7 | 9 | 0 | 16 | 1 | 1 |
广告策略 | 16 | 9 | 0 | 13 | 2 | 3. | 10 | 1 | 13 | 1 | 2 |
日期(属性) | 21 | 6 | 0 | 16 | 0 | 5 | 6 | 0 | 21 | 0 | 0 |
一个真否定:手动和自动都没有找到符合标准的;真阳性:手动和自动均满足发现标准。
b假阴性:自动系统未发现符合标准,但人工审核符合;假阳性:自动系统确实发现标准满足,但人工审查不满足。
c在Web页面上检测到的标准与手动检查中指定的标准不同。
对于23个网站,自动化系统未能检测到标准与tfx的互补性,即使人工审查检测到了。在这种情况下,假阴性可以被解释为沉默,而假阳性则代表噪音。
自动HONcode检测的精度和召回。
标准 | 交通 | 的敏感性 | ||
|
精度 | 回忆 | 精度 | 回忆 |
权威 | 0.85 (11/13) | 0.52 (11/21) | 0.78 (7/9) | 0.33 (7/21) |
互补 | 1.00 (5/5) | 0.19 (5/26) | 1.00 (3/3) | 0.12 (3/26) |
隐私 | 0.88 (15/17) | 0.63 (15/24) | 1.00 (14/14) | 0.58 (14/24) |
引用(属性) | 0.63 (10/16) | 0.63 (10/16) | 0.75 (9/12) | 0.56 (9/16) |
合理性 | 0.42 (5/12) | 0.83 (5/6) | 0.19 (3/16) | 0.50 (3/6) |
详细联系方式 | 1.00 (10/10) | 0.39 (10/26) | 1.00 (18/18) | 0.69 (18/26) |
财务信息披露 | 0.80 (8/10) | 0.47 (8/17) | 0.50 (1/2) | 0.06 (1/17) |
广告策略 | 0.60 (3/5) | 0.19 (3/16) | 0.75 (3/4) | 0.19 (3/16) |
日期(属性) | 1.00 (5/5) | 0.24 (5/21) | 0.00 (0/0) | 0.00 (0/21) |
如Boyer和Dolamic所述[
使用句子和整个文档方法的隐私和日期标准(N=27)。
标准 | 手册,n | 自动化(tfc), n | |||||||||
|
|
文档 | 句子 | ||||||||
|
|
真正的一个 | 假b | 其他c | 真正的一个 | 假b | 其他c | ||||
|
|
- - - - - - | + | - - - - - - | + |
|
- - - - - - | + | - - - - - - | + |
|
隐私 | 24 | 1 | 14 | 9 | 2 | 1 | 0 | 21 | 2 | 3. | 1 |
日期(属性) | 21 | 6 | 0 | 15 | 0 | 6 | 0 | 11 | 1 | 6 | 9 |
一个真阴性:手动和自动均未找到符合标准的;真阳性:手动和自动均满足发现标准。
b假阴性:自动系统未发现符合标准,但人工审核符合;假阳性:自动系统确实发现标准满足,但人工审查不满足。
c在Web页面上检测到的标准与手动检查中指定的标准不同。
文件和句子的精度和召回自动HONcode检测。
标准 | 文档 | 句子 | ||
|
精度 | 回忆 | 精度 | 回忆 |
隐私 | 0.88 (15/17) | 0.63 (15/24) | 0.88 (22/25) | 0.92 (22/24) |
日期(属性) | 1.00 (6/6) | 0.24 (6/21) | 0.77 (20/26) | 0.95 (20/21) |
3名HONcode高级评审员对36个网站的每项HONcode标准进行了评估。使用百分比协议和Fleiss ' kappa来评估评分者之间的协议的结果[
评级者之间的协议,百分比与Fleiss kappa (κ)。
标准 | 同意百分比(%) | 弗莱斯的κ | 解释 |
权威 | 92.59 | .745 | 实质性的协议 |
互补 | 79.63 | -.113 | 可怜的协议 |
隐私 | 85.19 | .614 | 实质性的协议 |
引用(属性) | 88.89 | .756 | 实质性的协议 |
合理性 | 74.07 | .463 | 温和的协议 |
详细联系方式 | 95.37 | .471 | 温和的协议 |
财务信息披露 | 87.04 | .716 | 实质性的协议 |
广告策略 | 85.19 | .691 | 实质性的协议 |
日期(属性) | 79.63 | .492 | 温和的协议 |
自动化系统在检测“合理性”标准时表现最差。手工专家评审表明,27个网站中只有6个符合这一标准。当使用tfc权重时,自动化系统仅对1个网站检测到该标准(例如,精度为0.42,在不同页面上进行4次检测),并且对3个网站使用tfx(例如,精度仅为0.19)。此外,自动化系统返回了大量的假阳性:tfc和tfx分别为7和13。自动化系统在检测是否符合该标准方面表现不佳,原因可能是用于自动检测的训练自然语言处理算法的基准数据集对于该标准来说相当小(例如,只有872个文档可用)。在某些情况下,某些标准可能不适用于特定的网站。在这种情况下,网站符合HONcode,但标准证明将从集合中丢失。这代表了文档设置小的主要原因。
当自动系统在与专家标记的不同的网站页面上检测到标准满足时,额外的手动专家评审验证了系统这样做通常是正确的。例如,对于一个网站[
有一些特定的标准,比如“日期”,在这些标准中,自动化系统的性能会出乎意料地差。因此,本研究研究了另一种方法,以句子代替文件作为分类单位(
如在
该隐私标准对自动化系统和人类都很容易检测。在我们之前的研究中,隐私标准的自动检测精度超过92%,良好的召回率超过91% [
对于隐私标准,自动系统对tfc加权方案进行了15个正确的评分(24个网站符合这一标准)。其中14个是真正的阳性反应。它还在一个不同的页面上检测到标准满意度,而不是专家为一个网站指定的页面。有2个网站,自动系统错误地检测隐私为满意。对于9个网站,当人工专家检测隐私满意度时,自动化系统未能检测到。这种行为是意料之中的,因为我们的自动化系统经过调优,以减少可能产生的噪音(误报)。这里描述的结果加强了之前的隐私标准是自动化系统“容易”检测的推论。
将隐私标准的权重方案更改为tfx,可以获得表面上的性能增强。17个网站返回了正确的结果,没有错误的检测。这可能代表了研究结果的随机变化,也可能表明tfx方法可以更好地检测隐私标准的满意度。
在
在本次评估中,作者将自动HONcode符合性评估与高级HONcode专家进行的评估进行了比较。这样做会带来偏差。它假设专家从未不恰当地评估文件中是否存在HONcode原则满意度。尽管HONcode专家做出错误评估的可能性比其他评审员或其他自动化系统低,但我们认识到专家评估并不总是正确的,这可以从评分者之间的协议级别中体现出来。
本研究分析了自动HONcode标准符合性检测系统的有效性。在HONcode认证方面,共有27个完成状态不同的网站被纳入评估。研究结果表明,对于一些HONcode标准,自动和手动评估之间的一致性相对较高。然而,对于其他标准,手工方法明显更好。研究结果表明,通过对每个特定HONcode标准的未来研究“调整”自动检测系统可能会提高系统检测单个标准满意度的能力。研究结果还表明,纠正自动化系统中的少量技术问题,例如在显示此信息的页面上未检测到日期准则的问题,也可能提高未来的系统性能。合并第三方库或系统,这些库或系统已经证明了它们检测和提取此类信息的能力[
KHRESMOI项目试图开发一个专门满足公众需求的健康搜索引擎。" KHRESMOI for Everyone " (K4E) [
这项研究的另一个潜在结果是自动化检测系统的进一步发展,以协助进行HONcode认证过程。目前的手动HONcode认证过程是耗时的。尽管人工和自动化系统之间的一致性水平略低于3位专家的水平(例如,70%对95%的联系方式),作者估计HONcode自动检测系统可能提供第一次筛查;因此,有助于认证过程。总而言之,在互联网上识别高质量、值得信赖的卫生信息的未来将取决于具有微调标准匹配能力的先进搜索引擎的发展,这些搜索引擎可以引导用户找到可靠的卫生信息网站。
网上健康
KHRESMOI for Everyone
支持向量机
本研究在欧洲项目Kconnect的范围内进行,由该项目(2015-2018,项目号644753)资助,是欧洲项目KHRESMOI(2010-2014,项目号257528)的延续。
没有宣布。