这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
搜索引擎提供健康信息框作为搜索结果的一部分,以解决常见搜索症状的信息缺口和错误信息。以前很少有研究试图了解寻求健康症状信息的个人如何在搜索引擎结果页面上浏览不同类型的页面元素,包括健康信息框。
使用真实的搜索引擎数据,本研究试图调查用户使用必应搜索常见健康相关症状时如何与健康信息框(信息框)和其他页面元素交互。
2019年9月至11月期间,美国用户在微软必应上查询了17种最常见的医疗症状,收集了搜索样本(N= 28552个独立搜索)。使用线性和逻辑回归研究了用户所看到的页面元素、它们的特征和花在元素或点击上的时间之间的关联。
根据症状类型,搜索次数从55次抽筋到7459次焦虑。搜索常见健康相关症状的用户看到的页面包含标准的网页结果(n= 24034, 84%)、分项的网页结果(n= 23354, 82%)、广告(n= 13171,46%)和信息框(n= 18215,64%)。用户在搜索引擎结果页面上平均花费22秒(SD 26秒)。查看所有页面元素的用户在信息框上花费了25%(7.1秒)的时间,在标准网页结果上花费了23%(6.1秒)的时间,在广告上花费了20%(5.7秒)的时间,在分项网页结果上花费了10%(10秒)的时间,与其他元素相比,在信息框上花费的时间明显更多,而在分项网页结果上花费的时间最少。信息框的特征,如阅读的容易程度和相关条件的出现,与信息框上的时间较长有关。尽管信息框的特征与标准网页搜索结果的点击无关,但信息框的特征,如阅读便利性和相关搜索,与广告点击呈负相关。
与其他页面元素相比,信息框最受用户关注,其特征可能会影响未来的网络搜索。未来的研究需要进一步探索信息框的效用及其对现实世界健康寻求行为的影响。
通用的互联网搜索引擎是大多数人遇到健康症状并寻求相关信息的第一站[
健康信息框(信息框),也被称为健康知识图表框、信息卡或任务窗格,大约10年前在主要搜索引擎上创建——2010年在必应创建,2012年在谷歌创建[
以前很少有研究试图了解寻求健康信息的个人如何浏览serp及其各种页面元素,如标准搜索结果、广告或视频(例外包括[
尽管信息框存在已久且无处不在,但只有一项研究研究了信息框的作用。鲁道夫等人的一项研究[
典型的搜索引擎结果页面的“头痛”显示多个页面元素,包括信息框,广告,逐项的网页结果,和标准的网页结果。
本研究旨在调查用户使用必应搜索常见健康相关症状时,如何与信息框和其他页面元素交互,这些信息框和其他页面元素使用的是从匿名必应用户收集的真实数据。正在调查的研究问题是,信息框中显示的关于健康症状的策划内容是否会影响Bing用户的健康寻求行为,以及信息框和其他页面元素在serp中被关注和使用的程度与其他页面元素进行了比较。
我们列出了2019年9月至11月期间美国用户在必应上查询的19种最常见的医疗症状,这些症状来自维基百科先前研究中汇编的195种症状。
为了获取这些症状的搜索样本,提取了2019年9月期间美国在必应上进行的症状搜索的识别数据。我们还提取了关于用户与搜索结果页面交互的信息(这将在下一段中更详细地解释)。我们的样本由对17种症状的33,872次搜索组成,包括28,552个独立用户。我们将我们的样本限制在用户的第一次搜索,以便有一个样本,其中每个搜索是独立的。因此,28,552项搜索被纳入分析,并构成最终样本。搜索中的症状分布显示在
关于每个用户的搜索相关信息包括:在SERP上显示给用户的页面元素,在SERP上单击任何显示的元素,以及鼠标指针在每个元素上花费的时间,之前显示为注意标记[
所分析数据集中每个症状的搜索次数。
症状 | 搜索次数 |
焦虑 | 6686 |
背部疼痛 | 1576 |
出血 | 136 |
便秘 | 2558 |
咳嗽 | 674 |
抽筋 | One hundred. |
抑郁症 | 5485 |
腹泻 | 5784 |
发热 | 899 |
头疼 | 682 |
痒 | 395 |
疼痛 | 1371 |
麻痹 | 295 |
皮疹 | 927 |
肿胀 | 236 |
地震 | 345 |
伤口 | 403 |
总计 | 28552年 |
一个典型的SERP具有以下页面元素:广告,由外部方创建,只要点击就付费;健康信息框或“信息框”,其中包含bing管理的健康信息;算法搜索结果显示在两个区域——一个包含由几句文字或片段描述的标准网络结果,另一个包含带有信息摘要的逐项网络结果。标准的网页结果的排名是基于预测的结果最相关(rank=1在页面的最高位置)和最不相关(rank=8),尽管不是所有的结果都可以显示在第一页。
此外,典型的SERP可能有一个顶部框,它通过提供更集中的搜索选项或提供字典定义等信息来帮助消除用户意图的歧义。页面上有时显示的其他元素包括视频结果和新闻。然而,由于这些元素(即顶部框、视频元素和新闻)的数据不容易提取,因此这些页面元素被排除在我们的分析之外。因此,我们将分析限制在以下页面元素:广告、信息框、标准网页结果和逐项网页结果。值得注意的是,对于给定的搜索,并不是所有的页面元素都显示给每个用户,显示的结果可能取决于浏览器窗口大小等因素。
我们手动编码了与这些常用搜索症状相关的信息框的特征。为了显示用于编码的信息框,使用Microsoft Explorer网络浏览器在Bing搜索引擎中输入症状名称,并打开一个新的私有(即隐身)窗口。信息框的编码是为了便于阅读(使用Flesch reading ease分数,在0-100的范围内得分越高,表示阅读越容易)。它们还被编码为信息框是否显示相关搜索(例如,常见原因和治疗)或提供相关条件的信息。
此外,我们还手动编码了广告的特征和标准搜索结果。为此,2019年9月,与每种症状相关的20个最常显示的广告和搜索结果由一名编码员识别并手动编码。广告和搜索结果根据阅读水平进行评分(使用Flesch reading Ease评分),并根据所提供的信息类型进行编码(例如,信息或产品广告)。随机抽取50个广告和50个网页结果的子样本,由另一个编码员独立编码信息类型——最主观的编码。
用户对页面元素的参与度是通过在每个页面元素(如广告、信息框、分项网页结果和标准网页结果)上花费的时间来衡量的,以及分项网页结果和标准网页结果是否被点击。时间是通过监测用户的鼠标指针是否停留在一个元素[
描述性统计数据用于用户粘性指标(例如,在页面元素上的时间和在页面元素上的点击量)。线性回归用于分析花在页面不同元素上的时间之间的相关性,作为页面上显示的元素的函数。使用逻辑回归分析页面特征、信息框特征、标准网页结果特征和(分别)点击标准网页结果或广告的广告之间的关联。该分析是在标准网页结果或广告的层面上进行的。我们没有分析分类网页结果的点击量,因为点击量是最不常见的。我们没有分析信息框的点击量,因为很多信息框都没有链接,因此点击量很少。
对于分析的子样本,编码员之间的kappa统计数据对于广告中的信息类型(κ=0.60)和标准web结果(κ=0.44)的一致程度一般都很好。在分析的28552个独特个体的症状搜索中,根据症状类型的搜索数量从55次搜索抽筋到7459次搜索焦虑。搜索症状的用户遇到具有多个页面元素的serp,包括标准web结果(n= 24034, 84%)、分项web结果(n= 23354, 82%)、广告(n= 13171,46%)和信息框(n= 18,215,64%;
当页面的所有4个元素(即信息框、广告、逐项网页结果和标准网页结果)都显示给用户时,41%(2039)的用户会继续点击SERP中的某些元素,其余的人则没有点击任何东西。用户点击标准网页搜索结果的次数最多(n= 4612, 19%),点击广告的次数占12% (n=1633)。他们点击分项网站结果的次数最少(n= 17988%)。
平均而言,一旦结果显示给用户,用户花在SERP上的时间为22秒(SD=26), 24% (n=1182)的时间为30秒或更多。作为
通过人工编码,发现信息框具有以下特征:信息框的Flesch Reading Ease平均得分为46 (SD为17;范围6 - 69);76% (n=13)的信息框显示了症状的常见原因和治疗方法;信息框包含了71% (n=12)病例的相关条件列表,并且除了一种症状(腹泻)外,所有症状都显示了相关搜索;信息框中信息最常见的数据源(如信息框中所述)是Focus Medica (n=14),其余的引用维基百科作为他们的数据源(n=3)。
花费在信息框上的时间使用线性回归建模,作为信息框编码特征的函数。模型拟合为
从…中可以看出
显示更多的广告与更多的广告点击相关,但与点击标准的网页结果无关,而显示更多标准的网页结果与更少的这些结果或广告点击相关。带有信息内容的标准网页结果不太可能被点击。
症状搜索期间的页面元素统计信息(N=28,552)。
页面元素 | 对用户可见,n (%) | 点击可见元素,n (%) | 所花费的时间(显示所有元素时),秒(%) |
广告 | 13171 (46) | 1633 (12) | 5.7 (20) |
信息框 | 18215 (64) | N/A一个 | 6.1 (25) |
逐项的网页结果 | 23354 (82) | 1798 (8) | 2.7 (10) |
标准网页结果 | 24034 (84) | 4612 (19) | 7.1 (23) |
一个N/A:不适用。信息框通常不被点击,因此,这个数字没有给出。
预测花在页面不同元素上的时间的模型,作为页面上显示的元素的函数。所示数字为模型斜率。
页面元素 | 模型 |
元素所示 | |||
|
|
广告 | 信息框 | 逐项的网页结果 | 标准网页结果 |
广告 | 0.001 | - - - - - -一个 | -0.020b | -0.700 | -0.012b |
信息框 | 0.037 | 1.413 | - - - - - - | 1.654 | 2.189 |
逐项的网页结果 | 0.009 | 0.495 | 0.734 | - - - - - - | -0.343 |
标准网页结果 | 0.014 | 1.143 | 0.961 | 2.121 | - - - - - - |
一个不适用。
b斜率在统计上不显著(在
在显示信息框(信息框)的情况下,对单个标准web结果和单个广告的点击的逻辑回归模型。
特征 | 标准的网页结果(n=23,776),或一个(95%置信区间) | Ads (n=16,667), OR (95% CI) | |
|
|||
|
信息框显示相关条件 | 1.281 (1.053 - -1.557) | 1.331b(1.107 - -1.599) |
信息框显示相关搜索 | 0.985 (0.839 - -1.156) | 0.634b(0.559 - -0.718) | |
信息框的阅读方便 | 0.997 (0.994 - -1.000) | 0.996b(0.994 - -0.998) | |
|
|||
|
广告的排名 | 1.007 (0.983 - -1.031) | 0.988 (0.973 - -1.005) |
显示的广告数量 | 1.015 (0.998 - -1.032) | 1.058b(1.031 - -1.086) | |
显示的分项网页结果的数量 | 0.989 (0.956 - -1.023) | 0.928 (0.874 - -0.984) | |
显示的标准网页结果的数量 | 0.901b(0.884 - -0.918) | 0.881b(0.862 - -0.901) | |
花在广告上的时间 | 1.009b(1.005 - -1.013) | 0.999 (0.994 - -1.003) | |
花在信息框上的时间 | 0.995 (0.989 - -1.000) | 0.996 (0.988 - -1.003) | |
花在分项的网页结果上的时间 | 0.997 (0.990 - -1.004) | 1.007 (0.999 - -1.016) | |
花在标准网页结果上的时间 | 0.992 (0.986 - -0.997) | 1.004 (0.999 - -1.009) | |
|
|||
|
信息类型(信息性) | 0.789b(0.693 - -0.899) | 0.905 (0.785 - -1.044) |
元素阅读便捷性 | 1.000 (0.999 - -1.002) | 1.002 (1.000 - -1.004) | |
花在标准的网页结果或广告上的时间 | 1.023 (1.005 - -1.041) | 1.005 (0.999 - -1.009) |
一个OR:优势比。
b比率具有统计学意义(在
对于出现健康症状的人来说,搜索引擎已经成为初步理解这种经历的主要方式。
这项对28552名搜索17种常见症状的必应用户的研究发现,用户最常搜索的是焦虑信息,最不常搜索的是抽筋信息。在进行这些搜索时,用户平均花费22秒观察SERP,并遇到包含广告、标准网页结果、逐项网页结果和信息框的复杂组合的SERP。标准的网页结果和分项的网页结果在serp中最常见,广告和信息框出现的频率相对较低,大约有一半的时间。在用户所看到的内容中观察到的差异可能是因为他们的特定搜索,他们用来浏览它们的设备(例如,屏幕大小的差异,屏幕越小显示的内容元素越少),以及用户行为,在用户没有向下滚动到该元素的位置的情况下。
当SERP的所有页面元素都是可见的(即信息框、广告、标准网页结果和逐项网页结果)时,用户花最多的时间观察信息框。这是第一个真实世界的证据,表明信息框正在实现其设计目的,即以比标准web结果更用户友好的格式显示健康信息。用户可能更喜欢信息框而不是其他类型的SERP元素,因为它们简化了信息并管理信息过载。
此外,研究发现信息框的特征与点击广告的可能性降低有关,但它们对标准的网页搜索结果没有影响。这意味着一个设计良好的信息框——阅读方便度更高,并显示相关搜索——可能会降低那些搜索健康症状信息的人被引导到商业网站的可能性。因此,信息框的设计师可能希望仔细考虑他们的设计元素,并确保阅读水平尽可能低。此外,考虑到它们的重要性,搜索引擎公司可能希望与用户预先测试它们的内容或测试变体,以优化它们。
这项研究的优势在于,它提供了关于搜索引擎上的症状搜索以及用户如何与信息框交互的第一个真实数据。它包括真实世界的刺激和来自真实用户在必应上搜索的数据。由于这项研究是同类研究中的第一项,因此需要未来的研究来证实这些发现,并通过检查serp对症状搜索的实际影响来进一步研究这些发现。例如,研究可以检查信息框如何影响未来的决策,即是否寻求医疗保健或寻求各种治疗方案。
本研究的缺点包括以下方面:尽管我们能够从serp中检查多个页面元素,但我们无法访问呈现给用户的页面元素类型;例如,我们无法访问简化搜索的顶部框或显示给用户的视频中的数据;未来的研究应努力包括这些其他数据类型。此外,调查的17种症状的列表是从维基百科汇编的195种症状的较长列表中生成的,这可能不如其他类型的症状数据(如人口水平的调查数据)可靠。
用于症状搜索的serp通常包括用户参与的信息框。信息框的特征可能会影响未来的网络搜索。未来的研究需要进一步探索信息框的效用,如何优化它们,以及它们对现实世界寻求治疗行为的影响。
搜索引擎结果页面
作者要感谢Megan Hatheway对手动编码搜索结果的帮助。
EYT是微软的雇员,Bing的所有者。LCA声明没有利益冲突。