这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
新冠肺炎疫情仍在全球蔓延。到目前为止,COVID-19疫苗是遏制传染和实现群体免疫的最有希望的措施。然而,公众接种疫苗的意愿并不理想。医疗专业人员和门外汉之间有明确的界限。虽然大多数专业人士积极推动疫苗接种运动,但一些非专业人士对COVID-19疫苗表现出怀疑、犹豫甚至反对。
本研究旨在采用文本挖掘方法来研究COVID-19疫苗背景下专业人员和外行之间的表达差异和主题差异。
我们从中国问答论坛知乎收集了关于COVID-19疫苗的65个过滤问题下的3196个答案。根据问题的内容和描述,将问题分为5类:不良反应、疫苗接种、疫苗有效性、疫苗的社会影响和疫苗开发。受访者还被手动分为两组:专业人士和外行。通过自动文本分析计算两组人的基本表情特征,包括回答长度、态度分布和高频词。在此基础上,采用主题建模家族中的前沿分支——结构主题建模(STM)对每个问题类别下的主题进行提取,并评估两组之间的主题差异。
在新冠疫苗相关的讨论中,外行人占主导地位。关于表达特征的差异,专业人员发表了更长的答案,并对疫苗有效性表现出比外行人更保守的立场。外行人更常提到国家,而专业人士则倾向于提出医学术语。STM在每个问题类别下都公开了突出的主题。统计分析显示,在其他国家,非专业人士更喜欢“中国疫苗的安全性”等与疫苗相关的话题。然而,专家们更关注COVID-19疫苗背后的医学原则和专业标准。在与疫苗的社会影响相关的主题方面,两组没有显着差异。
我们的研究结果表明,外行和专业人士在COVID-19疫苗问题上有一些共同点,但也有不同的关注点。这些不一致可以概括为视角上的“定性差异”,而不是科学知识上的“定量差异”。在这些与医学专业知识密切相关的问题中,“质性差异”的特征十分明显。这项研究以一种更微妙的方式促进了目前公众如何看待COVID-19疫苗的理解。基于网络的问答论坛是研究不同身份之间认知差异的一个富矿。在统计测试不同群体的话题偏好方面,STM在传统的话题建模方法中表现出了独特的优势。公共卫生从业者应敏锐地意识到专业人士与非专业人士之间的认知差异,并特别关注群体间存在明显不一致的话题,以建立共识,有效地促进疫苗接种。
截至2021年4月23日,全球新冠肺炎确诊病例超过1.4亿例,死亡病例近310万例[
基于web的通信为广大受众提供了方便和经济的访问,并实现了互动性和协作性内容共享[
认识到互联网的显著特征,卫生专业人员广泛关注利用互联网开展卫生运动、传播卫生知识和促进行为改变[
综上所述,在互联网上搜索和交换健康信息是当今社会的普遍现象;在基于网络的健康交流环境中,专业人士和非专业人士都是至关重要的角色。互联网具有成本低、接入方便、覆盖面广、互动性强等突出优势,为广大公众分享健康关切、寻求健康支持、增进健康知识、相互沟通提供了便利。同时,专业人员可以在互联网上开展健康教育和干预措施。对于公共卫生研究人员来说,可以利用多样化的互联网平台来调查对各种健康相关问题,特别是紧急问题的不同看法和表达。
对于专业人士和外行之间的分歧,一种根深蒂固的思想强调了知识鸿沟,这保留了一种固有的假设,即外行在知识水平上落后于专业人士。专业人士通常被定义为通过刻意的训练和实践而获得某一特定学科的特殊知识或技能的人,而外行通常缺乏正式的训练或实际经验[
作为一种笼罩在不确定性中的疫苗,全球社会充斥着对COVID-19疫苗安全性的怀疑和辩论[
另一个方面是态度。根据知识赤字模型,非专业人士对创新技术的怀疑可以归结为他们在科学知识方面的不足[
作为互联网技术最蓬勃发展的分支之一,社交媒体被投入了大量不引人注目和自然的数据[
基于上述讨论,本研究旨在探讨专业人士和非专业人士在社交媒体上对COVID-19疫苗的表达差异。这一研究主题至关重要,因为它为了解专业人员和非专业人员之间的认知差异提供了基础,从而为在这两个群体之间设计有效的沟通策略提供了见解,以促进COVID-19疫苗接种的合规性和覆盖率。此外,系统考察外行和专业人士之间表达方式的研究有限[
鉴于中国在之前的研究范围中知名度较低,我们将研究重点放在了中国。中国是最早受到新冠肺炎疫情严重影响的国家之一。中国政府采取了一系列严格防控措施,在较短时间内控制住了疫情;所谓“中国抗疫模式”,为其他国家应对全球卫生危机树立了榜样[
我们选择了一个基于网络的问答论坛来收集研究数据。乎(
为了获得尽可能全面的数据,其中一名作者设计了Python脚本,将知乎上关于COVID-19疫苗最相关、最活跃的话题“COVID-19疫苗”下的所有问题(包括扩展问题描述)及其相应的答案数量进行抓取。由于一些问题得到的回答很少,我们排除了答案少于10个的问题。接下来,我们采用另一个自己编写的Python脚本来收集每个回答的具体内容以及每个受访者的公开资料。内容作为当前研究的核心语料库,而公共档案则用于确定受访者的身份类别。最后,保留65个问题进行后续分析,其中3196个问题的答案。
采用人工编码的方法区分两种身份,对65个保留问题进行分类。根据《韦氏词典》,专业人士可以被定义为符合某一专业的技术或道德标准的人[
对于保留的65个问题,进行65次组间比较是不成立的。换句话说,在每个问题下比较专业人士和非专业人士的表情是不明智的,因为通过反复的小规模分析很难得出具有代表性和系统的结论。因此,我们对这些问题进行分类,找出它们之间的一些共同的潜在特征。根据以往的经验[
质疑类别及其含义。
类别 | 意义 |
不良反应 | 询问人类对COVID-19疫苗的任何意外或危险反应 |
疫苗接种 | 询问COVID-19疫苗接种计划、安排、意图和现状 |
疫苗的有效性 | 询问个体的生理反应,例如特定类型的COVID-19疫苗的有效性和成功迹象,或候选疫苗之间的疗效比较 |
疫苗的社会影响 | 询问COVID-19疫苗的出现和使用的社会后果,例如COVID-19疫苗是否可以实现群体免疫 |
疫苗开发 | 询问COVID-19疫苗开发过程的细节,如3个试验阶段的性能指标 |
我们选择了传统的内容分析和自动文本分析作为我们的研究方法来解决两个提出的研究问题。传统的内容分析旨在通过人工编码来区分每个受访者的身份。在试点编码阶段,三位作者按照上述指定的标准对50名随机抽样的受访者进行编码。编码器间的可靠性达到了理想状态(Krippendorff
由于大量的答案,我们利用自动文本分析来有效地分析语料库。自动文本分析是一系列自然语言处理方法的广义术语,包括但不限于频率分析、共现分析和主题建模[
在主题分析方面,我们利用主题建模来探讨两种身份的主题差异。主题建模可以研究给定文本集合中隐藏的主题结构[
第一个研究问题是关于专业人士和外行之间的表达差异。给定5个预定义的问题类别,我们检查每个问题类别下的所有答案,并进行统计分析(
与专业人士的回答相比,外行人士的回答更为普遍(
专业人士和非专业人士在5个问题类别下发表的关于COVID-19疫苗的回答数(N=3196)。
问题类别 | 答案,n (%) | |
|
||
|
专业 | 68 (9.54) |
非专业人员 | 645 (90.46) | |
|
||
|
专业 | 104 (10.83) |
非专业人员 | 856 (89.17) | |
|
||
|
专业 | 76 (18.23) |
非专业人员 | 341 (81.77) | |
|
||
|
专业 | 25 (9.54) |
非专业人员 | 237 (90.46) | |
|
||
|
专业 | 129 (15.28) |
非专业人员 | 715 (84.72) |
专业人士和非专业人士在5个问题类别下的回答长度(N=3196)。
问题类别 | 字数,平均(SD) | |
|
||
|
专业 | 454.12 (674.09) |
非专业人员 | 251.83 (806.92) | |
|
||
|
专业 | 510.67 (1191.63) |
非专业人员 | 225.97 (482.32) | |
|
||
|
专业 | 937.03 (2408.93) |
非专业人员 | 310.80 (619.62) | |
|
||
|
专业 | 765.52 (1310.93) |
非专业人员 | 200.10 (331.42) | |
|
||
|
专业 | 815.60 (1345.11) |
非专业人员 | 266.18 (609.15) |
专业人士和非专业人士对COVID-19疫苗5个问题类别态度分布(N=3196)。
问题类别 | 态度积极的回答,n (%) | 态度中立,n (%) | 持否定态度的回答,n (%) | ||||
|
|||||||
|
专业 | 21日(30.88) | 28日(41.18) | 19日(27.94) | |||
非专业人员 | 209 (32.40) | 220 (34.11) | 216 (33.49) | ||||
|
|||||||
|
专业 | 46 (44.23) | 28日(26.92) | 30 (28.85) | |||
非专业人员 | 339 (39.60) | 276 (32.24) | 241 (28.15) | ||||
|
|||||||
|
专业 | 38 (50.00) | 13 (17.11) | 25 (32.89) | |||
非专业人员 | 170 (49.85) | 97 (28.45) | 74 (21.70) | ||||
|
|||||||
|
专业 | 10 (40.00) | 6 (24.00) | 9 (36.00) | |||
非专业人员 | 96 (40.51) | 67 (28.27) | 74 (31.22) | ||||
|
|||||||
|
专业 | 53 (41.09) | 49 (37.98) | 27日(20.93) | |||
非专业人员 | 336 (46.99) | 219 (30.63) | 160 (22.38) |
5个问题类别下专业人士和非专业人士的高频词汇。
问题类别 | 高频词汇一个 | |
|
||
|
专业 | RNA,辉瑞制药,不良反应,死亡,美国,副作用,临床试验,注射,灭活疫苗,数据 |
|
非专业人员 | 美国,中国,辉瑞,冠状病毒,RNA,死亡,日本,注射,不良反应,国家 |
|
||
|
专业 | 冠状病毒、人群、免疫、感染、临床试验、抗体、国家、不良反应、疾病、紧急情况 |
|
非专业人员 | 冠状病毒,俄罗斯,美国,国家,中国,人群,注射,临床试验,感染,研发 |
|
||
|
专业 | RNA,冠状病毒,数据,蛋白质,有效率,感染,细胞,免疫,灭活疫苗,技术 |
|
非专业人员 | RNA,中国,冠状病毒,数据,灭活疫苗,美国,印度,技术,生产,蛋白质 |
|
||
|
专业 | 冠状病毒,数据,临床试验,科兴,感染,进入市场,中国,症状,有效率,国家 |
|
非专业人员 | 国家,冠状病毒,价格,中国,研发,控制,国内,美国,免费,人群 |
|
||
|
专业 | 临床试验,冠状病毒,RNA,实验,研究,研发,中国,感染,临床,数据 |
|
非专业人员 | 美国、中国、RNA、冠状病毒、研发、国家、孕妇、实验、感染、公司 |
一个列出了10个使用频率最高的单词,并将这些单词从中文翻译成英语。一些汉语单词对应一个以上的英语单词。
此外,统计分析显示,积极的态度主导了关于COVID-19疫苗的讨论(
从2个用户群体的高频词来看,外行提到国家的频率明显更高(如:
第二个研究问题探究了5类身份下属于2种身份的潜在主题及其可能的主题差异。为了进行准确而可靠的估计,我们利用数据驱动方法来选择主题的数量,这是stm包中的内置函数[
根据先前使用STM的研究[
知乎新冠肺炎疫苗问题下的问题分类及其相关主题。
在“不良反应”问题类别下,专业人员和外行之间的主题差异。
在“疫苗接种”问题类别下,专业人员和外行之间的主题差异。
在"疫苗效力"问题类别下,专业人员和非专业人员之间的专题差异。
在"疫苗的社会影响"问题类别下,专业人员和非专业人员之间的专题差异。
"疫苗开发"问题类别下专业人员和非专业人员之间的专题差异。
这项研究旨在解开专业人士和外行之间的表达差异在一个有点有争议的问题的背景下。据我们所知,这是少数采用STM来分析这两个用户群体之间主题差异的研究之一,这超越了以往主要依赖手工注释方法的研究[
根据我们的主要发现,第一个引人注目的发现是外行积极参与COVID-19疫苗问题。这一现象在一定程度上证实了之前关于社交媒体的传播促进作用的观点。布罗萨德(
除了外行的广泛参与,我们的研究还揭示了两个用户群体之间的额外表达差异。首先,专业人士的平均回答长度比外行人要长。在专业知识和实践经验的支持下,专业人士可能会结合各种证据来阐述他们的观点。COVID-19疫苗主题尤其如此,因为COVID-19是典型的“突然和意外事件”[
我们的研究结果还表明,专业人士和非专业人士从不同的角度分析了COVID-19疫苗问题。与文献综述相呼应的是,公共卫生领域和科学传播领域长期存在的一个猜测是,外行人对科学评估的风险认知总是不足[
在疫苗的社会影响方面,作为一个与医学知识联系不密切的类别,两个用户群体没有表现出显著差异。这一发现表明,专业思维模式和实验思维模式在遇到抽象问题时失去了解释力。COVID-19疫苗的社会影响可能是广泛而复杂的,涉及广泛的社会层面。因此,专业人士或非专业人士很难只强调一种模式。结合两个用户群体话题的相似性和不一致性,我们得出结论,除了重叠之外,网络问答论坛的“质的不同”特征也普遍存在,这反映了来自知识背景和生活经验的不同视角。在COVID-19疫苗的背景下,医学相关问题对“质的不同”特征的影响更敏感,而更广泛和抽象的问题似乎不受这一特征的影响。
我们的分析有几点需要注意。就问题类别而言,COVID-19疫苗是一个多方面、错综复杂、取决于具体情况的问题,涉及许多方面[
这项研究概述了意见模式,并详细审查了专业人士和外行对COVID-19疫苗的表达差异。从数量上看,知乎网络问答论坛的讨论者以外行居多。在表达差异方面,专业人士比外行人更喜欢写出较长的答案;他们还对疫苗的有效性表现出保守的态度,并倾向于在讨论中提及医学术语。通过发挥STM的力量,作为无监督机器学习下的一种有价值的工具,我们概述了每个问题类别下的主题,以及两组的主题偏好。总之,专业人士更关注新冠疫苗话语中蕴含的医学原则和专业标准。相比之下,外行人则明确表示关心国家和全球层面的疫苗相关问题,以及中国制造的疫苗的安全性。这两个用户组在COVID-19疫苗方面有一些共同点,并表现出不同的担忧。
我们认为本研究具有一定的意义和价值。首先,公共卫生学者应该敏锐地意识到网络问答论坛上的表达和讨论,这在以前的信息监测或信息流行病学研究中被相对忽视[
问题类别和对应的问题及其答案的数量。
利用语义一致性和剩余涨落确定每个问题类别下的主题数(k)。
每个问题类别下的主题、主题含义和相应的关键字。
调整后的剩余
频率和排他性
问答
结构化主题建模
作者在此感谢陈安凡博士(香港中文大学博士后研究员)在研究初期提出的建设性建议。
没有宣布。