医学互联网研究杂志——医生性别、患者风险和网络评论:医生性别与其网络评论之间关系的纵向研究

原始论文

¹美国阿拉巴马州塔斯卡卢萨大学信息系统、统计和管理科学系

²美国奥本大学系统与技术系

通讯作者:

Matthew Hudnall博士

信息系统、统计和管理科学系“，

阿拉巴马大学

大学大道801号

塔斯卡卢萨，AL, 35487-0290

美国

电话:1 205 348 0856

电子邮件:matthew.hudnall@ua.edu

背景:自2010年代初以来，基于网络的医生评论在医疗保健消费者中变得非常流行。可能影响这些评论的一个潜在因素是医生的性别，因为医生的性别已经被发现会影响医患沟通。在考虑了几个重要的临床因素(包括患者风险、医生专业和时间因素)后，我们的研究是首次使用时间固定效应进行严格的纵向分析，以研究医生性别对其评论的影响。此外，这项研究是首次使用阿拉巴马州的全州数据研究基于网络的评论中可能存在的性别偏见，阿拉巴马州是一个主要的农村州，医疗补助和医疗保险使用率很高。

摘要目的:本研究利用阿拉巴马州的数据，在考虑了患者风险和时间影响后，对医生性别和他们的网络评论之间的关系进行了纵向实证调查。

方法:我们通过结合来自流行的医生评论网站RateMDs的基于网络的医生评论数据，以及来自阿拉巴马州医疗保险和医疗补助服务中心的临床数据，创建了一个独特的数据集。我们使用纵向计量经济学规范进行计量经济学分析，同时在四个评级维度(帮助性、知识、员工和准时性)控制几个重要的临床和回顾特征。总体评分和来自RateMDs的这四个评分维度被用作因变量，在我们的面板回归模型中，医生性别是关键的解释变量。

结果:用于进行主要计量经济学分析的小组包括1093名医生。在控制了几个临床和回顾因素后，医生随机效应规范显示，男性医生比女性医生获得更好的网络评分。系数和相应的SEs和P二进制变量的值GenderFemale(女医生1分，其他为0分)，不同评价变量的结果如下:OverallRating(系数-0.194,SE 0.060;P=措施),HelpfulnessRating(系数-0.221,SE 0.069;P=措施),KnowledgeRating(系数-0.230,SE 0.065;P<措施),StaffRating(系数-0.123,SE 0.062;P= .049)PunctualityRating(系数-0.200,SE 0.067;P= .003)。负系数表明男性医生相对于女性医生对上述评级变量的偏向。

结论:这项研究发现，即使考虑到与医生和时间效应相关的几个临床特征，女医生获得的网络评分也比男医生低。尽管系数的大小GenderFemale比较小，有统计学意义。本研究为现有医疗保健文献中性别偏见的发现提供了支持。我们利用阿拉巴马州的数据进行了一项研究，并使用纵向计量经济学分析，同时纳入了与医生相关的重要临床和回顾控制，从而为现有文献做出了贡献。

中国医学杂志，2018;24(4):e31659

doi: 10.2196/31659

关键字

基于网络的医生评论；性别；性别偏见；病人感觉；阿拉巴马州；病人的风险

背景

在过去的20年里，基于网络的医生评论在医疗保健消费者或患者中越来越受欢迎。一些流行的基于网络的医生评论网站的例子是RateMDs [1]、生命体征[2]，以及健康等级[3.］．随着美国的医疗保健领域变得更加以患者为中心，这些评论的重要性得到了增强。病人越来越多地参与管理自己的卫生保健。虽然评论网站最初在某些人群中很受欢迎[4]，随着时间的推移，它们在相当一部分患者群体中获得了显著的普及。事实上，最近一项关于网络医生评论的调查发现，大约95%的受访者认为网络评论是比较可靠的或非常可靠的，大约70%的受访者表示，他们对医生的选择受到网络医生评论网站评分或评论的影响[5］．

在过去的10年里，关于基于网络的医生评论的文献一直在增长。使用来自美国和其他国家的数据，许多研究调查了基于网络的医生或医院评论的内容和价值，以及可以解释它们差异的因素[6-15］．该文献的一个子流检查了临床结果或医生的表现与他们的网络评论之间的关系。结果好坏参半[13］．一些研究发现，在医生的临床表现和他们的网络评论之间存在统计学上的显著关联[16-18］．另一方面，一些研究发现，临床实践或结果更好的医生并没有收到更好的网络评论[19-21］．

另一个分支研究了基于网络的医生评论对患者选择的影响。医疗保健研究人员和从业人员对医疗保健消费者对基于网络的医生评论的认识非常感兴趣[22］．一些研究调查了基于网络的医生评论是否会影响患者的选择，以及这些评论的某些特征是否会影响患者的选择。这些研究发现，高评论数量和高评论效价与患者对被评级的医生及其选择的更积极态度有关[23-25］．

其他调查也表明，人们越来越依赖于基于网络的医生评论[26］．这些基于网络的评论调查还显示，相当一部分患者会查看医生的网络评论，即使他们是由他们的医疗保健提供者推荐给这些医生的。总的来说，这些发现揭示了基于网络的医生评论在患者或医疗保健消费者中变得突出的程度。

由于基于网络的医疗保健信息，包括医生评论，是公开的，很容易获得，医疗保健提供者和研究界长期以来一直关注基于网络的医疗保健信息的质量和临床相关性[27］．卫生保健提供者和患者之间的互动会影响患者对他们的看法。反过来，这些意见可以变成基于网络的评论，任何人都可以在网上搜索他们的医生信息。

医生性别对患者沟通和患者选择医生的影响一直是研究人员的兴趣所在。现有文献发现，女医生更倾向于以患者为中心的沟通[28-30.]，她们的评分也不如男性同行高[31，32］．也有人提出，医生和病人之间的关系可能会受到医生性别的影响，以及男性和女性医生对病人的不同期望[33-35］．在现有文献中，患者与不同性别的医生之间的交流和关系的动态受到了极大的关注[36，37］．

关于病人是否更喜欢男医生而不是女医生的问题，以及他们对医生的看法是否受到医生性别的影响，这些问题也得到了卫生保健专业人员和研究人员的大量关注。例如，在对185名患者的调查中，Fennema等[38调查发现，43%的女性和12%的男性更喜欢女医生，而31%的男性和9%的女性更喜欢男医生，而且喜欢男医生的患者表示，男医生的技术能力是他们更突出的特征。在另一项调查中，Kerssens等人[39调查没有发现女性受访者更喜欢某个性别的外科医生或麻醉师，但发现女性受访者更喜欢女医生作为妇科医生的比例为8.5:1，而喜欢全科医生的比例为2.32:1。在另一项对125名女性的调查中，普伦基特等人[40在选择妇产科医生时，医生的性别并不是最重要的因素。其中一些研究也试图确定可能导致他们的发现的机制。还有人呼吁提出建议，使医疗工作场所对女医生更为公平[41］．

随着基于网络的医生评论在患者或医疗保健消费者中的普及，一个自然而重要的问题是，“在考虑了患者风险和时间冲击(时间固定效应)后，医生的性别是否以及在多大程度上与他们的在线评论相关?”

经过对现有文献的仔细回顾，我们发现医生性别对基于网络的医生评论的潜在影响并没有得到足够的重视。在为数不多的几项调查医生性别与他们的网络评论之间关系的研究中，结果喜忧参半。例如，dunvin等人[32]和Thawani等人[42女医生得到的评价低于男医生。另一方面，Emmert和Meier [43女医生比男医生得到更好的评价。马雷罗等[44研究发现，女性外科医生在社交方面得到了更积极的评价，而男性外科医生在技术方面得到了更好的评价。显然，医生性别对他们的网络评论可能产生的影响，或缺乏影响，需要更彻底的研究。

在检查上述关系时，重要的是要以某种形式考虑患者的特征，如患者风险。同样重要的是，要考虑到随着时间的推移，评论的变化，以确定医生的性别和他们的网络评论之间的直接关系。包括患者风险使我们能够考虑在医生护理下的重要患者群体的健康特征。不控制这些特征可能会使结果产生偏差，因为医生的互动可能会受到患者现有健康状况的影响。因此，我们在控制患者健康风险的同时，研究了医生性别对基于网络的患者回顾的影响。

客观的

据我们所知，我们的研究是第一个在考虑了患者风险后，随着时间的推移，研究医生性别对其网络评论的影响的研究之一。此外，我们的研究是第一次使用阿拉巴马州的医生数据进行这样的调查，阿拉巴马州在基于网络的医生评论文献中很少受到关注。我们通过使用一个独特的数据集来完成我们的分析，这个数据集是通过结合来自一个流行的医生评论网站RateMDs的基于网络的医生评论的数据，以及来自阿拉巴马州医疗保险和医疗补助服务中心(CMS)的临床数据创建的。

伦理批准

这项研究不需要伦理委员会的审查或批准。为这项研究收集的所有原始数据都可以在网上公开获取。

数据

为了研究基于网络的医生评论对男性还是女性医生更有利，我们使用两个来源的数据构建了阿拉巴马州医生的面板数据集。在我们的研究中，分析单位是医生，小组中的时间周期是年。我们从RateMDs上收集了基于网络的评论和医生性别的数据，以构建我们从2012年到2018年的基于网络的评论数据集。我们使用Python (Python软件基金会)从RateMDs中收集数据。我们还从“医疗保险提供商使用和支付数据:医生和其他供应商”中获得了医生的临床数据[45]，时间跨度从2012年到2018年。我们结合了医生的名字、姓氏、专业和年份，将这些来源的数据进行了组合。我们最终的不平衡面板数据集有1093名匹配的医生，时间跨度为7年(2012年至2018年)，这两个数据集都匹配。在RateMDs数据集中，有5912名医生至少有一次评论，这些医生总共有大约26600次评论。在这5912名医生中，2673名(45.21%)医生至少有两年的复查。我们能够将40.89%(1093/2673)的医生与我们来自CMS的数据进行匹配，这40.89%(1093/2673)的医生构成了本研究中用于进行小组分析的小组。

我们最后一个小组中的每个医生都有一个唯一的国家提供者识别号码，这是从CMS收集来的。这确保了我们最后一个小组中的所有医生都是独一无二的。图1显示了我们数据集中来自RateMDs的医生的匿名评论选择。如图1在美国，医生可以在四个不同的维度(员工、准时性、帮助程度和知识)上获得数字评级。除了这些数字评分，医生还可以收到文本评论。在RateMDs上提供评论的日期也显示在图1．患者对RateMDs的评论和医生的可选回答都是免费的。RateMDs上有医生的付费等级，但不允许更改评论。付费级别允许医生获得新的评级通知，能够提供评级、预约请求、照片和其他功能，但没有付费功能会限制用户在网站上发布评论。

措施

当我们研究网络上对医生的评论对男性还是女性更有利时，我们使用RateMDs上的数字医生评分构建了因变量。RateMDs上的医生可以从四个方面进行评估:帮助性、知识、员工和准时性。每个维度的评分都在1到5的范围内，5分是最好的分数，1分是最低的分数。为了获取这四个维度的信息，我们构建了以下四个因变量:HelpfulnessRating，KnowledgeRating，StaffRating,而且PunctualityRating．HelpfulnessRating是一名医生在一年内对病人的帮助程度打分的平均值。同样的,KnowledgeRating，StaffRating,而且PunctualityRating分别是一名医生在知识、员工和准时性维度上获得的评分的平均值。为了获取这些维度的组合信息，我们构造了一个面板变量，OverallRating．为此，我们首先构造了一个变量NetRating使用上述四个维度的平均评分。然后，我们构建OverallRating的平均值NetRating在每一年，类似于我们建造的方式HelpfulnessRating，KnowledgeRating，StaffRating,而且PunctualityRating．

我们的关键解释变量是一个时不变变量，GenderFemale,女医生为1，男医生为0。我们从RateMDs上获得了医生的性别数据。我们还使用了几个控制变量来解释与医生相关的临床方面以及与数字相关的文本评论RateMDs评级。我们的控制变量包括RiskScore，TopicCare，TopicSurgery，TopicStaff,而且专业．

RiskScore为CMS使用医疗保险受益人数据计算的平均年度分级病情类别(HCC)风险评分[45］．HCC编码可以提供关于患者复杂性的信息和患者正在经历的医疗并发症的描述。HCC依赖于国际疾病分类第10版编码对患者进行风险评分[46］．一个有高智商的医生RiskScore医疗保险受益人的风险评分较高(支出高于平均水平)。这个变量使我们能够控制医生护理下的医疗保险患者的患者风险评分。由于医疗保险是美国最大的医疗保险公司或支付方之一，RiskScore帮助我们在医生的护理下计算出很大一部分患者人群的患者风险。

TopicCare是医生每年收到的主要主题是医生提供的护理的文本审查的比例。TopicStaff是主要的潜在主题是医生的办公室或工作人员的文本审查的比例。TopicSurgery以医生的手术熟练程度为主要主题的文献综述的比例。

为了构建这些主题(潜在主题)，我们使用了基于潜在狄利克雷分配(latent Dirichlet Allocation, LDA)的主题建模技术[47，48］．在现有的基于网络的产品和服务评论文献中，LDA已广泛用于主题建模，包括一些涉及基于网络的医生评论的研究[9，49-53］．下面几节简要描述了我们使用主题建模来构造前面提到的主题变量的主要步骤。我们使用R (R Foundation for Statistical Computing)进行主题建模。

我们在RStudio中使用R文本挖掘包(TM)创建了所有评论的语料库，之后我们将语料库转换为小写[54-56］．我们还替换了标点符号、数字和停顿词。我们是语料库允许我们将具有共同词根的词减少到词根，如护士而且护理到片段这个词孕育．接下来，我们创建document-term矩阵,根据每个文本注释来存储我们的文本注释语料库中词干词的频率。然后，我们利用LDA算法并使用R包(topicmodels)从文本注释中提取主题[57-59］．这些R包在前面提到的文献中被广泛使用，用于从文本数据构建潜在的主题或主题。对于每条评论，每个识别出的潜在主题或主题都有一个概率，每条评论的概率总和为1。我们根据概率最高的主题对每个评论进行分类。我们确定了三个目标潜在主题中最常见的单词，如所示文本框1．我们选择了这3个主题，因为这是我们可以用来清楚地分类文本审查中报告的医生及其工作人员的经验的最少数量的主题[20.，21］．文本框1显示与3个评论主题相关的最密切(概率)的词干词。

最突出的词(词干后)按主题。

TopicCare

关心，医生，员工，推荐，病人，时间，知识，帮助，朋友，爱，好奇，兴奋，倾听，超越，感受

TopicStaff

时间，办公室，医生，等待，员工，病人，任命，呼叫，护士，粗鲁，访问，日子，问题，时间和谈话

TopicSurgery

医生，手术，疼痛，护理，医生，生活，病人，治疗，建议，时间，日子，外科医生，程序，治疗，和感觉

文本框1。最突出的词(词干后)按主题。

在我们最后的面板数据集中，我们有来自34个专业的医生。医师人数最多的15个专科(按医师人数由高到低排列)为:普通科(家庭)、妇产科、内科、骨科、神经内科、耳鼻喉科、心脏病科、眼科及视光科、精神科、皮肤科、普通外科、足病科、泌尿科、内分泌科、风湿科。这15个专科的医生约占我们面板数据集中所有医生的85.73%(937/1093)。表S1多媒体附件1列出面板数据集中各专业的男性和女性医生的数量。医生的专长是时不变的二元变量。在考虑到每个专业中可能影响男女医生的许多不可观察的时不变临床方面后，控制专业使我们能够比较医生性别对其评价的影响。我们还通过纳入额外的临床回顾控制变量进行了进一步的稳健性检验。这些控制措施帮助我们将我们的研究与以往的研究显著区别开来。

分析

我们使用医师随机效应面板回归，以及年份固定效应来解释时间冲击。在本文的背景下，时间冲击可以被认为是一个事件或事件的集合，可以在一年内对医生产生全面的影响。例如，全州或全国范围的医疗保健政策变化可能会对不同专业的医生产生影响。由于分析使用的是面板数据，考虑这种时间冲击是很重要的。我们通过在回归规范中包含年份固定效应来做到这一点。我们使用Stata (StataCorp)进行计量分析。

我们使用医生随机效应模型而不是医生固定效应模型来估计医生性别的影响，原因如下:(1)我们的主要解释变量，PhysicianGender,是时不变的，医生的固定效应会包含PhysicianGender变量和(2)在我们的研究背景下，可以安全地假设医生的性别是随机分配的，因此，不太可能有未观察到的变量同时驱动或影响医生的性别和他们的网络评论。固定效应使我们能够解释医疗保健行业或基于网络的医生评论网站的时间冲击，这些网站可以影响整个阿拉巴马州的医生。所有面板回归规范中显示的SEs都是稳健的。为简洁起见，我们不报告系数、SEs和P不同专业的数值和年份的固定效应。的和TopicCare，TopicSurgery,而且TopicStaff等于1。在我们的规格中，TopicStaff是基本主题变量，因此不包括在回归中。其中一个专业和一个年份分别作为基础专业和基础年，因此没有包括在回归规范中。

描述性统计

图2显示了来自原始RateMDs数据集的男性和女性医生的评论数量在多年间的分布。该图表和后续数据是使用用于面板回归的CMS和RateMDs的1093名医生在我们的小组中创建的。我们的小组由2012年至2018年的7年时间组成，包括一组广泛的历史数据，这些数据也是相对最新的。如图2在我们的小组中，2014年的评论数量最多，而2018年的评论数量最少，在我们的小组中，所有年份都有大量的医生评论。

图3-7的年平均值OverallRating，HelpfulnessRating，KnowledgeRating，StaffRating,而且PunctualityRating对1093名来自RateMDs的男性和女性医生进行了调查。如图3，平均OverallRating男性医生的死亡率始终高于女性医生。在大多数年份里，男性医生在所有4个维度上的平均年度评分都更有利。这些数字所描述的时间趋势显示，对男性医生的评论比女性医生更有利。平均值差异的变化在这些数字中是可见的，并保证了对基于网络的评分的医生性别影响进行彻底的纵向调查。因此，我们对医生性别对其网络评分的影响进行了纵向或小组实证调查。如前所述，我们控制了与医生相关的几个临床和综述特征，通过这样做，我们分离了医生性别对其网络评分的直接影响。

表1显示各种因变量、主题控件和的描述性统计信息RiskScore控制。评价变量的平均值在3.5 ~ 3.6之间。在我们的研究小组中，大约25.34%(277/1093)的医生是女性。在阿拉巴马州，女医生约占医生总数的28.5% (3025/10,614)[60］．这表明，我们小组中医生性别的总体分布相当具有代表性。

表1。描述性统计(观察数=3446)。

变量	值，平均值(SD)	值,中位数	值,最小	值,最大
OverallRating	3.64 (1.43)	4.25	1	5
HelpfulnessRating	3.54 (1.65)	4.37	1	5
KnowledgeRating	3.74 (1.54)	5	1	5
StaffRating	3.69 (1.48)	4	1	5
PunctualityRating	3.60 (1.49)	4	1	5
TopicCare	0.41 (0.45)	0	0	1
TopicSurgery	0.27 (0.40)	0	0	1
TopicStaff	0.32 (0.42)	0	0	1
RiskScore	1.23 (0.41)	1.14	0.53	5.62

性别的影响

表2提供结果随机影响面板回归，与OverallRating作为因变量。我们在每个回归规范中纳入了医生专业作为对照和年份固定效应。每个规范的SEs都是稳健的。如表2，的系数GenderFemale是负的和统计上显著的，这意味着女医生往往比他们的男性同行得到更差的网络整体评级。的系数RiskScore在所有规范中均无统计学意义，这意味着治疗高风险医疗保险患者的医生往往不会比治疗低风险医疗保险患者的同行获得更好或更差的总体评分。的系数TopicCare而且TopicSurgery均为正的且具有统计学意义，这意味着收到以内科护理和外科方面为基本主题的评论占高比例的医生往往比收到以其办公室和员工为基本主题的评论占高比例的医生有更好的总体评分。在表3而且4，的系数GenderFemale是否有统计学意义HelpfulnessRating，KnowledgeRating,而且PunctualityRating,但不是为了StaffRating．

的系数RiskScore在四个评价维度中均无统计学意义，而TopicCare而且TopicSurgery均为阳性且有统计学意义。的系数的大小GenderFemale接近0.2。这意味着，平均而言，女医生的评分比男医生低0.2分。例如，平均而言，如果男性医生得到4分(满分5分)，那么他们的女性同行将得到3.8分(满分5分)。

表2。总体评级的估计(N=1093)^一个．

变量	系数(SE)	P价值
GenderFemale	−0.162 (0.060)	.007
RiskScore	−0.056 (0.086)	点
TopicCare	1.557 (0.058)	<措施
TopicSurgery	0.739 (0.071)	<措施

^一个专业控制=是的;年份固定效果=yes;健壮的SE =是的;整体平方= 0.267;在平方= 0.168;r平方=0.339。

表3。对帮助等级和知识的估计(N=1093)。

变量	HelpfulnessRating^一个			KnowledgeRating^b
	系数(SE)	P价值	系数(SE)		P价值
GenderFemale	−0.185 (0.069)	.008	−0.198 (0.065)		.002
RiskScore	0.003 (0.098)	.97点	−0.057 (0.094)		54
TopicCare	1.702 (0.069)	<措施	1.492 (0.064)		<措施
TopicSurgery	0.688 (0.084)	<措施	0.513 (0.080)		<措施

^一个专业控制=是的;年份固定效果=yes;健壮的SE =是的;整体平方= 0.239;在平方= 0.153;之间的平方= 0.310。

^b专业控制=是的;年份固定效果=yes;健壮的SE =是的;整体平方= 0.220;在平方= 0.137;之间的平方= 0.282。

表4。随机效应面板回归(员工评分和准点率;N = 1093)。

变量	StaffRating^一个			PunctualityRating^b
	系数(SE)	P价值	系数(SE)		P价值
GenderFemale	−0.095 (0.062)	13。	−0.172 (0.067)		. 01
RiskScore	−0.045 (0.087)	收	−0.127 (0.105)		23)
TopicCare	1.547 (0.063)	<措施	1.488 (0.063)		<措施
TopicSurgery	0.923 (0.076)	<措施	0.832 (0.074)		<措施

^一个专业控制=是的;年份固定效果=yes;健壮的SE =是的;整体平方= 0.247;在平方= 0.155;之间的平方= 0.315。

^b专业控制=是的;年份固定效果=yes;健壮的SE =是的;整体平方= 0.234;在平方= 0.130;之间的平方= 0.318。

鲁棒性检查

我们添加了额外的控制变量来检查我们的发现是否会改变。另外三个变量是BeneficiaryCount，ServicesCount,而且WordCount．BeneficiaryCount是一年内接受医生治疗的医疗保险受益人人数。ServicesCount是一名医生在一年内提供的服务数量。WordCounT是一名医生在一年内收到的回顾评论的平均字数。表S2-S4多媒体附件1为面板规格的结果提供额外的控制变量。表S2多媒体附件1提供结果OverallRating作为因变量。表S3多媒体附件1提供结果乐于助人而且KnowledgeRating为因变量，表S4中多媒体附件1提供结果StaffRating而且PunctualityRating作为因变量。在表S2-S4中可以观察到多媒体附件1，系数的GenderFemale是否具有统计学意义OverallRating以及四个评价维度中的每一个，包括StaffRating．系数的大小GenderFemale接近但略高于表2-4．

我们进行了进一步的稳健性检查，删除了我们的小组中男女都没有代表的专业。这帮助我们减轻了由于在我们的小组中任何一个专业中没有任何性别的医生而可能产生偏见的担忧。年的表S5-S7所示结果多媒体附件1与我们最初的发现相一致，女医生的评分低于男医生。

在接下来的稳健性检验中，我们在没有主题控制的情况下进行了主要回归分析。进行这项测试是为了检查主题变量是否可能由于它们的构造方式而在规范中引入了系统性偏差，以及负系数是否GenderFemale变量可能是人为的。从表S8-S10的结果可以看出多媒体附件1，的系数GenderFemale是负的和统计上显著的规范，即使在主题控制被排除。这进一步支持了我们的主要发现，即女医生往往比男医生收到更差的网络评论。主题控件在我们的规范中扮演着重要的角色，因为它们有助于解释基于web的评级中的部分差异。这可以通过比较总体r平方，在r平方内，和在r平方值之间，来进一步理解表2，3.,4表S8, S9和S10中的多媒体附件1,分别。3个r平方值在表2-4，这意味着主题控件解释了基于web的评分变量中的相当一部分方差。

总之，我们进行了三个额外的稳健性检查，如上文所述:(1)包括额外的控制变量，(2)删除不包括男女医生的专业，以及(3)删除主题控制。在进行这些稳健性检查后，我们可以得出结论，女医生往往比男医生收到更差的网络评论。这一发现在本研究中使用的回归规范中是一致的。

值得关注的是，我们小组中的数据在多大程度上代表了从RateMDs和Medicare (CMS)收集的原始数据。为了解决这个问题，我们计算了中所示变量的描述性统计数据表1使用从RateMDs和Medicare收集的原始纵向数据。描述性统计数据如表S11所示多媒体附件1．年表S11统计值的比较多媒体附件1表明在我们的研究中用于计量分析的面板数据相当具有代表性，从上述两个来源收集的原始数据。

概述

我们的研究为越来越多的基于网络的医生评论和医生性别的文献提供了重要的贡献。一个可能的担忧是，不同性别的医生在评论中观察到的差异可能是由不同性别的医生提供的护理质量或结果的差异所驱动的。为了解决这一问题，我们对现有文献进行了大量搜索，研究了男性和女性医生临床护理质量或结果之间的差异。我们在这方面找到了几篇研究论文[61-65]，但我们无法从现有的研究中找到男性医生比女性医生提供更好的护理的重要证据。

主要研究结果

我们发现，在控制了专业和患者风险等临床特征后，男性医生得到的网络评论比女性医生更好。尽管男性和女性医生的网络评分之间的差异具有统计学意义，但差异的平均幅度并不显著。我们的发现支持dunvin等人[32]和Thawani等人[42]，但并不支持Emmert和Meier的研究结果[43，他们发现在调查的时间范围内，女医生的评价比男医生的好。他们的结果表明，女性医生受到轻微但具有统计学意义的青睐(每种性别低于平均水平的评论百分比有2%的差异)，而我们的结果显示，在5分制的评分中，男性医生受到青睐，差异为0.2(差异为4%)。这些差异的可能原因可以归结为阿拉巴马州和德国患者群体之间的文化差异，Emmert和Meier收集的综述[43)中女性受访者多于男性受访者。在德国，患者和他们的医生之间的关系也可能不利于男性医生，并且在所检查的时间框架内，患者和医生关系的时间变化也可能影响结果差异(我们的数据为2012年vs 2012-2018年)。

影响

我们的发现对卫生保健研究人员、专业人员和政策制定者具有重要意义。首先，在考虑或控制了几个临床方面(包括专业和医疗保险患者风险)后，基于网络的评论的经验证据对女医生不太有利，时间效应应该告诉卫生保健专业人员和政策制定者，患者的意见始终更倾向于男医生而不是女医生。这一点不容忽视，尽管性别对网络评论的影响并不大。

政策及设计建议

包括学术界在内的多个领域都报道了评论中的性别偏见。穆雷等[66]的研究发现，男性教师在整体教学质量方面的评分往往高于女性教师，Turrentine等人[67]和Rojek等人[68在叙述性评价中发现了隐性偏见，偏向于得到更多最高级赞扬的男性。研究表明，可以采取措施帮助减少评审中的性别偏见。彼得森等人[69]的研究发现，仅仅告知学生潜在的性别偏见就会对女性教师的评估产生重大影响，Rivera和Tilcsik [70他发现，通过将评分量表从10分制改为6分制，可以减少性别偏见。

大的社会层面也可能在起作用;然而，在一个门户中似乎很难解释这一点。斯普拉格和马索尼[71调查发现，男教师更有可能被认为是娱乐工作者的标准，而女教师则更有可能被认为是养育者的标准。这些偏见是在个人的一生中形成的，因此，即使直接告知用户可能存在偏见，也更难调整。通过利用从性别偏见研究中获得的经验教训，基于网络的医生评论网站可以帮助减轻，但不能消除系统中的性别偏见。

需要集中努力教育和告知患者女性医生的能力。这有助于减少患者对女医生与男医生能力的隐性偏见。这些网站为评论的评论者和读者提供了重要的资源，信息需要顺畅地流动。与此同时，如果审稿人在为医生提供评论之前被要求提供关于不同性别的医生的意见，那么读者可能会得到更好的服务。为了征求审稿人对不同性别的医生的倾向意见，问题可以以一种不会让审稿人感到他们的意见被调查的方式提出。在收集他们对这个问题的意见后，网站可能会考虑过滤审稿人提供的评论，对某个性别的医生有明显的偏见。如何设计网站以减少可能的性别偏见是一个复杂的问题，需要研究人员和网站设计师认真思考和考虑。通过利用之前的研究成果，告知用户潜在的偏见，评论门户可以更好地收集和呈现关于医生的信息。

限制

我们的研究有一些局限性。首先，我们利用医疗保险数据中的HCC风险评分构建了患者风险评分。虽然医疗保险是美国最大的医疗保健支付者或保险公司之一，但进一步的研究可以尝试使用其他保险公司的临床数据来验证我们的研究结果。例如，在美国，很大一部分患者都有私人保险公司的保险。未来的研究可以尝试通过构建临床变量来验证我们的发现，例如使用一家或多家私人保险公司的临床数据进行风险评分。其次，我们关注阿拉巴马州的医生数据。虽然它是一个州，但它提供了一个很好的农村和城市县的组合。未来的研究可以将这项工作扩展到其他州，并在更广泛的患者和医疗保健提供者中比较研究结果。

未来的研究

这项研究的结果表明，需要更仔细地检查网络评论中的性别偏见。确定影响这种性别偏见因素的其他研究可以帮助我们制定策略，以减轻基于网络的评论中的性别偏见。考虑到卫生保健提供者的短缺以及对强大和多样化的卫生保健劳动力的需求，此类研究不仅可以帮助服务提供者，还可以帮助政策制定者、教育工作者和管理人员。如果医院和诊所的管理人员意识到这种偏见，并相应地承认这一点，就可以实施体制改革，以支持和增强妇女在临床环境中发挥更多领导作用的能力。桑德伯格[72她在《纽约时报》的畅销书中指出，由于担任领导职务的女性比男性少，对于资历较浅的女性来说，获得导师的机会可能具有挑战性。解决这一问题的一个可能办法是对男性领导人员进行业绩评价，包括妇女受到指导的人数和重点倡议以及鼓励妇女走上领导岗位的机会。

这些有针对性的努力可以向患者提供一个关于女医生能力的强烈信号，反过来，增加他们对女医生提供的护理的信心。这可以进一步帮助改善向患者提供的整体护理，因为患者信心的增加可以改善他们与医生的沟通，无论医生的性别如何。然而，一个悬而未决的研究问题是，在网上医生评论中观察到的偏见是否也在线下医生调查中观察到。为了检验这一问题，需要对基于网络和线下媒体对男性和女性医生的评论进行比较研究。

利益冲突

没有宣布。

‎

多媒体附件1

描述附加分析结果的表格，包括稳健性检查。

DOCX文件，39kb

RateMDs。URL:https://www.ratemds.com[2021-06-28]访问
重要器官。URL:https://www.vitals.com/[2021-06-28]访问
Healthgrades。URL:https://www.healthgrades.com/[2021-06-28]访问
Terlutter R, Bidmon S, Röttl J.谁使用医生评级网站?社会人口学变量、心理变量和医生评级网站用户和非用户健康状况的差异。J medical Internet journal 2014年3月31日;16(3):e97。［CrossRef] [Medline］
二元喷泉，2018。URL:https://www.binaryfountain.com/wp-content/uploads/2018/09/Binary-Fountain-2018-Consumerism-Survey-Infographic.pdf[2021-06-24]访问
Detz A, López A, Sarkar U.长期医患关系:来自在线评论的患者视角。J Med Internet Res 2013 july 02;15(7):e131 [免费全文] [CrossRef] [Medline］
Emmert M, Halling F, Meier F.德国医生评级网站上的牙医评估:评级分析。J Med Internet Res 2015年1月12日;17(1):e15 [免费全文] [CrossRef] [Medline］
高桂桂，McCullough JS, Agarwal R, Jha AK。医生质量报告的变化:分析患者在5年期间对其医生的在线评分。J Med Internet Res 2012 Feb 24;14(1):e38 [免费全文] [CrossRef] [Medline］
郝浩，张凯。中国健康消费者的声音:基于网络的医生评论文本挖掘方法。J Med Internet Res 2016年5月10日;18(5):e108 [免费全文] [CrossRef] [Medline］
雅红，C梁，Radcliff TA, Wigfall LT, Street RL。病人在网上对医生有什么看法?对患者在线评论研究的系统回顾。J Med Internet Res 2019 Apr 08;21(4):e12521 [免费全文] [CrossRef] [Medline］
Kadry B, Chu LF, Kadry B, Gammas D, Macario a .对4999名在线医生评分的分析表明，大多数患者对医生的评分较高。J Med Internet Res 2011 11月16日;13(4):e95 [免费全文] [CrossRef] [Medline］
刘俊杰，Matelski JJ, Bell CM。与地理、专业和年份相关的在线医生评分的范围、广度和差异:观察性回顾性研究。J Med Internet Res 2018年3月07日;20(3):e76 [免费全文] [CrossRef] [Medline］
Segal J, Sacopulos M, Sheets V, Thurston I, Brooks K, Puccia R.在线医生评论:他们是否跟踪外科医生的数量，这是医疗质量的代表?J medical Internet Res 2012 april 10;14(2):e50 [免费全文] [CrossRef] [Medline］
Huerta TR, Hefner JL, Ford EW, McAlearney AS, Menachemi N.美国医院网站排名:扩大有效消费者参与的基准和标准。J Med Internet Res 2014 Feb 25;16(2):e64 [免费全文] [CrossRef] [Medline］
Emmert M, Sander U, Pisch F.关于医生评级网站的八个问题:一个系统的回顾。J Med Internet Res 2013 Feb 01;15(2):e24 [免费全文] [CrossRef] [Medline］
Emmert M, Meszmer N, Sander U.医疗保健提供者使用在线患者评级来提高医疗质量吗?来自在线横断面研究的结果。J medical Internet Res 2016年9月19日;18(9):e254 [免费全文] [CrossRef] [Medline］
Murphy GP, Awad MA, Osterberg EC, Gaither TW, Chumnarnsongkhroh T, Washington SL，等。加州见习医师的网络医师评级。J Med Internet Res 2017 Aug 22;19(8):e254 [免费全文] [CrossRef] [Medline］
陆顺芳，芮。我们能相信在线医生评分吗?来自佛罗里达心脏外科医生的证据。科学通报2018年6月;64(6):2557-2573。［CrossRef］
Okike K, Peter-Bibb TK，谢kc, Okike ON。医生在线评分与护理质量之间的关系。J Med Internet Res 2016年12月13日;18(12):e324 [免费全文] [CrossRef] [Medline］
Saifee DH, Bardhan IR, Lahiri A，郑泽。遵守临床指南、使用电子健康记录和在线审查。中国机械工程学报2019年10月26日;36(4):1071-1104。［CrossRef］
郑泽，张志刚，张志刚。医生的在线评论是临床结果的可靠指标吗?重点关注慢性疾病管理。Inf Syst Res 2020 Dec;31(4):1282-1300。［CrossRef］
Emmert M, Meier F, Pisch F, Sander U.与使用医生评级网站相关的医生选择和特征:横断面研究。J Med Internet Res 2013 Aug 28;15(8):e187 [免费全文] [CrossRef] [Medline］
Grabner-Kräuter S, Waiguny MK.洞察在线医生评论对患者决策的影响:随机实验。J Med Internet Res 2015 Apr 09;17(4):e93 [免费全文] [CrossRef] [Medline］
韩霞，曲娟，张涛。基于在线医生评论的评论效价、疾病风险和信任对患者选择的影响研究。Telemat通知2019年12月45:101276。［CrossRef］
李山，李元RJ, McKnight J.在线医生评论和医生性别对医生技能和初级保健医生(PCP)选择的影响。2019年10月;34(11):1250-1258。［CrossRef] [Medline］
即使有转诊，80%的患者仍然在网上咨询医生。数字商务360。2018.URL:https://www.digitalcommerce360.com/2018/05/22/even-with-a-referral-80-of-patients-still-check-out-doctors-online/[2022-04-04]访问
穆雷，罗B，波拉克L，多尼兰K，卡塔尼亚J，李K，等。互联网上的健康信息对医疗保健和医患关系的影响:对1.050名美国医生的全美调查。中国医学杂志，2003;5(3):e17 [免费全文] [CrossRef] [Medline］
罗特。DL。霍尔JA。青木。医生的性别影响在医疗沟通:荟萃分析综述。中国医学杂志2002年8月14日;288(6):756-764。［CrossRef] [Medline］
Shin DW, Roter DL, Roh YK, Hahm SK, Cho B, Park HK，韩国家庭医学学会认证委员会。医生性别和以患者为中心的沟通:心理社会和生物医学病例特征的调节作用。患者教育杂志2015年1月;98(1):55-60。［CrossRef] [Medline］
性别刻板印象对全科医生沟通技能评估的影响:一项使用医患接触记录的实验研究。患者教育杂志2007年12月;69(1-3):200-205。［CrossRef] [Medline］
Hall JA, Roter DL, Blanch-Hartigan D, Mast MS, Pitegoff CA.女医生需要如何以患者为中心?模拟患者对男性和女性医生相同行为的满意度。卫生通报2015;30(9):894-900。［CrossRef] [Medline］
Dunivin Z, Zadunayski L, Baskota U, Siek K, Mankoff J.在线医生评论中的性别、软技能和患者体验:大规模文本分析。J Med Internet Res 2020年7月30日;22(7):e14455 [免费全文] [CrossRef] [Medline］
Weisman CS, Teitelbaum MA。医生性别与医患关系:最近的证据和相关问题。中华医学科学1985;20(11):1119-1127。［CrossRef] [Medline］
旋翼机DL，大厅JA。医生性别和以患者为中心的沟通:实证研究的批判性回顾。公共卫生2004;25:497-519。［CrossRef] [Medline］
Hall JA, Blanch-Hartigan D, Roter DL。患者对男性和女性医生的满意度:一项荟萃分析。医学护理2011年7月;49(7):611-617。［CrossRef] [Medline］
大厅JA, rotter DL。患者对男性和女性医生的谈话方式不同吗?元分析综述。患者教育杂志2002年12月;48(3):217-224。［CrossRef] [Medline］
杨晓明，陈晓明，陈晓明，陈晓明。性别对医患沟通的影响:一项系统综述。患者教育杂志2009年9月;76(3):348-355。［CrossRef] [Medline］
医生性别:患者的偏好和刻板印象。中华实用医学杂志，1990年4月30日(4):441-446。［Medline］
克森斯JJ，本辛JM，安德拉MG。患者对卫生专业人员性别的偏好。社会科学医学1997年5月;44(10):1531-1540。［CrossRef] [Medline］
Plunkett BA, Kohli P, Milad MP。在选择妇产科医生时，医生性别的重要性。中华妇产科杂志2002年5月;186(5):926-928。［CrossRef] [Medline］
Hasebrook J, Hahnenkamp K, Buhre WF, de Korte-de Boer D, Hamaekers AE, Metelmann B，等。医学女性化:通过组织转型和参与式设计，改善女性职业选择和临床医学研究中研究医生的工作条件的协议。JMIR Res Protoc 2017 Aug 02;6(8):e152 [免费全文] [CrossRef] [Medline］
Thawani A, Paul MJ, Sarkar U, Wallace BC。网上对医生的评论是否对女性提供者有偏见?见:第四届机器学习医疗保健会议论文集，2019年发表于:PMLR '19;2019年8月8日至10日;安娜堡，密歇根州，美国p. 406-423。
Emmert M, Meier F.医生评级网站上的在线评估分析:来自德国公共报告工具的证据。J Med Internet Res 2013 Aug 06;15(8):e157 [免费全文] [CrossRef] [Medline］
Marrero K, King E, Fingeret AL.外科医生性别对在线医生评论的影响。中国外科杂志2020年1月;245:510-515。［CrossRef] [Medline］
医疗保险和医疗补助服务中心，2020年。URL:https://www.cms.gov/Research-Statistics-Data-and-Systems/Statistics-Trends-and-Reports/Medicare-Provider-Charge-Data/Downloads/Medicare-Physician-and-Other-Supplier-PUF-Methodology.pdf[2022-04-04]访问
分层条件分类编码。美国家庭医生学会，2017。URL:https://www.aafp.org/family-physician/practice-and-career/getting-paid/coding/hierarchical-condition-category.html[2021-06-24]访问
布利DM，吴艾，Jordan MI。潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。
语言技术与数据分析实验室。2021。URL:https://slcladal.github.io/topicmodels.html[2021-06-05]访问
郭艳，Barnes SJ，贾强。在线评分与评论意义挖掘:基于潜狄利克雷分配的游客满意度分析。旅游管理2017年4月;59(C):467-483。［CrossRef］
郝浩，张凯，王伟，高刚。两个国家的故事:中国和美国在线医生评论的国际比较。国际医学杂志2017年3月;99:37-44。［CrossRef] [Medline］
蒂尼莱，特利斯，GJ。从网络闲聊中挖掘营销意义:利用潜狄利克雷配置的大数据战略品牌分析。J Mark Res 2014 Aug 01;51(4):463-479。［CrossRef］
Wallace BC, Paul MJ, Sarkar U, Trikalinos TA, Dredze M.在线医生评论的潜在因素和情绪的大规模定量分析。中国医学信息杂志2014;21(6):1098-1103 [免费全文] [CrossRef] [Medline］
张颖，陈敏，黄东，吴东，李艳。基于混合矩阵分解的个性化、专业化医疗推荐。未来generer计算系统2017年1月;66:30-35。［CrossRef］
Feinerer I. R. tm包文本挖掘介绍Microsoft R应用网络。2013。URL:https://mran.microsoft.com/snapshot/2017-12-04/web/packages/tm/vignettes/tm.pdf[2022-04-04]访问
Feinerer I, Hornik K. Package 'tm'。综合R档案网络。2020。URL:http://cran.rapporter.net/web/packages/tm/tm.pdf[2022-04-04]访问
Grün B, Hornik K. topicmodels:一个R包拟合主题模型。中国统计杂志，2011;40(13):1-30。［CrossRef］
Amado A, Cortez P, Rita P, Moro S.大数据在营销中的研究趋势:基于文本挖掘和主题建模的文献分析。2018年1月24日(1):1-7。［CrossRef］
Calheiros AC, Moro S, Rita P.使用主题建模的消费者生成在线评论的情感分类。2017年4月27日;26(7):675-693。［CrossRef］
陈建平，陈建平，陈志强，陈志强，陈志强，Thébaud C，等。对亚马逊地区蛙类的大规模DNA调查表明，对物种丰富度和地方性的严重低估。生物地质杂志2020年5月18日;47(8):1781-1791。［CrossRef］
阿拉巴马州医生劳动力概况。美国医学院协会2019年URL:https://www.aamc.org/media/37726/download[2021-06-24]访问
Berthold HK, Gouni-Berthold I, Bestehorn KP, Böhm M, Krone W.医生性别与2型糖尿病护理质量相关。J实习医学2008 10月;264(4):340-350 [免费全文] [CrossRef] [Medline］
Dahrouge S, Seale E, Hogg W, Russell G, Younger J, Muggah E，等。家庭医生性别和护理质量的综合评估:加拿大安大略省的横断面分析。医疗护理2016年3月;54(3):277-286。［CrossRef] [Medline］
Meier A，杨杰，刘杰，Beitler JR，涂小明，Owens RL，等。在心肺复苏过程中，女性医生的领导与患者预后的改善有关。重症监护医学2019年1月;47(1):e8-13 [免费全文] [CrossRef] [Medline］
Tsugawa Y, Jena AB, Figueroa JF, Orav EJ, Blumenthal DM, Jha AK。男性和女性医生治疗的医疗保险患者的医院死亡率和再入院率的比较。JAMA Intern Med 2017 Feb 01;177(2):206-213 [免费全文] [CrossRef] [Medline］
Wallis CJ, Ravi B, Coburn N, Nam RK, Detsky AS, Satkunasivam R.男性和女性外科医生治疗患者术后结果的比较:一项基于人群的匹配队列研究。英国医学杂志2017 10月10日;359:j4366 [免费全文] [CrossRef] [Medline］
Murray D, Boothby C，赵h, Minik V, Bérubé N, Larivière V，等。探索与终身教职学生评价相关的个人和专业因素。PLoS One 2020;15(6):e0233515 [免费全文] [CrossRef] [Medline］
Turrentine FE, Dreisbach CN, St Ivany AR, Hanks JB, Schroen AT。性别对外科住院医师申请人推荐信的影响。中华外科杂志2019年4月;228(4):356-65.e3。［CrossRef] [Medline］
Rojek AE, Khanna R, Yim JW, Gardner R, Lisker S, Hauer KE，等。医学生在性别和少数族裔地位评价中叙述语言的差异。J Gen Intern Med 2019年5月;34(5):684-691 [免费全文] [CrossRef] [Medline］
Peterson DA, Biederman LA, Andersen D, Ditonto TM, Roe K.减轻学生教学评估中的性别偏见。PLoS One 2019;14(5):e0216241 [免费全文] [CrossRef] [Medline］
里维拉LA，蒂尔西克A.缩小不平等:评分量表，性别偏见，和评估的架构。Am social Rev 2019年3月12日;84(2):248-274。［CrossRef］
学生评价和性别期望:我们无法计算的东西会伤害我们。性别角色2005年12月;53(11-12):779-793。［CrossRef］
桑德伯格S，斯科维尔N.向前一步:女性、工作和领导意愿。美国纽约州纽约:兰登书屋;2013.

‎

CMS:医疗保险和医疗补助服务中心

肝细胞癌:层次条件类别

LDA:潜狄利克雷分配

A Mavragani编辑;提交29.06.21;同行评议:B Metelmann, R Krukowski, D Verran, M Salimi;对作者18.07.21的评论;修订版本收到02.09.21;接受16.03.22;发表08.04.22

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

医生性别、患者风险和网络评论:医生性别与其网络评论之间关系的纵向研究