发表在第22卷第11名(2020): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/17247,首次出版
法语在线论坛中与胃肠道不适相关的讨论的映射和建模:15年回顾性信息流行病学研究的结果

法语在线论坛中与胃肠道不适相关的讨论的映射和建模:15年回顾性信息流行病学研究的结果

法语在线论坛中与胃肠道不适相关的讨论的映射和建模:15年回顾性信息流行病学研究的结果

原始论文

1创新科学与营养,达能纽迪西亚研究中心,法国帕莱索

2Kap Code,法国巴黎

3.深度数字表型研究单位,人口健康部门,卢森堡卫生研究所,斯特拉森,卢森堡

4流行病学和人口健康研究中心,UMR 1018 Inserm,巴黎-南巴黎-萨克雷大学古斯塔夫·鲁西研究所,法国维尔瑞夫

通讯作者:

弗洛伦特Schäfer,硕士

创新、科学与营养

达能纽迪西亚研究公司

RD 128大道de la Vauve

Palaiseau 91767

法国

电话:33 1 69 35 7000

电子邮件:florent.schafer@danone.com


背景:胃肠道(GI)不适是普遍的,已知与生活质量受损有关。然而,关于胃肠道不适的因素和人们使用的解决方案的真实信息是有限的。包括在线论坛在内的社交媒体一直被认为是一种新的信息来源,可以在现实生活中检查人群的健康状况。

摘要目的:这项回顾性信息流行病学研究的目的是确定讨论主题,描述用户特征,并确定法国社交媒体用户发布的基于网络的消息中GI不适的感知决定因素。

方法:2003年1月至2018年8月期间发布的与肠胃不适相关的信息,摘自14个讲法语的普通和专业公开在线论坛。提取的消息被清除和去识别。相关的医学概念是根据《监管活动医学词典》和本地术语确定的。在潜狄利克雷分配的基础上,采用相关主题模型进行讨论主题的识别。根据报告的胃肠道不适症状、讨论主题和在线论坛活动,应用非监督聚类算法对论坛用户进行聚类。用户的年龄和性别分别通过线性回归和支持向量机的应用来确定,根据人口统计学参数来表征所识别的聚类。在句法分析的基础上,采用组合方法对胃肠道不适感知因素进行分类,识别带有因果关系术语的信息,并在相关短语段中进行第二主题建模。

结果:在提取和清理后,总共有198866条与胃肠道不适相关的信息被纳入分析语料库。这些信息是由36989名不同的网民发布的,其中大多数是40岁以下的女性。日常生活、饮食、消化、腹痛、对生活质量的影响以及应对压力的技巧是讨论最多的话题。用户细分确定了5个对应于慢性和急性胃肠道问题的集群。饮食主题与每组相关,压力与腹痛密切相关。心理因素、食物和过敏原被认为是引起肠胃不适的主要原因。

结论:肠胃不适是网络用户积极讨论的话题。这项研究揭示了食物、压力和肠胃不适之间的复杂关系。我们的方法表明,识别与胃肠道不适及其感知因素相关的网络讨论主题是可行的,并且可以作为护理人员现实世界证据的补充来源。

中国医学网络学报2020;22(11):e17247

doi: 10.2196/17247

关键字



背景

胃肠不适:患病率、对生活质量的影响和管理

胃肠道不适(如腹胀、腹痛、便秘)在一般人群中很常见,已知对健康有影响[1].胃肠道不适的慢性和严重症状与生活质量的显著下降有关[2].肠易激综合征(IBS)是肠-脑相互作用障碍(DGBIs)中研究最多的疾病[3.],其发病率具有高度异质性,由法国和伊朗的1.1%至墨西哥的35.5%不等[45].由于卫生保健资源的重要使用和工作缺勤,相关的社会经济成本很高[6-8].然而,DGBIs的病因尚不清楚。在与肠易激综合征相关的病理生理机制中,GI感觉-运动改变[910],离散性免疫功能障碍的征象[11],并增加肠道通透性[12被认为是重要的。肠道菌群可能参与胃肠道疾病的发病机制和胃肠道症状的发生也已被探索,因为肠易激综合征症状的严重程度与特定的肠道菌群分布有关[13].

心理共病通常与胃肠道症状有关,据估计,肠易激综合征患者中焦虑和抑郁的患病率至少是普通人群的两到三倍[1415].关于腹部疼痛、痉挛和不适的女性,最近一项基于网络的横断面调查研究[16调查显示,96%的女性报告说,日常活动至少有时会被腹痛、抽筋和不适打乱,44%的女性报告说,日常活动至少经常被打乱。生活质量的其他方面,如工作质量、饮食习惯和社会活动也受到大多数女性的影响[16].

DGBIs是重要的卫生保健消费(咨询、补充检查和住院)的来源,尽管难以量化[17],考虑到肠易激综合征的慢性性质和缺乏特定的诊断测试[18].在法国,一项横断面研究估计,每位患者的平均年直接费用为756欧元(888美元),每年病假超过3天[17].另一项在英国进行的研究[19据估计,2014年至2015年,婴儿DGBIs的总成本至少为每年7230万英镑(9370万美元),其中491万英镑(6360万美元)是国家卫生服务在处方、社区护理和医院治疗方面的支出。

饮食在肠易激综合征发病机制中的作用已得到强调[20.],即使没有诊断为过敏或吸收不良,食物也被认为是胃肠道不适的一个因素[21].dgbi的管理尤其依赖于生活方式,包括体育活动和饮食措施。可用的指引[22]建议有规律的饮食模式,避免大餐,减少脂肪、酒精、辛辣食物、不溶性纤维、咖啡因和产气食物(如豆类、卷心菜和洋葱)的摄入。也建议在安静的地方用餐(不工作,至少20分钟),并充分咀嚼和补充水分(每天1.5至2升)[22].饮食干预(益生菌、益生元和合生素)和限制性饮食(如低发酵寡糖、双糖、单糖和多元醇,也称为低fodmap饮食)也已被探索为IBS的潜在治疗方案[23].现有的针对胃肠道或大脑的药物治疗也显示出一些治疗价值,包括抗抑郁药、促动力剂和止痛药[24].

社交媒体作为现实世界的健康数据源

社交媒体对现代社会的渗透已经成为一种全球性的文化现象。患者使用点对点虚拟社区和社交媒体来分享他们关于治疗和疾病的经验。社交媒体的使用允许一大群人通过网络讨论来创建和分享关于健康状况和药物的信息、意见和经验[25].因此,社交媒体可被视为评估人口健康和生活质量、了解治疗依从性或确定药物不良反应的新数据源。患者强调了与其他患者进行网络互动的好处。例如,通过社交网络共享信息使患者能够更好地与医疗保健提供者沟通。患者经常使用社交媒体讨论药物副作用、生活质量和治疗依从性。要分析这些海量的数据,就需要适当的工具。文本挖掘技术允许对文本数据进行分类和摘要,例如消息[26].这套技术已被用于从电子健康记录中提取信息[2728].它们还被用于社交媒体数据的各种用例。一些作者[29]研究了接受芳香化酶抑制剂治疗的乳腺癌患者的信息。在法国,已发表了一些关于哌甲酯滥用和药物警戒信号的研究[30.31]、不正确地使用抗精神病药物治疗焦虑[32],左旋甲状腺的安全性概况及其在2017年夏天在社交媒体上的报道动态[33].在多种治疗领域,包括糖尿病和肥胖症,社交媒体一直被认为是现实世界的健康证据数据源。34].尽管与传统的临床数据相比,基于网络的讨论是非结构化的,但与临床数据相比,它们的数量(数十万用户)非常重要,因此这些信息可以被视为观察性研究中健康数据的补充来源。

目标

这项研究的目的是在对基于网络的社交媒体帖子进行回顾性评估的基础上,探索感知到的胃肠道不适,并更好地理解其决定因素,我们认为这些帖子是现实生活中的健康信息来源。在这项研究中,我们的目标是回答3个主要的研究问题:(1)我们能否确定由报告胃肠道不适症状的网络用户讨论的主题?(2)我们能否在考虑年龄和性别的同时,根据所报告的胃肠道不适症状和社交媒体活动水平对这些用户进行分类?(3)我们能否根据网络用户的报告,找出导致肠胃系统不适的感知因素?


数据源和数据提取

检索的消息(图1)来自一般和专业的法国医疗网络论坛。只提取了来自公开来源的信息[35].检索了2003年1月至2018年8月期间发布的包含与胃肠不适相关关键词的消息,以及来自3个胃肠不适相关分论坛的消息Doctissimo36]: (1)便秘,其他运输障碍;(2)消化、胃灼热、胃食管反流病(GERD);和(3)腹痛,胃痛和溃疡.自动提取消息使用已发布的发现不webcrawler3738]由Kap Code开发。网络爬虫是一种浏览超链接并将其存储起来以供将来下载相关网页(由所访问的超链接识别)的引擎[39].根据每个论坛的HTML结构对消息进行抓取。所有包含至少一个关键字或其同义词的讨论,在存储在特定研究的数据库中之前,会自动检索所有相关元数据,去识别和清理(签名和引用撤回)。对所提取的语料库进行了描述多媒体附件1.中显示了抓取的论坛的完整列表多媒体附件2中详细列出了用于消息检索的关键字列表多媒体

图1。研究框架。
查看此图

语料库以消息数表示,一条消息是一个统计单位。由于提取的消息总数无法提前估计,因此没有对网络用户讨论的主题、要分割的聚类或要识别的感知因素做出先验假设,因此这项观察性研究没有计算样本量。

数据排除

分析语料库包括在删除包含以法语以外的语言编写的预定关键字的消息后清理的语料库,包含至少一个特定于研究的排除词的消息(例如与动物相关的词汇或脱离上下文使用的GI症状),来自特定url和重复的消息,如所示图2

图2。显示消息提取的流程图。
查看此图

统计分析

讨论主题和话题

应用主题模型来识别消息中涉及的主题。主题模型由文本挖掘方法组成,旨在自动识别文档集合中涉及的抽象主题。最简单和最流行的主题模型形式是潜在狄利克雷分配(LDA) [4041].它基于这样的假设:语料库中的每个文档对应于几个主题的分布,这些分布是狄利克雷先验的。建模的主题是语料库中发现的标记(单词或几个相邻单词的序列)的概率分布。对于所研究的语料库中主题的性质没有预先假设。这些模型已经被用于分析推文中的健康相关主题[4041]或网上论坛[294243].

本研究采用相关主题模型[4445].除了基于LDA [44],它将所讨论主题之间的现有关系作为一个附加参数。两个主题之间的估计相关性表明这两个主题在帖子中同时出现的程度。

所研究的语料库的建模经历了不同的步骤,从而可以应用主题模型[30.].使用变分期望最大化算法估计模型[4445],它通过找到变分参数的最佳组合来逼近主题在语料上的后验分布。主题是研究语料库中标记的概率分布,它们可以由最高的每个主题概率标记来表征。通过词频-逆文档频率(TF-IDF)对这些概率进行加权,可以将更高的重要性分配给特定于主题的令牌[45].在这种情况下,令牌在每个主题中的概率是由该令牌在其他主题中的概率的倒数加权的。对于每个主题,代币在该主题中的概率加权TF-IDF值从高到低进行排序[45].对于每个主题,通过该排名获得的前15个令牌被认为是最相关的令牌。这些标记被定义为一组特征标记,并用于标记每个主题。这个标签应该是所表达的特征标记的综合。测量了不同主题之间的相关性。当相关性绝对值高于0.2时,主题被认为是相关的。这个阈值是根据经验设置的,允许一篇文章最多与5个主题相关联。讨论主题被合并通过将新的主题模型应用于相关消息,重点关注了感兴趣的类别。分析使用结构主题模型包[46R环境版本为3.5.2。

用户分类

在数据上应用了一种非监督聚类算法(聚类分层聚类),根据用户的活动概况对用户进行分类,使用了3类36个不同的特征:胃肠道不适症状、已识别的主题和网站活动。中介绍了这些类别和特性多媒体附件4

一份与胃肠道不适相关的具体症状清单是根据《监管活动医学词典》(MedDRA)术语和俗语[37].为此,对医学词典MedDRA版本15.0进行了回顾,以确定所有可能与胃肠道不适相关的术语。随后,将这些术语按解剖区域或病理生理机制进行人工分组(食管疾病、胃疾病、胃肠道疾病、疼痛、食欲障碍等)。中给出了用于对这些消息进行分组的区域和机制的列表多媒体.建立了15种不同类型的症状。用口语化的语言手工丰富了这些群体。信息的自动筛选允许识别网络用户表达的特定胃肠道症状。

用户的网站活动是通过不同的特征来衡量的,比如消息数量、讨论数量、第一次和最后一次发帖的日期、论坛名称或平均发帖时长。与第一个目标确定的主题类别相关的帖子比例被认为是描述网络用户的最后一种特征类型。创建的用户集群通过身份证进行描述,身份证上的特征可以根据他们的年龄和性别分布将他们区分出来。

通过识别消息中的正则表达式(有性别的过去分词、形容词和名称),并在消息内容的基础上应用支持向量机来确定Web用户的性别。这种方法达到了88%的准确率,并且是有待出版的主题。Web用户的年龄类别是根据在消息中使用作者年龄的正则表达式来确定的,例如你好,45人我今年45岁).每个pseudo都与一个性别(男性、女性或未知)和一个年龄类别(20岁或以下、21-30岁、31-40岁、41-50岁、51-60岁、61岁或以上、未知)相关。生成的识别卡(特征、年龄和性别)用于描述每个聚类,并评估这些特征在聚类之间是否同质。

胃肠道不适的因素

使用结合句法分析和主题模型的混合自动分析方法确定了被认为是导致胃肠道不适症状的因素。句法分析的目的是识别(1)包含提取的关键字和因果关系术语的信息;(2)存在因果关系术语的句子和短语。为了识别因果关系,创建了一个由与因果关系相关的术语组成的特定字典。因果关系术语由法语中表示因果关系的术语或术语组组成。这些术语可以是不同时间的动词和代词(例如,我多恩(让我),他provoquait(引起/触发),entrainent[导致/导致]等),介词(例如,à原因de[因为/由于],等等),连词(例如,des那时(自/结果),Du fait de等)。

根据因果关系术语,可以识别因素的短语段的位置位于术语之前或之后,如所示图3.然后,根据与每个因果关系项相关的方向,将主题模型应用于消息的部分。这些术语在多媒体附件6随着相关方向的段的短语进行分析。主题的数量设置为30,以最大限度地增加与可能出现的因素相关的主题数量。对这些主题进行了手工审查,并确定了与因素相关的兴趣主题。

图3。消息示例。(A)与权利部分相关的因果关系术语。(B)与左节相关的因果关系项。应用主题模型的部分用绿色表示。
查看此图

数据集描述

经过清理和格式化,得到的语料库包含198866条消息。总共有36,989个不同的网络用户与这个语料库相关联。共有29,935条消息(对应于16,746个不同的web用户)包含至少一个提取关键字,181,365条消息来自Doctissimosubforums (多媒体附件2).

最常见的关键字是腹痛,如在表1.最常被提及的关键词是外行词汇:恶心想吐绞痛呕吐腹泻.更专业的术语如肠易激综合症肠易激,消化不良使用频率较低。

信息检索自14个不同的通用和专门的网络论坛。提取的数据大多来自Doctissimo(182,647/198,866, 91.84%的消息;27415 / 36989,占比74.12%)。最常用的数据源是Aufeminin(2325/ 36989,占网络用户的6.29%),Sante-medecine(1375/ 36989,占网络用户的3.72%),Atoute.org(1350/36,989,占网络用户的3.65%)和Onmeda(1341/ 36989,占网络用户的3.63%)。

表1。最常用的提取关键字。
关键词抽取(前20名) 英语翻译 消息数,n (%)
Mal au ventre 腹部疼痛 9011 (4.53)
Nausee 恶心想吐 2571 (1.29)
Colique 绞痛 1795 (0.90)
Vomissement 呕吐 1722 (0.87)
Gargouillis Borborygmi 1698 (0.85)
Diarrhee 腹泻 1642 (0.83)
Ballonnement 腹胀 1548 (0.78)
便秘 便秘 1352 (0.68)
Des嘎斯 气体 1070 (0.54)
腐烂 打嗝 996 (0.50)
宠物 847 (0.43)
Colopathe 肠易激综合症一个 837 (0.42)
Colopathie fonctionnelle 肠易激综合症 757 (0.38)
结肠易怒 肠易激 609 (0.31)
问题intestinaux 肠道问题 599 (0.30)
回流gastrique 胃酸倒流 488 (0.25)
出售摩尔 便溏 452 (0.23)
Chiasse 运行 402 (0.20)
肠胃气胀 肠胃气胀 364 (0.18)
Dyspepsie 消化不良 338 (0.17)

一个IBS:肠易激综合症。

讨论主题和话题

在人工标记和数据回顾的基础上,共确定了18个感兴趣的主题(表2).虽然讨论最多的话题与日常生活有关,但讨论第二多的话题与饮食有关。

主题根据相关性被分为6组主要聚类:咨询,饮食,症状,生活质量,治疗压力和症状.的症状类别进一步细分为3个小类别:腹痛,胃反流病,消化.8个衍生类别用于用户细分。

第二个主题模型应用于来自主题组的消息饮食.这一重点允许识别与饮食相关症状相关的一组子主题(恶心呕吐腹胀胃反流),以及调整饮食以避免烦恼的重要性(饮食作为解决胃病的方法,食谱,饮食平衡和调整饮食的效率),以及食物不耐受肠道菌群(谷蛋白、乳制品和肠道菌群)).该子主题在2017年呈上升趋势(即讨论该主题的相对数量和帖子数量),这是分析语料库的最后一个完整年份。

另一个主题模型应用于来自主题组的消息压力和症状.主要确定的子主题是解决压力的方法(运动,勇气焦虑).其他确定的子主题揭示了压力和胃肠道不适症状之间的复杂关系,因为一些子主题将胃肠道症状作为压力的原因(对社会生活的影响和持续的胃部症状)和压力是导致肠胃症状的原因(因为压力和痛苦,因为问题),有时在特定时段(胃肠道症状在检查期间或根据月经周期发作).

表2。建模和合并的主题列表。
主题 消息数,n (%) 用户数,n (%) 集团
诊断前医疗咨询 4752 (2.39) 2095 (5.66) 医疗咨询
诊断目的的检查 3183 (1.60) 1283 (3.47) 医疗咨询
诊断后医疗咨询 2795 (1.41) 1422 (3.84) 医疗咨询
医学考试 6852 (3.45) 4013 (10.85) 医疗咨询
饮食 12802 (6.44) 4727 (12.78) 饮食
食物与肠易激综合征一个 2211 (1.11) 988 (2.67) 饮食
腹痛和恶心 12385 (6.23) 6939 (18.76) Symptoms-abdominal疼痛
腹部疼痛 8370 (4.21) 4130 (11.17) Symptoms-abdominal疼痛
胃食管反流病 2001 (1.01) 672 (1.82) Symptoms-GERDb
胃食管反流病和胃灼热 6202 (3.12) 2337 (6.32) Symptoms-GERD
肠易激综合症一个 2538 (1.28) 1061 (2.87) Symptoms-Digestion
消化 12521 (6.30) 5290 (14.30) Symptoms-Digestion
儿童消化系统疾病 4520 (2.27) 2216 (5.99) Symptoms-Digestion
日常生活的影响 8628 (4.34) 3672 (9.93) 生活品质
日常生活 16176 (8.13) 5902 (15.96) 生活品质
药物治疗效率 6240 (3.14) 2825 (7.64) 治疗
关于治疗的信息 1561 (0.78) 856 (2.31) 治疗
压力和症状 5679 (2.86) 2971 (8.03) 压力和症状

一个IBS:肠易激综合症。

b胃食管反流病。

用户分类

基于正则表达式的算法确定了14,441名用户的性别和4802名用户的年龄。这些结果在表3.性别比例为0.20。

表3。用户特征:网络用户数和相对用户数(36989人)。
年龄范围(年) 女性,n (%) 男性,n (%) 未知,n (%)
0-20 569 (1.54) 117 (0.32) 715 (1.93)
21 - 30 997 (2.70) 195 (0.53) 691 (1.87)
31-40 466 (1.26) 87 (0.24) 272 (0.74)
每周 227 (0.61) 41 (0.11) 128 (0.35)
41-60 123 (0.33) 19日(0.05) 69 (0.19)
61岁及以上 42 (0.11) 13 (0.04) 31 (0.08)
未知的 9647 (26.08) 1898 (5.13) 20642 (55.81)

共有12.98%(4802/ 36989)的用户根据其年龄范围进行特征识别(62146 / 198866,占留言的31.25%),39.04%(14441 / 36989)的用户根据其性别进行特征识别(118882 / 198866,占留言的59.78%)。根据中给出的分割特征,无监督的,自下而上的,分层聚类显示了16个不同的聚类多媒体.在聚类之后,这些特征的表达能够可视化地识别热图中的特征表达,该热图在图4.查看此热图可以手动识别中显示的集群表4.这些聚类根据所表达的特征进行标记,并且只考虑超过100个web用户的聚类。群集通常以症状类型或诊断疾病(胃食管反流病、消化系统疾病、压力和腹痛)为特征。

图4。热图根据所讨论的主题、症状和网站上的活动,展示了web用户的分层聚类结果。胃食管反流病。
查看此图
表4。已识别的主要web用户集群列表(36,989个用户)。一个
集群名称 用户数,n (%)
疼痛和呕吐,压力和腹痛 8026 (21.70)
与饮食、消化系统紊乱和压力相关的胃肠疾病 1962 (5.30)
GERDb 1117 (3.02)
胃胀痛和腹痛 711 (1.92)
克罗恩病 256 (0.69)

一个集群是根据用户信息中表达的特征命名的。

b胃食管反流病。

两个聚类与胃肠道疾病密切相关。这两个聚类也与主题组相关压力症状饮食.三组与疼痛、呕吐和主题组密切相关:压力和症状symptoms-abdominal疼痛.这些群集与较年轻的人口有关。更一般地,与未诊断症状相关的群集常与压力主题,而与诊断疾病(胃食管反流病和克罗恩病)相关的群集似乎与较少的压力特征相关。关联的4个集群饮食主题也与主题组相关压力和症状

胃肠道不适的因素

因果关系词典包含170个术语。这些因果关系术语在包含提取关键字(29935条消息)的分析语料库子集中进行搜索。总共识别了20,500条消息(对应于10,848个用户),并应用了一个新的主题模型。手动检查与每个主题相关的特征标记和特征消息样本,以确定所处理的主题和与GI不适原因相关的主题。总共出现了10个感兴趣的主题,并根据它们所表达的因素类型进行了手动标记和分组。这导致了7种不同类型的因素的识别。计算与这些因素相关的消息的比例(表5).网络用户感知最多的因素与心理背景(心理和社会因素),其次是饮食(营养因素和过敏原或食物不耐受)和医学因素(胃肠道疾病、妇科因素和医疗并发症)。

表5所示。胃肠道不适的感知因素。在具有因果关系项的消息中计算比例(20,500条消息)。
因素和主题 消息,n (%)
心理因素 4327 (21.11)

压力 2548 (12.43)

焦虑 2374 (11.58)
营养因素 3224 (15.73)
过敏原 2857 (13.94)
确诊的胃肠疾病 2697 (13.16)

消化系统疾病 1516 (7.40)

医学考试 1296 (6.32)
妇科的因素 1898 (9.26)

产科因素 1005 (4.90)

妇科的因素 980 (4.78)
社会因素 1568 (7.65)
并发症 1070 (5.22)

主要研究结果

如本研究所示,胃肠道不适在法国网络论坛上被积极讨论,该研究使198,866条信息得以识别。在我们能够根据年龄和性别来描述的网络用户的子语料库中,大多数年龄在40岁以下的女性有代表性(表3).大多数活跃用户的性别和年龄分布往往反映了年轻女性中IBS等DGBIs的较高患病率[47].

用户描述了他们如何调整饮食以避免与食物不耐受相关的症状(谷蛋白和乳制品)与肠道菌群(肠道菌群).这与文献中越来越多关于非乳糜泻麸质敏感这一有争议概念的报道一致[48].

由于压力被报告为他们的胃肠道症状的原因和后果,一个重点是压力和症状小组讨论的主题涉及压力对生活质量的影响和减少压力的解决方案,如体育活动。在一般人群和受DGBIs影响的患者中,焦虑等心理因素在引发或恶化胃肠道症状方面的作用已在文献中得到很好的证实[49].

用户细分导致了16个不同类别的识别,分组为6个主要集群。与症状相关的类别通常与压力相关,在腹痛的情况下相关性更强。与腹痛相关的3个聚类(归因于饮食或消化)与年轻人群相关。此外,在所有报告饮食相关特征的用户组中,压力症状还讨论了一些话题。这表明在现实生活中,饮食、压力和胃肠道不适症状之间存在复杂的关系。我们相信,这些结果可能会吸引研究人员在营养和临床研究中收集饮食参数,因为监测饮食摄入和习惯在前瞻性医学研究中很重要[50].事实上,应该收集有关饮食摄入量的进一步背景(如社会和情感背景),以确保饮食行为和相关情绪得到考虑。在最近的一篇综述中,有人强调,大多数下载的用于饮食评估的智能手机应用程序都缺乏情绪追踪功能。51].然而,这些工具可能包括一些特征,可用于在人群水平的观察环境中检查与用餐相关的情绪。这些特征对于获得背景饮食的进一步信息也很重要,这在评估研究中食物和饮食干预的效果时很重要[5253],尤其是DGBIs患者[54].

我们的分析确定了7类胃肠道不适的因素(心理、营养、过敏原、诊断的胃肠道疾病、妇科、社会和医疗并发症),表明食物和心理因素被网络用户视为胃肠道不适的主要原因。对感知因素的识别揭示了食物和健康参数之间的复杂关联。作为一个例子,使用纤维(纤维)关键字揭示了网络用户的相反看法,纤维被视为胃肠道不适的解决方案和原因(与营养因素有关)。正如另一个研究小组分析肠道疾病相关推文所指出的那样[55,网络上关于食物和饮食的信息(在这种情况下是纤维、铁和镁)可以被积极或消极地感知,这取决于网络用户的情况。关于其他代表食物来源因素的关键词,牛奶、麸质和水果是一些最常用的术语。

与之前工作的比较

另一项旨在描述炎症性肠病社区的研究的结果是基于8个月期间的Twitter讨论,该研究在撰写本文期间发表[55].该研究小组还发现,网络用户分享他们的经验并寻求医疗建议,用户的讨论主要是关于炎症性肠病症状,相关疾病(包括焦虑症),以及食物和饮食(包括饮食干预,如无麸质和益生菌)。这些发现与我们在语料库中确定的主要讨论主题一致,尽管媒体来源(推特)和语言(英语)不同,研究的指征(炎症性肠病)对本研究更具体。

最近,智能手机应用,我的症状56这项研究由163名参与者完成,目的是追踪食物摄入量、心理困扰和胃肠道症状,以确定这些参数之间的联系。这项研究的结果最近由研究小组[57],描述了强烈的症状-症状关联,特别是腹痛、腹胀、与气体相关的不适和心理困扰。所有这些参数都是我们研究中确定的主题或子主题;同时,我们也注意到腹部疼痛和压力之间的联系。

我们发现与医疗咨询和体检相关的主题经常被讨论,这表明由于胃肠道疾病,医疗保健系统的重要使用,这与之前的工作一致[17].当本文起草时,另一项研究的结果依赖于另一个真实世界的信息来源,法国国家卫生数据系统(Système国家des Données de Santé) [58],已出版[59].这项研究旨在评估IBS的特定病例中的医疗保健使用。这项研究还揭示了肠易激综合征患者对医疗保健系统的重要使用,有趣的是,这也表明了法国这些患者的重要医疗游牧。

限制

本研究的局限性在于网络论坛的特殊性,其中网络用户不一定反映一般人群的特征。尽管提取信息的重要数量有利于用户特征的可变性,但这些结果不能推广到所有受胃肠道不适影响的患者。

提取偏差与考虑的数据源和选择用于分析的关键字有关。此外,在邮件中发现的信息不能像从问卷中得到的那样被解释。处理丢失的信息是一个关键的例子:消息中没有找到一条信息的事实并不意味着用户没有体验过它。由于这些原因,在数据缺失或不清楚的情况下很难得出结论。另一个例子是识别网络用户的年龄和性别,如果没有在来源中说明,也没有在我们的研究中系统地识别,这是不可能的。

另一个限制是语义分析和自然语言处理固有的观察偏差。自动分析的使用使我们能够分析大量的信息,但受到算法能力的限制。此外,关于主题模型,必须手动标记主题的事实也是偏见的来源。

将外行语言作为源数据进行处理,使我们无法就GI不适的已识别因素得出进一步的结论,而这需要网络用户具备较高的知识水平。因此,将这些因素表示为感知到的这些因素与胃肠道不适症状的关系评估结果来自网络用户的自我评估。此外,该分析还揭示了一些误解,特别是关于食物来源的因素。例如,网络用户可能会讨论食物过敏反应,但可能指的是不太可能由免疫系统介导的症状,或不知道是过敏反应原因的化合物,而是超敏或不耐受(如乳糖)。这与本研究期间发表的一项基于人群的调查结果一致,该调查的结论是,人群估计的过敏患病率是医生估计的两倍重要[60].然而,尽管存在这些局限,我们的研究在将在线论坛作为现实世界证据的补充来源时,证实了食物、压力和心理因素之间已知的复杂关系。

结论

肠胃不适是法国网络论坛上一个积极讨论的话题。当在一部分活跃用户中确定时,大多数活跃用户的性别和年龄往往反映出40岁以下女性中较高的DGBIs患病率。我们能够根据特定的胃肠道症状或诊断出的疾病将网络用户划分为几个集群,并以不同的人口统计学参数和与压力相关的变量表达为特征。网民认为肠胃不适的主要因素是食物和心理因素。本文可以从基于其他来源的类似分析中受益,以涵盖更多的语言(如英语),在更大范围内研究不同饮食和文化背景下结果的异同。总之,这种创新的信息流行病学方法表明,在网上确定与胃肠道不适相关的讨论主题是可行的,可以作为现实世界证据的补充来源。

致谢

这项研究由达能纽迪西亚研究所资助。

利益冲突

FS、JJ和BL是达能纽迪西亚研究公司的员工。GF收到了达能Nutricia Research的咨询费。

多媒体附件1

语料库的描述。

DOCX文件,21 KB

多媒体附件2

每个数据源提取的消息数量和关联的web用户数量。

DOCX文件,22 KB

多媒体

用于提取消息的关键字列表。

DOCX文件,23kb

多媒体附件4

用于网络用户细分的特征列表。

DOCX文件,21 KB

多媒体

用于用户细分的解剖区域和病理生理机制列表。

DOCX文件,20kb

多媒体附件6

用于识别感知因素的因果关系术语列表。

DOCX文件,28 KB

  1. 蒋曦,骆家辉,钟瑞生,Zinsmeister AR, Schleck CD, Talley NJ。腹胀和可见腹胀的患病率和危险因素:一项基于人群的研究。Gut 2008 Jun;57(6):756-763 [免费全文] [CrossRef] [Medline
  2. Tielemans MM, Jaspers Focks J, van Rossum LG, Eikendal T, Jansen JB, Laheij RJ,等。胃肠道症状仍然普遍存在,并对健康相关的生活质量产生负面影响:荷兰一项基于大规模横断面人群的研究。PLoS One 2013;8(7):e69876 [免费全文] [CrossRef] [Medline
  3. Schmulson MJ, Drossman DA。罗马IV.《神经胃肠杂志》2017年4月30日;23(2):151-163 [免费全文] [CrossRef] [Medline
  4. 肠易激综合征的全球患病率和危险因素:一项荟萃分析。中华胃肠病杂志2012 7月;10(7):712-21.e4。[CrossRef] [Medline
  5. 史佩博,杜密特拉斯库,傅志强,葛森,葛夏,等。由于研究的异质性,IBS在成人中的全球患病率仍然难以捉摸:罗马基金会工作团队的文献综述。Gut 2017 Jun;66(6):1075-1082。[CrossRef] [Medline
  6. 彭丽娟,刘志刚,李志刚,等。法国肠易激综合征患者的负担成本。中华胃肠病学杂志2004年4月39(4):336-343。[CrossRef] [Medline
  7. Frändemark Å, Törnblom H, Jakobsson S, Simrén M.工作效率和肠易激综合征(IBS)的活动障碍:一个多方面的问题。美国胃肠杂志2018年10月;113(10):1540-1549。[CrossRef] [Medline
  8. Canavan C, West J, Card T.评论文章:肠易激综合征的经济影响。2014年11月;40(9):1023-1034 [免费全文] [CrossRef] [Medline
  9. Cogliandro R, Antonucci A, de Giorgio R, Barbara G, Cremon C, Cogliandro L,等。患者报告的结果和功能性胃肠疾病的肠道运动障碍。神经胃肠杂志2011年12月;23(12):1084-1091。[CrossRef] [Medline
  10. Posserud I, Syrous A, Lindström L, Tack J, Abrahamsson H, Simrén M.肠易激综合征患者直肠知觉改变与症状严重程度相关。胃肠病学2007年10月;133(4):1113-1123。[CrossRef
  11. bennett SM, Polster A, Törnblom H, Isaksson S, Capronnier S, Tessier A,等。肠易激综合征患者的整体细胞因子谱及其与临床特征的关系。美国胃肠杂志2016年8月;111(8):1165-1176。[CrossRef] [Medline
  12. 邓禄普SP, Hebden J, Campbell E, Naesdal J, Olbe L, Perkins AC,等。腹泻型肠易激综合征亚组的肠通透性异常。美国胃肠杂志2006年6月;101(6):1288-1294。[CrossRef] [Medline
  13. 点击J, Derrien M, Törnblom H, Brazeilles R, Cools-Portier S, Doré J,等。与肠易激综合征严重程度相关的肠道菌群特征的鉴定。胃肠病学2017年1月;152(1):111-23。e8 [免费全文] [CrossRef] [Medline
  14. 张志刚,张志刚,张志刚,张志刚,等。肠道解释:情绪调节的困难可能有助于解释有胃肠道症状的年轻人内脏敏感性与抑郁和焦虑的关系。心理健康医学2018年8月;23(7):840-845。[CrossRef] [Medline
  15. Zamani M, Alizadeh-Tabari S, Zamani V.系统回顾与荟萃分析:焦虑和抑郁在肠易激综合征患者中的患病率。中国药物学杂志2019 7月;50(2):132-143。[CrossRef] [Medline
  16. Enck P, Koehler U, Weigmann H, Mueller-Lissner S.腹痛、抽筋或不适会损害女性的生活质量:一项基于互联网的观察性试点研究,重点关注治疗的影响。中华胃肠杂志2017 Mar;55(3):260-266。[CrossRef] [Medline
  17. Brun-Strang C, Dapoigny M, Lafuma A, Wainsten JP, Fagnani F.法国肠易激综合征:生活质量、医疗管理和成本:Encoli研究。欧洲胃肠肝病杂志2007年12月19日(12):1097-1103。[CrossRef] [Medline
  18. 福特AC,莱西BE,塔利NJ。肠易激综合症。中华医学杂志2017年6月29日;376(26):2566-2578。[CrossRef] [Medline
  19. 马洪杰,李志刚,李志刚,李志刚,等。婴儿功能性胃肠疾病及相关体征和症状的费用:英国的系统文献回顾和费用计算Br Med J Open 2017 11月14日;7(11):e015594。[CrossRef] [Medline
  20. El-Salhy M, Ostgaard H, Gundersen D, Hatlebakk JG, Hausken T.饮食在肠易激综合征发病机制和治疗中的作用(综述)。国际分子医学杂志2012 5月;29(5):723-731。[CrossRef] [Medline
  21. Monsbakken KW, Vandvik PO, Farup PG.肠易激综合征患者的食物不耐受——病因学、患病率和后果。中华临床病学杂志2006 5月;60(5):667-672 [免费全文] [CrossRef] [Medline
  22. McKenzie YA, Bowyer RK, Leach H, Gulia P, Horobin J, O'Sullivan NA,(代表英国饮食协会消化病学专家组的IBS饮食指南审议组)。英国饮食协会成人肠易激综合征饮食管理的系统评价和循证实践指南(2016年更新)。2016年10月29日(5):549-575。[CrossRef] [Medline
  23. FODMAP饮食对肠易激综合征患者的争议和现实。《胃肠肝病杂志》2019年7月;34(7):1134-1142。[CrossRef] [Medline
  24. Whitfield KL, Shulman RJ。功能性胃肠疾病的治疗选择:从经验到补充的方法。儿科安2009年5月;38(5):288- 90,92 [免费全文] [Medline
  25. 福克斯S,达根M.健康在线。皮尤研究中心,2013年1月15日。URL:http://www.pewinternet.org/2013/01/15/health-online-2013/[2018-02-27]访问
  26. 李丽娟,李丽娟,李丽娟。基于机器学习算法的文本文档分类研究。JAIT 2010年2月1日;1(1):-。[CrossRef
  27. 施佩尔W,王MK,阿诺德CW。使用短语和文档元数据改进临床报告的主题建模。J Biomed Inform 2016年6月;61:260-266 [免费全文] [CrossRef] [Medline
  28. 郑晨,拉希德,吴勇,Koblick R,林亚平,Levy GD,等。使用自然语言处理和机器学习从电子临床记录中识别痛风发作。关节炎护理Res(霍博肯)2014年11月;66(11):1740-1748 [免费全文] [CrossRef] [Medline
  29. 毛俊杰,钟,本顿,山S,安格尔,李国强,等。乳腺癌幸存者中药物副作用和停药的在线讨论。药物流行病学药物saff 2013 Mar;22(3):256-262 [免费全文] [CrossRef] [Medline
  30. 陈X, Faviez C, Schuck S, Lillo-Le-Louët A, Texier N, Dahamna B,等。挖掘患者在社交媒体上的叙述以进行药物警戒:哌醋甲酯的不良反应和滥用。Front Pharmacol 2018;9:541 [免费全文] [CrossRef] [Medline
  31. Foulquié P, Voillot P, Faviez CM, Mebarki A, Chen X, Texier N,等。Étude de l 'usage du méthylphénidate sur les réseaux sociaux。Revue d'Épidémiologie et de Santé Publique 2018 Jun;66:S225 [免费全文] [CrossRef
  32. Schück S, Foulquié P, Mebarki A, Voillot P, Texier N, Faviez C. Détection自动mésusage des神经leptiques dans le焦虑的麻烦和la démence à partir des réseaux sociaux。Revue d'Épidémiologie et de Santé Publique 2018 Jun;66:S211-S212 [免费全文] [CrossRef
  33. Schück S, Voillot P, Foulquié P, Faviez C, Mebarki A, Texier N,等。预约les réseaux定量社会à左甲状腺卫生危机'août 2017。Revue d'Épidémiologie et de Santé Publique 2018 Jun:s225 [免费全文] [CrossRef
  34. 数字糖尿病:糖尿病预防、管理和研究的前景。糖尿病杂志2019 Sep;45(4):322-329。[CrossRef] [Medline
  35. Golder S, Ahmed S, Norman G, Booth a .对使用社交媒体的研究伦理的态度:系统综述。J Med Internet Res 2017年6月6日;19(6):e195 [免费全文] [CrossRef] [Medline
  36. Doctissimo论坛,2020。URL:http://archive.today/SCVBL[2020-10-02]访问
  37. Abdellaoui R, Schück S, Texier N, Burgun A.过滤实体以优化从社交媒体识别药物不良反应:信息中实体之间的字数如何帮助?J medical Internet Res公共卫生监测2017年6月22日;3(2):e36 [免费全文] [CrossRef] [Medline
  38. Kürzinger ML, Schück S, Texier N, Abdellaoui R, Faviez C, Pouget J,等。法国医学论坛数据基于网络的信号检测:比较分析。J Med Internet Res 2018年11月20日;20(11):e10466 [免费全文] [CrossRef] [Medline
  39. Najork M. Web爬虫架构。数据库系统百科全书。URL:https://doi.org/10.1007/978-0-387-39940-9_457[2020-10-02]访问
  40. 高希DD,古哈R.我们在“推特”上关于肥胖的什么?基于主题建模和地理信息系统的推文映射。中国地质大学学报(自然科学版),2013;40(2):90-102 [免费全文] [CrossRef] [Medline
  41. Paul MJ, Dredze M.使用主题模型在社交媒体中发现健康主题。PLoS One 2014;9(8):e103408 [免费全文] [CrossRef] [Medline
  42. 杨晓明,张晓明,张晓明,等。网络论坛健康行为分析方法研究。见:第六届ACM生物信息学、计算生物学和健康信息学会议论文集。2015年发表于:BCB'15;2015年9月;亚特兰大,乔治亚州。[CrossRef
  43. Tapi Nzali MD, Bringay S, Lavergne C, Mollevi C, Opitz T.患者可以告诉我们的:关于乳腺癌的社交媒体主题分析。J Med Internet Res Med Inform 2017年7月31日;5(3):e23 [免费全文] [CrossRef] [Medline
  44. 布莱DM,拉弗蒂JD。文本挖掘:分类、聚类和应用。佛罗里达州博卡拉顿:CRC出版社;2020.
  45. 布莱DM,拉弗蒂JD。第23届机器学习国际会议论文集。2006年6月发表于:ACM'06;2006年6月25日至29日;宾夕法尼亚匹兹堡大学。
  46. Roberts M, Stewart B, Tingley D. Stm:结构主题模型包。J Stat Soft 2019 10月31日;91(2):1-40 [免费全文] [CrossRef
  47. 社区中性别对肠易激综合征患病率的影响:系统回顾和荟萃分析。美国胃肠杂志2012 7月;107(7):991-1000。[CrossRef] [Medline
  48. Pinto-Sanchez MI, Verdu EF。非乳糜泻麸质或小麦敏感:这很复杂!神经胃肠ol Motil 2018年8月30日(8):e13392。[CrossRef] [Medline
  49. McNaughton DT, Andreasson A, Ljótsson B, Beath AP, Hush JM, Talley NJ,等。心理和胃肠外症状对患有和不患有肠易激综合征的受试者保健使用的影响临床胃肠肝功能杂志2020年4月;18(4):847-54.e1。[CrossRef] [Medline
  50. 张丽娟,刘永强,王永强,王永强。理解营养流行病学及其在政策中的作用。Adv Nutr 2015 Jan;6(1):5-18 [免费全文] [CrossRef] [Medline
  51. Ferrara G, Kim J, Lin S, Hua J, Seto E.对智能手机饮食跟踪应用程序的重点回顾:可用性,功能,与行为改变理论的一致性,以及营养摄入和能量估计的相对有效性。J Med Internet Res Mhealth Uhealth 2019 5月17日;7(5):e9232 [免费全文] [CrossRef] [Medline
  52. Schäfer F, Jeanne JF。在不断变化的业务挑战中评估粮食对健康的影响。2018年12月12:51-54 [免费全文] [CrossRef] [Medline
  53. Khazen W, Jeanne JF, Demaretz L, Schäfer F, Fagherazzi G.重新思考移动应用程序在医学研究中的饮食评估。J Med Internet Res 2020 Jun 18;22(6):e15619 [免费全文] [CrossRef] [Medline
  54. 姚ck, Gibson PR, Shepherd SJ。评估功能性胃肠疾病患者饮食干预的临床试验设计。美国胃肠杂志2013年5月;108(5):748-758。[CrossRef] [Medline
  55. Pérez-Pérez M, Pérez-Rodríguez G, Fdez-Riverola F, Lourenço A.使用twitter了解人类肠道疾病社区:关键主题的探索性分析。J Med Internet Res 2019 Aug 15;21(8):e12610 [免费全文] [CrossRef] [Medline
  56. 我的症状应用程序。URL:https://skygazerlabs.com/wp/[2020-10-02]访问
  57. Clevers E, Törnblom H, Simrén M, Tack J, van Oudenhove L.食物摄入、心理困扰和胃肠道症状的关系:日记研究。United European Gastroenterol J 2019 Aug;7(7):965-973 [免费全文] [CrossRef] [Medline
  58. 你有SNDS吗?Système国家Des Données De Santé。2020.URL:http://archive.today/7DDam%20on%2002Aug2019[2020-10-02]访问
  59. Sabaté JM, Rivière S, Jouet P, Gastaldi-Menager C, Fagot-Campagna A, Tuppin P.法国3万名肠易激综合征(IBS)患者的医疗保健使用:一项5年回顾性和1年前瞻性国家观察性研究。BioMed Central Gastroenterol 2019 6月27日;19(1):111 [免费全文] [CrossRef] [Medline
  60. Gupta RS, Warren CM, Smith BM, Jiang J, Blumenstock JA, Davis MM,等。美国成年人食物过敏的患病率和严重程度。美国医学协会网络公开赛2019年1月4日;2(1):e185630 [免费全文] [CrossRef] [Medline


DGBI:肠道-大脑相互作用障碍
GERD:胃食管反流病
GI:胃肠
肠易激综合症:肠易激综合症
LDA:潜在狄利克雷分配
MedDRA:管理活动的医学词典
TF-IDF:术语频率-逆文档频率


G·艾森巴赫(G Eysenbach)编辑;提交28.11.19;同行评议:D Pougheon Bertrand, F Lamy;对作者10.03.20的评论;修订版本收到30.04.20;接受25.06.20;发表03.11.20

版权

©Florent Schäfer, Carole Faviez, Paméla Voillot, Pierre Foulquié, Matthieu Najm, Jean-François Jeanne, Guy Fagherazzi, Stéphane Schück, Boris Le Nevé。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2020年11月3日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map