这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
众所周知,卫生专业人员和卫生消费者之间的术语差距阻碍了消费者有效的信息搜索。
本研究的目的是通过评估统一医学语言系统(UMLS)在两种社交媒体(博客和社交问答)中糖尿病相关帖子的概念和语义类型的覆盖率,更好地了解消费者对医学概念的使用情况。
我们收集了两种类型的社交媒体数据:(1)2015年2月至10月期间在Tumblr上发布的3711个标记为“糖尿病”的博客;(2) 2009年至2014年间在雅虎糖尿病类别中发布的共计58,422个问题和相关答案。的答案。我们使用广泛采用的生物医学文本处理框架Apache cTAKES及其扩展YTEX分析数据集。首先,我们应用YTEX中实现的命名实体识别(NER)方法来识别数据集中的UMLS概念。然后,我们通过两个数据集(即博客和社交问答)分析了UMLS源词汇表中概念的覆盖率和受欢迎程度。此外,我们在SNOMED临床术语(SNOMED CT)和开放获取协同消费者健康词汇(OAC CHV)(在我们的数据集上覆盖最多的前2个UMLS源词汇)之间进行了概念级的比较覆盖分析。我们还分析了在我们的数据集中经常观察到的UMLS语义类型。
我们从博客文章中确定了2415个UMLS概念,从社交问答问题中确定了6452个UMLS概念,从答案中确定了10378个UMLS概念。博客中确定的医学概念可以由UMLS中的56个源词汇表覆盖,而问答中的医学概念可以由58个源词汇表覆盖。就所有数据集的覆盖率而言,SNOMED CT是占主导地位的词汇,范围为84.9%至95.9%。其次是OAC CHV(73.5% ~ 80.0%)和Metathesaurus Names (MTH)(55.7% ~ 73.5%)。所有社交媒体数据集都共享常见的语义类型,如“氨基酸、肽或蛋白质”、“身体部位、器官或器官成分”和“疾病或综合征”。
尽管这3个社交媒体数据集在规模上差异很大,但它们在UMLS源词汇表中表现出相似的概念覆盖,所识别的概念表现出相似的语义类型分布。因此,可以向OAC CHV建议消费者经常使用的概念,以及在SNOMED CT等专业词汇表中发现的概念,以提高其覆盖率。
众所周知,保健消费者和保健专业人员之间存在着语言差距[
为了弥合卫生专业人员和消费者之间的词汇差距,早期的研究人员收集并分析了消费者产生的各种文本数据,以确定消费者使用的医学术语。布伦南和阿伦森[
受控词汇表是“用于索引内容和/或通过浏览或搜索检索内容的单词和短语的有组织的排列[
领域覆盖——受控词汇表覆盖预期领域的程度——是受控词汇表最需要的属性之一[
为了跟上医学知识的不断发展,CHV需要通过纳入新的消费者提供的术语和表达来更新和维护[
然而,消费者也可以学习和使用专业术语[
然而,这种方法不能直接应用于CHV,因为它没有层次关系(如CHV)。父子关系),以构建拓扑模式[
以前大多数关于CHV发展的研究都集中在识别消费者使用的新术语[
在这项研究中,我们将重点放在糖尿病上,这是世界卫生组织(WHO)公认的最重要的公共卫生问题之一,人们对健康的关注不断升级[
在这项研究中,我们从Tumblr收集了与糖尿病相关的消费者博客帖子,从Yahoo!的答案。我们进行了文本挖掘,从我们的数据集中识别UMLS概念。因此,我们制定了2个研究问题(rq):(1) UMLS源词汇表中的概念在多大程度上涵盖了消费者在社交媒体(尤其是博客和社交问答)上描述其糖尿病相关问题时所使用的概念?哪些概念重叠或不重叠?(2) UMLS语义类型在多大程度上适用于分析消费者在社交媒体(尤其是博客和社交问答)中描述糖尿病相关担忧时所使用的概念?观察到哪些语义类型?
在第一个研究问题中,我们评估了来自Tumblr和Yahoo!的答案。在第二个研究问题中,我们分析了在我们的数据集中识别的UMLS概念的语义类型。
本研究主要调查UMLS中来自社交媒体的消费者概念与专业概念的重叠。事实上,消费者经常主动在社交媒体上寻求和分享在线健康信息。
UMLS由美国国立卫生研究院的NLM维护,是最大的生物医学术语系统。它的2级结构由异义词和语义网络组成。UMLS mettathesaurus是“一个大型的、多用途的、多语言的同义词词典,包含数百万个生物医学和健康相关的概念、它们的同义词及其关系”[
UMLS语义类型代表了“一组广泛的主题类别,为UMLS metthesaurus中表示的所有概念提供了一致的分类”[
OAC CHV已用于各种与健康相关的应用,以改善患者对健康信息的获取。Zeng等人开发了一种翻译器,专门将电子健康记录中的文本转换为患者健康记录中的消费者友好文本,方法是将UMLS术语替换为相应的OAC CHV术语[
本研究分析了两种类型的社交媒体,即博客和社交问答,因为它们允许消费者以文本形式生成和自由交换健康信息。与健康有关的博客是传播健康资讯最受欢迎的社交媒体之一。博客通常会描述他们与疾病相关的个人经历,以及与医护人员的接触[
Tumblr和雅虎!之所以选择这些答案进行当前研究,是因为它们的受欢迎程度和使用其应用程序接口(api)的便利性,这使我们能够自动从这些网站收集数据。此外,Tumblr和Yahoo!回答不限制字数。因此,他们的用户可以详细阐述他们的健康问题和帖子上的信息,从而为我们提供充足的机会从帖子中提取和分析相关概念。
Tumblr是增长最快的博客网站之一,从2012年10月到2015年10月,博客数量增长了近20倍[
雅虎Answers是最受欢迎的社交问答网站之一,截至2016年2月,每月约有560万人次访问[
有一次我们从Tumblr和Yahoo!答案是,我们从文本数据中挖掘“概念”,这是一个代表术语基本组成部分的理解单位[
我们使用了广泛采用的生物医学文本处理框架Apache cTAKES™[
研究的概念框架。点指的是从数据集中提取的概念,灰点指的是映射到UMLS源词汇表之一中的概念的概念。
我们首先分析了从Tumblr和雅虎收集的数据集中总体概念覆盖率的基本特征。答案:(1)来自Tumblr的博客帖子,(2)雅虎的问题!答案,和(3)在雅虎!的答案。然后,我们分析了UMLS中每个源词汇在数据集中的覆盖率。SNOMED CT和CHV是我们数据集中概念覆盖率最高的两个词汇。因此,基于我们的数据集,我们对SNOMED CT和CHV进行了概念覆盖分析。我们还分析了从我们的数据集中识别的概念的语义类型。
我们从博客文章中确定了2415个UMLS概念,从问题中确定了6452个UMLS概念,从答案中确定了10378个UMLS概念。
数据集之间有明显的变化。超过80%的问答文档包含一个或多个UMLS概念,而来自博客的文档只有不到一半。超过一半的问答句子包含至少一个UMLS概念,而只有27%的博客文章包含至少一个UMLS概念。
数据集中UMLS概念覆盖的基本特征。
|
Tumblr | 雅虎答案 | ||||
|
博客 | 问题 | 答案 | |||
|
#总 | # UMLS概念 | #总 | # UMLS概念 | #总 | # UMLS概念 |
文档 | 3711 | 1388例(37.4%) | 58422年 | 51850例(88.8%) | 58422年 | 51550例(88.2%) |
句子 | 47413年 | 12802例(27.0%) | 249013年 | 142802例(57.3%) | 348793年 | 216736例(62.1%) |
概念 | - - - - - - | 2415 | - - - - - - | 6452 | - - - - - - | 10378年 |
博客中的概念由56个UMLS源词汇表涵盖,而问答中的概念由58个源词汇表涵盖。
前20个主要涵盖了UMLS源词汇表。
|
Tumblr | 雅虎答案 | ||||||||||
排名 | 博客(n = 2415) | 问题(n = 6452) | 答案(n = 10378) | |||||||||
源的词汇 | 概念数量 | % | 源的词汇 | 概念数量 | % | 源的词汇 | 概念数量 | % | ||||
1 | snom CT | 2315 | 95.9 | snom CT | 5476 | 84.9 | snom CT | 9032 | 87.0 | |||
2 | CHV | 1931 | 80.0 | CHV | 4928 | 76.4 | CHV | 7625 | 73.5 | |||
3. | m | 1774 | 73.5 | m | 3899 | 60.4 | m | 5780 | 55.7 | |||
4 | NCIt | 1156 | 47.9 | 网 | 2957 | 45.8 | 网 | 4796 | 46.2 | |||
5 | 网 | 1130 | 46.8 | NCIt | 2917 | 45.2 | NCIt | 4485 | 43.2 | |||
6 | CSP | 812 | 33.6 | CSP | 1840 | 28.5 | NDFRT | 2999 | 28.9 | |||
7 | 大气气溶胶 | 775 | 32.1 | NDFRT | 1775 | 27.5 | CSP | 2839 | 27.4 | |||
8 | LCH_NW | 771 | 31.9 | LCH_NW | 1627 | 25.2 | LCH_NW | 2436 | 23.5 | |||
9 | LOINC | 697 | 28.9 | 大气气溶胶 | 1585 | 24.6 | 大气气溶胶 | 2335 | 22.5 | |||
10 | NDFRT | 659 | 27.3 | LOINC | 1510 | 23.4 | RXNORM | 2099 | 20.2 | |||
11 | 华尔街日报 | 587 | 24.3 | RXNORM | 1421 | 22.0 | LOINC | 2081 | 20.1 | |||
12 | NCI_NCI-GLOSS | 475 | 19.7 | 华尔街日报 | 1187 | 18.4 | 华尔街日报 | 1730 | 16.7 | |||
13 | 医疗在线 | 402 | 16.6 | NCI_NCI-GLOSS | 952 | 14.8 | NCI_FDA | 1387 | 13.4 | |||
14 | 中科 | 365 | 15.1 | NCI_FDA | 868 | 13.5 | DXP | 1322 | 12.7 | |||
15 | 配角 | 362 | 15.0 | 配角 | 835 | 12.9 | NCI_NCI-GLOSS | 1321 | 12.7 | |||
16 | NCI_FDA | 345 | 14.3 | DXP | 830 | 12.9 | 配角 | 1257 | 12.1 | |||
17 | 人类 | 342 | 14.2 | 中科 | 794 | 12.3 | 人类 | 1234 | 11.9 | |||
18 | RXNORM | 338 | 14.0 | 人类 | 790 | 12.2 | 中科 | 1206 | 11.6 | |||
19 | DXP | 326 | 13.5 | 医疗在线 | 721 | 11.2 | VANDF | 1117 | 10.8 | |||
20. | ICD9CM | 241 | 10.0 | VANDF | 644 | 10.0 | MTHSPL | 1033 | 10.0 |
snoomed CT和CHV所涵盖的十大常见概念。
排名 | Tumblr | 雅虎答案 | ||||
|
|
问题 | 答案 | |||
概念 | 频率。 | 概念 | 频率。 | 概念 | 频率。 | |
1 | 血液(C0005767) | 816 | 血液(C0005767) | 30654年 | 血液(C0005767) | 54689年 |
2 | 疼痛(C0030193) | 798 | 糖(C0242209) | 29593年 | 糖(C0242209) | 49207年 |
3. | 胰岛素(C0021641) | 744 | 胰岛素(C0021641) | 10816年 | 胰岛素(C0021641) | 27887年 |
4 | 药物制剂(C0013227) | 719 | 葡萄糖(C0017725) | 7394 | 葡萄糖(C0017725) | 26420年 |
5 | 糖(C0242209) | 699 | 问题(C0033213) | 5111 | 药物制剂(C0013227) | 11571年 |
6 | 疾病(C0012634) | 617 | 水(C0043047) | 4781 | 疾病(C0012634) | 9733 |
7 | 问题(C0033213) | 568 | 药物制剂(C0013227) | 4456 | 碳水化合物(C0007004) | 9517 |
8 | 糖尿病(C0011849) | 501 | 血液测试(C0018941) | 3784 | 问题(C0033213) | 9248 |
9 | 齿结构(C0040426) | 424 | 疼痛(C0030193) | 3625 | 水(C0043047) | 5994 |
10 | 手术手术程序(C0543467) | 375 | 尿液(C0042036) | 2550 | 禁食(C0015663) | 5848 |
CHV而非SNOMED CT所覆盖的10个经常观察到的概念。
|
Tumblr | 雅虎答案 | |||||
排名 |
|
|
问题 | 答案 | |||
概念(崔)一个 | 频率。 | 概念(崔) | 频率。 | 概念(崔) | 频率。 | ||
1 | 苹果醋(C0937941) | 54 | 胃(C0038351) | 1050 | 应用(C0876064) | 689 | |
2 | 苹果醋(C1178459) | 54 | 应用(C0876064) | 571 | 匹格列酮(C0875954) | 659 | |
3. | 应用(C0876064) | 15 | 优泌林(C0528249) | 260 | 文迪雅(C0875967) | 628 | |
4 | 温柔(C0720654) | 11 | NovoLog (C0939412) | 180 | 优泌林(C0528249) | 289 | |
5 | 纠正(C0719519) | 9 | 二甲双胍能够(C0591573) | 131 | NovoLog (C0939412) | 255 | |
6 | 肉毒杆菌(C0700702) | 9 | Levemir (C1314782) | 122 | Levemir (C1314782) | 184 | |
7 | 消除(C0073361) | 6 | 匹格列酮(C0875954) | 95 | 二甲双胍能够(C1314782) | 161 | |
8 | 优泌林(C0528249) | 5 | 思瑞康(C0287163) | 78 | Novolin (C0028467) | 112 | |
9 | 珠子剂型(C0991566) | 3. | Synthroid (C0728762) | 62 | 伟哥(C0663448) | 105 | |
10 | 匹格列酮(C0875954) | 3. | 香豆素(C0699129) | 54 | Triphosphat (C0146894) | 77 |
一个CUI:概念唯一标识符
来自前两个源词汇表SNOMED CT和CHV的概念之间存在显著重叠- 78.2%(1889/2415)来自博客文章的概念,70.0%(4518/6452)来自问题的概念,68.4%(7095/ 10378)来自回答的概念。
少数概念仅被CHV覆盖:博客文章中1.7%(40/2415)个概念,问题中6.3%(409/6452)个概念,答案中5.1%(529/ 10378)个概念。
所有的概念
SNOMED CT也涵盖了一些概念,但CHV没有涵盖:17.6%(424/2415)的概念来自博客文章,957/6452(14.8%)的概念来自问题,18.7%(36% /10,378)的概念来自答案(见
前10个常被SNOMED CT覆盖但不包括CHV的概念。
|
Tumblr | 雅虎答案 | ||||
排名 |
|
|
问题 | 答案 | ||
概念(崔)一个 | 频率。 | 概念(崔) | 频率。 | 概念(崔) | 频率。 | |
1 | 整个皮肤(C1278993) | 524 | 症状(C1457887) | 7690 | 症状(C1457887) | 12727年 |
2 | 症状(C1457887) | 393 | 脂肪酸甘油酯(C0015677) | 1789 | 脂肪酸甘油酯(C0015677) | 8727 |
3. | 背部结构,不包括颈部(C1995000) | 236 | 整脚(C1281587) | 1647 | 整个细胞(C1269647) | 6435 |
4 | 按摩(C0024875) | 217 | 背部结构,不包括颈部(C1995000) | 1589 | 整颗心脏(C1281570) | 3204 |
5 | 脂肪酸甘油酯(C0015677) | 210 | 整个肾脏(C1278978) | 1368 | 整个胰腺(C1278931) | 3003 |
6 | 培训(C0220931) | 163 | 全眼(C1280202) | 1210 | 整个皮肤(C1278993) | 2614 |
7 | 整个胰腺(C1278931) | 157 | 保护杯(C1533124) | 1159 | 保护杯(C1533124) | 2178 |
8 | 整颗心脏(C1281570) | 156 | 整个下肢(C1269079) | 985 | 全胃(C1278920) | 1876 |
9 | 整个口腔(C1278910) | 138 | 整只手(C1281583) | 969 | 注射程序(C1533685) | 1561 |
10 | 整个脊柱(C1280065) | 137 | 整个皮肤(C1278993) | 912 | 整个骨骼(C1266909) | 1501 |
一个CUI:概念唯一标识符
在127个UMLS语义类型(STY)中,大约有一半在我们的数据集中被识别出来:博客文章中有52个STYs(40.9%),问题中有59个STYs(46.5%),答案中有54个STYs(42.5%)。总的来说,我们的数据集中有52个共享的STYs, STYs有显著的重叠。然而,仅在问题中就确定了七个STYs,包括“功能概念”、“智力产品”、“实验室程序”、“器官或组织功能”、“有机体属性”、“社会行为”和“物质”。两个STYs,“完全形成的解剖结构”和“细胞或分子功能障碍”,在问题中没有找到,但在答案数据集和博客数据集中都有。
在比较数据集中最常观察到的前10个STYs时,10个STYs中有9个(即“发现”、“药理学物质”、“治疗或预防程序”、“疾病或综合征”、“有机化学”、“身体部位、器官或器官成分”、“体征或症状”、“医疗设备”和“氨基酸、肽或蛋白质”)通常出现在数据集中,在频率方面存在微小差异。“实验室程序”经常出现在问题中,但在博客和回答中却很少出现。“病理功能”经常出现在回答中,而不是在博客和问题中。经常观察到的STYs的例子概念表明,外行倾向于在社交媒体上频繁使用常见概念来描述他们与糖尿病相关的问题。为了说明这一点,
识别概念中最常观察到的20种语义类型。
排名 | Tumblr | 雅虎答案 | ||||||||
博客 | 问题 | 答案 | ||||||||
语义类型 | 概念一个 | 语义类型 | 概念 | 语义类型 | 概念 | |||||
n (%) | 频率。 | n (%) | 频率。 | n (%) | 频率。 | |||||
1 | 发现 | 380 |
5277 | 药物的物质 | 1240 (19.2) | 53976年 | 药物的物质 | 1995 |
185880年 | |
2 | 药物的物质 | 307 (12.7) | 4413 | 有机化学 | 1006 |
41255年 | 有机化学 | 1692 |
123509年 | |
3. | 治疗或预防程序 | 241 |
3184 | 发现 | 895 |
30458年 | 疾病或综合症 | 1511 |
57379年 | |
4 | 疾病或综合症 | 239 |
2923 | 疾病或综合症 | 743 (11.5) | 28041年 | 发现 | 1302 |
76765年 | |
5 | 有机化学 | 225 |
2737 | 身体的一部分、器官或器官组成部分 | 484 |
27172年 | 身体的一部分、器官或器官组成部分 | 666 |
48584年 | |
6 | 身体的一部分、器官或器官组成部分 | 208 |
2566 | 征兆或症状 | 338 |
19601年 | 治疗或预防程序 | 583 |
16555年 | |
7 | 征兆或症状 | 145 (6.0) | 2214 | 治疗或预防程序 | 331 |
16372年 | 氨基酸,肽或蛋白质 | 495 |
40521年 | |
8 | 医疗设备 | 134 |
1319 | 氨基酸,肽或蛋白质 | 305 |
13178年 | 征兆或症状 | 436 |
38905年 | |
9 | 氨基酸,肽或蛋白质 | 70 |
1112 | 医疗设备 | 201 |
12862年 | 医疗设备 | 347 |
20391年 | |
10 | 生物活性物质 | 69 |
1093 | 实验室程序 | 180 |
10580年 | 病理功能 | 292 |
12551年 |
一个百分比是根据UMLS概念的唯一标识的总数计算出来的:Tumblr上的博客:n=2415, Yahoo!答案:n=6452,答案在雅虎!答案:n = 10378
以往的研究[
UMLS概念在博客和社交问答中的使用是不同的,UMLS概念在社交问答帖子中出现的频率更高(几乎90%的问题和答案),而在博客帖子中(约30%)。社交问答用户在帖子中主要讨论与健康相关的问题(在本研究中是糖尿病相关的问题),因为他们参与问答是有目的的。另一方面,博客用户经常在他们的帖子中阐述与健康无关的话题,尽管他们用“糖尿病”来标记他们的帖子。
尽管博客和社交问答之间的UMLS概念覆盖总体存在差异,但我们发现,在不同的数据集中识别的UMLS概念可以被相似数量的UMLS源词汇所覆盖。两个UMLS源词汇表,即SNOMED CT和CHV,显示了最好的覆盖率。我们数据集中的社交媒体用户可能拥有先进的医学知识,因为他们经常使用专业术语。CHV对所有数据集的覆盖范围第二大,尽管CHV的概念和术语数量比SNOMED CT少得多(1:6比)。开发CHV是为了合并消费者生成的文本数据中呈现的消费者表达式。我们的研究结果表明,不同的社交媒体平台可能扮演着消费者生成的CHV丰富文献的类似角色,这证实了文献[
通过比较数据集中SNOMED CT和CHV之间的概念覆盖率,我们研究了博客和社交媒体用户之间概念使用的差异。例如,
根据我们的分析,CHV而非SNOMED CT覆盖的独特概念的百分比从1.7%到6.3%不等。在博客数据集中,大约有3000个博客被分析,只有40个概念被CHV专门涵盖。另一方面,在雅虎!CHV覆盖了问题中的409个概念(6.3%),答案中的529个概念(5.1%),而SNOMED CT没有覆盖。这些结果表明,更大的数据集将产生更多的外行概念。数据集的大小也会影响语义的多样性。在我们的所有数据集中,都经常观察到同一组9种语义类型。“发现”、“药理学物质”和“疾病和综合征”是最常见的4种语义类型。
也观察到了差异。对于消费者来说,博客可能是更好的平台,可以讨论有机化学物质、药理学物质,或者糖尿病的治疗或预防程序。然而,有机化学和药理物质的概念也经常出现在社会问答中。在社交问答数据中,观察到博客中没有识别的7种语义类型,这表明更大的数据集可能会产生更多样化的医学概念。
这项研究有一些局限性。首先,Tumblr和Yahoo!答案数据在不同的时间范围内收集,大小不同,这可能会影响本研究的结果。本研究中使用的较小容量的博客数据可能会影响所确定的UMLS概念的多样性。虽然写博客和提问/回答对于慢性病患者来说是动态的在线活动,但Tumblr和Yahoo!答案可能不能代表所有健康信息用户的概念使用。数据集可以扩展到包括其他类型的社交媒体,如糖尿病相关的讨论板。这些在线资源的用户可能偏向于那些技术熟练程度较高的人,例如那些更年轻、受教育程度更高或社会经济地位较高的人,他们更有可能在互联网上寻求健康信息。这项研究可能无法反映老年人、受教育程度较低或社会弱势群体的经历。
目前的研究考察了社交媒体作为用户生成文件的潜力,在这些文件中,消费者的医学概念可以被观察到,并用于为普通健康信息用户开发受控词汇。我们选择并测试了2个社交媒体场所,分别是博客和社交问答。我们的研究结果显示,在控制词汇的使用上,相似度大于差异。数据集的大小可能会影响识别的概念的数量。然而,源词汇表、常用概念和概念语义类型的相似性表明,社交媒体网站倾向于反映外行的常识。更重要的是,我们发现社交媒体用户不仅使用CHV中的消费者概念,还使用SNOMED CT等专业词汇中的概念。这表明通过合并来自其他UMLS源词汇表的概念,CHV仍然有改进的空间。我们研究的重点不是确定消费者医疗概念的列表,而是测试利用社交媒体数据来确定现有UMLS源词汇表所涵盖的消费者概念的可行性。最终,它将帮助消费者在线搜索健康信息,缩小普通健康信息用户和医疗专业人员之间的差距。在未来的研究中,我们将采用自动化方法从社交媒体中识别和推荐新的医学术语和概念,以丰富CHV。
表A1。中的UMLS源词汇表的全名
应用程序语言
原子唯一标识符
科学项目信息计算机检索同义词典
概念唯一标识符
信息内容
国会图书馆主题标题,西北大学子集
逻辑观察标识符名称和代码
医学学科标题
国家癌症研究所同义词典
国家药品档案-参考术语
命名实体识别
国家医学图书馆
自然语言处理
开放获取协同消费者健康词汇
词性
问题与答案
临床术语
语义类型
非结构化信息管理体系结构
统一医学语言系统
词义消歧
我们要感谢沃伦·艾伦博士为这项工作提供的计算资源。这项工作得到了亚马逊网络服务教育和研究赠款奖(PI: He)的部分支持。这项工作也得到了国家促进转化科学中心临床和转化科学奖UL1TR001427 (PI: Nelson & Shenkman)的部分支持。内容仅为作者的责任,不代表美国国立卫生研究院的官方观点。
MP发起了这项研究的想法。ZH领导了这项研究的概念化、设计和实施。MP收集并提供了tumblr网站上的博客数据。SO收集并提供了来自雅虎的社交问答数据。的答案。ZC对数据集执行自然语言处理,并在关系数据库中结构化结果。MP进行数据分析并起草初始版本;ZH, SO, BJ对重要的知识内容进行了批判性和迭代性的广泛修订。所有作者都对方法开发、结果解释做出了贡献,对论文进行了重大编辑,并最终批准了该版本的出版。ZH对本文报道的研究负主要责任。
没有宣布。