医学互联网研究杂志-使用信息检索方法为糖尿病问题推荐教材

原始论文

¹广州中医药大学第二临床学院，中国广州

²美国明尼苏达州罗切斯特市梅奥诊所梅奥医学院健康科学研究部

^3.中国深圳，中山大学第七附属医院中医科

⁴布法罗大学计算机科学与工程系，纽约州立大学，布法罗，纽约，美国

*这些作者贡献相同

通讯作者:

Hongfang刘

健康科学研究部

梅奥医学院

梅奥诊所

第一街西南200号

罗切斯特，明尼苏达州，55905

美国

电话:1 5072930057

传真:1 5072841516

电子邮件:Liu.Hongfang@mayo.edu

背景:自我管理对糖尿病护理至关重要，提供专家审查的内容来回答患者的问题对于促进患者自我管理至关重要。

摘要目的:目的是探讨信息检索技术在糖尿病患者教育资料推荐中的应用。

方法:我们将基于Latent Dirichlet Allocation主题建模(基于主题建模的模型)和基于语义组(基于语义组的模型)的两种检索算法，与基线检索模型向量空间模型(VSM)，在为TuDiabetes论坛上发布的糖尿病问题推荐糖尿病患者教育材料时进行了比较。评估基于一个金标准数据集，由50个随机选择的糖尿病问题组成，其中糖尿病教育材料与问题的相关性由两名专家手动分配。使用排名靠前的文献的精密度来评估绩效。

结果:我们在论坛上检索了7510个糖尿病问题，并从梅奥诊所的患者教育数据库中检索了144个糖尿病患者教育材料。每个语料库映射到统一医学语言系统(UMLS)的单词映射率显著不同(P<措施)。基于主题建模的检索模型优于其他检索算法。例如，对于顶部检索的文档，基于主题建模、基于语义组和VSM模型的精度分别为67.0%、62.8%和54.3%。

结论:本研究表明，主题建模可以减轻词汇差异，并在为回答患者问题推荐教育材料方面取得最佳表现。未来工作的一个方向是评估我们发现的普遍性，并将我们的研究扩展到其他疾病领域、其他患者教育材料资源和在线论坛。

中国医学杂志，2017;19(10):e342

doi: 10.2196 / jmir.7754

关键字

教育材料；病人；问题；建议；信息检索

糖尿病是一种慢性代谢性疾病，目前全球约有4.15亿糖尿病患者，预计到2040年这一数字将达到6.42亿[1］．患糖尿病与高得多的终生医疗支出相关，尽管与预期寿命缩短有关[2］．糖尿病的最佳控制需要高度的自我管理，个人拥有必要的知识、技能和糖尿病自我护理能力[3.］．自我管理由一组复杂而动态的过程组成，深深植根于每个患者的独特情况[4］．满足每位患者的信息需求对于促进自我管理至关重要。

患者的自我学习是自我管理的重要组成部分。例如，通过自我学习模块，患者可以获得更多的知识，对足部护理的实践干预有更多的了解，这是糖尿病管理中被广泛忽视的一部分[5］．与此同时，互联网已成为患者自学的重要来源。许多在线健康社区和论坛已经成为患者提问和分享信息的热门平台。然而，互联网上健康信息的质量变化很大[6］．向患者提供经过专家审查的信息至关重要。与此同时，有大量经过专家审查的患者教育资源，旨在帮助糖尿病患者改善糖尿病自我管理[7-9];然而，对于没有医学背景的患者来说，找到相关的教育资料是相当具有挑战性的。一个系统可以根据患者在在线论坛上提出的问题自动向他们推荐这些资源，这将是提供经过专家审查的相关教育材料的一种方式。

针对给定的问题检索相关的教育材料可以看作是一项信息检索任务。信息检索是指从与搜索查询相关的文档集合中检索任何类型的信息的任务。一种经典的信息检索方法是基于关键字匹配(即布尔模型)[10]，其中文档表示为一组术语，查询表示为布尔表达式。另一种流行的信息检索方法是排名模型。与布尔模型中术语的权重相等不同，排名模型根据文档与查询中表达的信息需求的相关性对结果列表进行排名[10］．排名通常是计算查询/文档对的数值分数，其中使用了许多评分算法。例如，向量空间模型(VSM)计算查询向量和文档向量之间的相似性，其中可以使用术语频率-逆文档频率(TF-IDF)模型[11，12］．信息搜索的一个常见想法是通过思考可能出现在相关文档中的单词来提出好的查询。如果文档可能生成这样的查询，那么在文档与查询很匹配的情况下，语言模型直接对这些想法建模。对于查询，概率语言模型方法计算一个概率语言模型，并根据模型生成查询的概率对文档进行排序。语义搜索旨在通过理解查询和文档集合中的语义来改进搜索。概念映射通常用于语义搜索，其中关键字映射到术语资源中捕获的概念。在一般英语中，WordNet是一个流行的术语资源，其中的术语根据其含义分组为同义词集，并根据其语义关系组织为层次结构[13］．

最近，主题建模技术已经成为文本挖掘中常用的一种技术，它可以发现文档集合中的抽象主题。最常见的主题建模方法是潜狄利克雷分配(Latent Dirichlet Allocation, LDA)，它允许文档混合使用主题。例如，王和布莱[14]使用主题建模为用户和项目生成了一个可解释的潜在结构，可以为现有和新发表的科学文章提供建议。在信息检索中，主题建模可以有效地实现隐藏语义的合并[15］．

在临床领域，有许多信息检索应用[16]，包括临床决策支持。例如，infore检索器是为家庭医疗提供者设计的，以实践循证医学[17］．信息检索技术也广泛应用于患者教育应用，例如PERSIVAL系统，该系统基于患者个人记录，通过检索和汇总相关教育材料，提供对分布式患者护理数字图书馆的个性化访问。

在这里，我们提出了一个利用最新信息检索技术的系统，该系统为患者在线询问的问题推荐患者教育材料。该系统旨在为患者提供经过专家审查的、面向患者的信息。Kandula等人提出了一个类似的系统[18他们的系统会根据病历推荐相关的教育材料，而不是病人的问题。在这项研究中，我们调查了使用最先进的信息检索方法来推荐糖尿病教育材料，以解决在线糖尿病论坛中可用的问题。

本文概述了本研究的工作流程图1．我们使用三种检索模型设计了推荐系统，包括基于主题建模的模型、基于语义组的模型和VSM模型。为了评估系统中每个模型的性能，我们为随机抽样的问题子集手工创建了一个金标准数据集。

材料

我们研究使用的材料包括从梅奥诊所的患者教育数据库中检索的糖尿病患者教育材料语料库和从糖尿病论坛中检索的问题语料库。在梅奥诊所的批准患者教育材料数据库中，有超过7400份高质量的、专家评审的、基于结果的患者教育材料，这些材料使用疾病概念进行了索引。我们检索了所有与糖尿病相关的教育材料，共计144个文档，以PDF格式，并使用Apache Tika，一个内容分析工具包[19]，将PDF格式转换为纯文本格式，形成患者教育资料语料库。我们选择了一个很受欢迎的糖尿病在线论坛——途糖尿病论坛[20.]，检索糖尿病患者提出的问题。有超过43000名论坛用户发布问题，提供答案或评论，参与讨论，分享经验。论坛上的问题被分为12类。我们从网站上收集了7510个糖尿病问题;对于每个问题，提取相应的标题、内容和类别，形成糖尿病患者的问题语料库。

工具

我们使用来自美国国家医学图书馆(NLM)的统一医学语言系统(UMLS)和相关的概念映射工具MetaMap，从语料库中表示和提取临床概念。UMLS是一个临床概念的综合资源，它集成了来自60多个生物医学词汇族的约90万个概念的200多万个名称，以及这些概念之间的1200万个关系[21］．每个临床概念都有一个唯一的概念标识符。UMLS将临床概念分为134种语义类型。这些语义类型进一步分为15个语义组。MetaMap工具是由NLM开发的可配置应用程序，用于将生物医学文本映射到UMLS metatthesaurus。

我们使用LDA主题模型和JGibbLDA软件[22]对病人教育资料进行分类。LDA主题建模是一种常见的方法，它基于三层层次贝叶斯模型，生成具有无限混合的高潜在主题概率集[23］．统计分析采用R [24］．属性比例数据采用卡方检验进行分析。我们还使用Cytoscape软件版本3.4来可视化在不同模型中生成的网络[25］．

信息检索算法

我们比较了为匹配问题推荐患者教育材料的三种算法:(1)使用scikit-learn 0.18.0包的VSM模型作为基线模型[26]， (2) Kandula等人提出的基于主题建模的匹配模型[18(3)基于语义组的匹配模型，该模型将患者教材语料库中的每个语义组视为一个主题，对患者教材语料库中的细节进行处理图2．看到多媒体附件1用于基于主题建模和基于语义组模型的权重计算。

图2。基于语义组的工作流模型。化学:化学品和药品;CONC:概念和想法;CUI:概念唯一标识符;DISO:疾病;QDP:来自糖尿病患者的问题;PEM:患者教育资料。

金标准与评价

为了比较性能，我们随机选择了50个问题，并在两位专家的同意下，基于人工审查组装了一个黄金标准数据集。具体来说，对于结对问题问和教育材料文件d，我们在0到2的范围内手动分配了一个分数来表示d是否与q相关，其中0表示不相关，1表示部分相关，2表示最相关。两位医学专家执行了这项任务。加权科恩kappa值被计算来确定注释者之间的一致性。在两位专家的共识基础上，金本位制应运而生。顶部的精度k检索到的文档用于评估模型的性能，定义如下:

精度(k)=(相关文档数量)/k

其中部分相关性文档被计算为0.5。

总体统计数据

如表1，患者教育资料和糖尿病患者提问的平均文献长度(字数)分别为968 (SD 115)和110 (SD 36)。患者教育材料的UMLS映射率(可以映射到UMLS概念的单词的比率)明显高于糖尿病患者的问题(P<.001)，在糖尿病患者的问题中比在患者教育材料中有更多独特的概念。糖尿病患者提问的字数为41820个，其中患者教育资料为8952个。患者教育资料中的大部分词语出现在糖尿病患者的问题中，有25.06%(2244/8952)的词语没有出现在糖尿病患者的问题中(图3)．

表1。两个语料库的概述。

语料库	数量	总字数 (映射)^一个	字数，平均值(SD)	唯一字数	独特的uml 概念,n
糖尿病患者的问题病人	7510	829893例(91.18%)	110 (36)	41820年	19616年
患者教育资料	144	139463例(93.31%)	968 (115)	8952	7924

^一个映射率是指单词从总字数中映射到UMLS的概率。两组间映射率差异有统计学意义(P<措施)。

表2显示每个语料库的前20个单词。糖尿病技术、社区、1型和成年期潜伏自身免疫性糖尿病(LADA)是糖尿病患者用户提问中最常见的主题，在患者教材文档中通过主题建模，主题5、主题3和主题8是主要主题，如图所示表3．表4展示了一些使用主题建模获得的主题示例，该模型列出了前20个单词及其每个主题的相应权重。主题词汇相似度分析的结果是计算两个语料库中每两个主题之间的余弦相似度，并通过热图图形(图4)．糖尿病患者分类问题与患者教材主题之间不存在词汇相似性，但糖尿病患者语料库内部问题之间存在较高的语言相似性。两种语料库的语义群分布有显著差异(图5程序、现象、物体、生物、疾病和解剖学在患者教育材料中更为普遍，而生理学、基因和分子序列、装置、化学物质和药物在患者教育材料中更为普遍。

图3。两个语料库中单词的维恩图。来自糖尿病患者(QDP)语料库的问题中有35112个(83.96%)独词，来自患者教育资料(PEM)语料库的问题中有2244个(25.06%)独词。

表2。两个语料库中排名前20的单词。

排名	糖尿病患者的问题		患者教育资料
	词	频率	词	频率
1	糖尿病	9062	血	3081
2	胰岛素	5369	胰岛素	2504
3.	类型	4657	葡萄糖	2074
4	就像	4620	糖尿病	1385
5	得到	4457	孩子	1166
6	时间	4107	餐	1047
7	知道	3875	蔡尔兹	815
8	泵	3428	护理	801
9	现在	3421	健康	797
10	血	3388	剂量	782
11	一天	3317	测试	738
12	人	2789	糖	728
13	第一个	2395	帮助	671
14	糖	2383	提供者	638
15	去	2309	一天	635
16	回来	2290	高	627
17	看到	2219	晚上	583
18	认为	2148	取	583
19	高	2088	时间	571
20.	使用	2036	吃	547

表3。两种语料库的类别和主题分布。

类别/主题^一个		n (%)
糖尿病患者的问题
	2型	454 (6.0)
	Type 1和LADA	1609 (21.4)
	TuDiabetes网站	97 (1.3)
	治疗	507 (6.8)
	心理和情绪健康	92 (1.2)
	健康生活	187 (2.5)
	食物	321 (4.3)
	糖尿病技术	1903 (25.4)
	糖尿病并发症和其他情况	211 (2.8)
	糖尿病和怀孕	117 (1.6)
	糖尿病宣传	253 (3.4)
	社区	1759 (23.4)
患者教育资料(PEM)
	PEM1	6 (4.2)
	PEM2	5 (3.5)
	PEM3	13 (9.0)
	PEM4	6 (4.2)
	PEM5	15 (10.4)
	PEM6	10 (6.9)
	PEM7	3 (2.1)
	PEM8	11 (7.6)
	PEM9	5 (3.5)
	PEM10	7 (4.9)
	PEM11	9 (6.3)
	PEM12	9 (6.3)
	PEM13	6 (4.2)
	PEM14	8 (5.6)
	PEM15	3 (2.1)
	PEM16	3 (2.1)
	PEM17	6 (4.2)
	PEM18	7 (4.9)
	PEM19	5 (3.5)
	PEM20	7 (4.9)

^一个将糖尿病患者语料库中的问题类别按照网站提供的内容进行标注，采用LDA主题建模的方法生成患者教材(PEM)语料库的主题。以文献的最大分布计算主题比例。

表4。患者教育材料(PEM)语料库中的示例主题。

PEM集团	前20个最突出的单词(对应权重)	主题
PEM2	疾病(0.071)，肾脏(0.043)，风险(0.037)，心脏(0.031)，健康(0.023)，压力(0.021)，护理(0.018)，提供者(0.017)，因素(0.017)，人(0.017)，肾脏(0.015)，胆固醇(0.012)，高(0.011)，生活方式(0.010)，水平(0.010)，蛋白质(0.010)，对照(0.009)，身体(0.008)，尿液(0.008)，药物(0.008)	Complication-kidney
PEM8	食物(0.039)，水果(0.024)，杯子(0.022)，食物(0.022)，食物(0.020)，糖(0.020)，脂肪(0.019)，碳水化合物(0.017)，餐食(0.016)，计划(0.015)，牛奶(0.015)，蛋白质(0.014)，碳水化合物(0.013)，零食(0.013)，蔬菜(0.013)，克数(0.011)，餐食(0.011)，制作(0.011)，卡路里(0.010)，每份(0.010)	食物
PEM13	护理(0.024)，脚(0.023)，问题(0.022)，提供者(0.020)，疼痛(0.020)，健康(0.017)，任期(0.017)，症状(0.015)，外周(0.015)，网站(0.014)神经(0.013)，腿部(0.012)，系统(0.012)，神经病(0.012)，中风(0.012)，行走(0.011)，图形(0.011)，鞋子(0.011)，感染(0.009)，大脑(0.009)	Complication-foot

图4。基于TF-IDF加权词向量余弦相似度或主题词分布的糖尿病患者类别和患者教材主题问题热图。聚类是基于欧氏距离的。

图5。糖尿病患者提问(QDP)和患者教育资料(PEM)两个语料库中10个临床语义组的分布情况。阿娜特:解剖学;化学:化学品和药品;戴维:设备;DISO:障碍;GENE:基因和分子序列;LIVB:生物;OBJC:对象;苯酚的:现象; PHYS: physiology; PROC: procedures.

网络分析

图6显示主题/语义组频率大于1的主题或语义组的问题网络(即，问题5220匹配到主题8，主题频率为2.22，问题4124匹配到生理语义组，语义组频率为4.02)。在基于主题建模的网络模型(图6)，所有患者教育材料主题都被呈现，与主题4、主题8和主题9匹配的问题更多，而一些主题(如主题1、主题2、主题3或主题10)与少量问题相关。有些问题与非常具体的话题有关。例如，问题6722来自糖尿病患者题库中的糖尿病并发症和其他病症主题，问题的内容是:“Do you have neuropathy?”在这里介绍你自己!脚痛，麻木，神经痛，还有人知道我在经历什么吗?是的，我们有!”它与PEM13主题(即复杂脚主题)有唯一的匹配。在基于语义组的网络模型中(图6)，物体、生理和生物组有更多的问题。同样，有些问题与非常特定的语义组相关。例如，来自糖尿病患者题库中的糖尿病技术主题的问题7113，问题的内容是:“你是Accu-Chek用户吗?”对于ACCU-CHEK血糖仪的用户，请跳进来。”它被映射到设备语义组。两个网络的结合(图6)表明，对于某些问题，基于主题建模和基于语义组的两种模型是互补的。例如，2760题属于糖尿病患者题库中的糖尿病并发症和其他病症题目，题目的内容是:“平衡神经病变我没有刺痛、麻木、疼痛的神经病变，但我脚上的感觉不知为什么没有传递到我的平衡中心。”我要做神经传导测试还有肌电图。任何建议吗?”它与并发症-脚主题(即PEM13)相关，也与障碍语义组相关。

性能比较

两专家在相关性判断上具有较高的一致性(κ=0.90)。文中给出了三种模型的性能图7而且表5．基于主题建模的模型在每个等级上都优于其他两个模型，基于语义组的模型优于基线VSM模型。例如，对于顶部检索的文档，基于主题建模、基于语义组和VSM模型的精度分别为0.670(67.0%)、0.628(62.8%)和0.543(54.3%)。

图6。(A)基于主题建模的模型(TMB)与主题频率截止点1形成的网络，(B)基于语义组模型(SGB)与语义组频率截止点1形成的网络，(C)基于问题将两个网络(TMB+SGB)连接起来形成的组合网络。

表5所示。基于主题建模、基于语义组和向量空间模型(VSM)模型的性能比较。

模型	意思是精度
	P 1	P 2	3页	P 4	5页	P 10	P 20
主题modeling-based	0.670	0.622	0.596	0.588	0.596	0.579	0.572
语义组	0.628	0.606	0.585	0.582	0.581	0.564	0.547
扫描仪	0.543	0.532	0.532	0.529	0.528	0.528	0.531

图7。基于主题建模(TMB)、基于语义组(SGB)和向量空间模型(VSM)模型的1到20级精度。

总之，我们调查了最先进的信息检索方法的使用，通过利用由糖尿病教育材料和在线论坛组装的语料库，为糖尿病在线论坛中可用的问题推荐糖尿病教育材料。我们的研究表明，患者教育材料中使用的语言与在线论坛中问题中使用的语言不同。基于主题建模的模型有可能准确地为给定的问题推荐患者教育材料。基于主题建模和基于语义组的模型都优于基线VSM模型。网络分析表明，主题建模形成的网络与语义组形成的网络是不同的，二者的结合可能产生更好的策略。

文献表明，患者使用的语言与临床医生使用的语言不同[27］．我们的研究表明，即使患者教育材料的目标受众是患者，但在线论坛中的患者教育材料和问题之间存在语言差异。病人教育材料往往由医院工作人员在内部制作，而没有充分考虑到打算使用这些材料的病人[28］．在我们的研究中，患者教育材料倾向于涵盖临床和患者生活主题，而患者倾向于从最上面的单词询问特定疾病的技术和治疗表2．此外，糖尿病患者语料库的问题语义组主要包括化学药物、生理、器械、基因等方面，而患者教材语料库的问题语义组较多，这些语义组还涉及并发症、治疗、技术等类别。糖尿病患者问题的主要类别分布与其语义组有一致性。因此，分析在线论坛可以识别患者的信息需求，并为创建以患者为中心的教育材料提供机会。

研究表明，主题建模可以减少两个语料库之间的词汇差异，在向问题推荐教材时达到最佳效果。在图7，我们发现基于主题建模的模型优于其他两个模型。通过主题建模，计算主题及其概率分布，分析文档相似度，探索文档分类和个性化推荐。例如，iDoctor使用LDA主题建模，根据众包评论网站上的数据进行个性化和专业化的医疗建议[29]和Kandula等人的[18]的研究还表明，LDA主题建模可以更好地根据临床记录向糖尿病患者推荐患者教育材料。我们的网络分析表明，基于主题建模的模型和基于语义组的模型形成了两个独立的网络，这可能意味着将这两个自动化模型结合起来有可能改善推荐。

在这里，我们只研究了一种疾病，并使用了我们的机构患者教育材料。我们还需要更多的研究来证明我们的发现是否可以推广。未来工作的一个方向是将我们的研究扩展到其他疾病领域、其他患者教育材料资源和在线论坛。

致谢

本研究由国家卫生研究院科研项目R01LM011934-01A1和R01EB019403，广东省科技厅2014b010118005资助。第一作者由中国国家留学基金委资助。

利益冲突

没有宣布。

‎

多媒体附件1

信息检索算法。

PDF档案(adobepdf档案)，128KB

IDF糖尿病地图集。URL:http://www.diabetesatlas.org/[访问时间:2017-09-27][WebCite缓存］
卓晓霞，张鹏，张鹏，张晓霞。糖尿病的终生成本及其对糖尿病预防的影响。糖尿病护理2014年9月37(9):2557-2564。［CrossRef] [Medline］
海因里希E, Schaper N, de Vries N. 2型糖尿病的自我管理干预:系统综述。欧洲糖尿病护理2015 Feb 17;7(2):71-76 [免费全文] [CrossRef］
Moser A, van der Bruggen H, Widdershoven G, Spreeuwenberg C. 2型糖尿病的自我管理:从荷兰护士主导的共享护理项目参与者的角度进行的定性调查。BMC Public Health 2008 3月18日;8:91 [免费全文] [CrossRef] [Medline］
Devi R, Kapoor B, Singh M.自学模块对印度东德里II型糖尿病患者足部护理知识和实践的有效性。国际社区医疗卫生杂志2017;3(8):2133-2141。［CrossRef］
Kanthawala S, Vermeesch A, Given B, Huh J.健康问题的答案:互联网搜索结果与在线健康社区的反应。J medical Internet Res 2016 april 28;18(4):e95 [免费全文] [CrossRef] [Medline］
郑勇，吴林，苏智，周强。基于改良AADE糖尿病教育课程的糖尿病教育项目开发。中华临床医学杂志2014;7(3):758-763 [免费全文] [Medline］
Hermanns N, Kulzer B, Ehrmann D, Bergis-Jurgan N, Haak T.糖尿病教育计划(PRIMAS)对1型糖尿病患者的影响:一项随机试验的结果。糖尿病临床研究2013年12月;102(3):149-157。［CrossRef] [Medline］
Haas L, Maryniuk M, Beck J, Cox CE, Duker P, Edwards L, 2012标准修订工作小组。糖尿病自我管理教育与支持国家标准。糖尿病护理2014年1月;37日增刊1:S144-S153 [免费全文] [CrossRef] [Medline］
巴扎-耶茨R，里贝罗-内托B.现代信息检索。纽约:ACM出版社;1999.
信息检索中向量空间模型的关键分析。中国科学(英文版)，1986;37(5):379。
Salton G, McGill M.现代信息检索导论。纽约:McGraw-Hill;1983.
WordNet:一个英语词汇数据库。通信学报1995;38(11):39-41。［CrossRef］
王超，布莱东。协同主题模型在科技文章推荐中的应用。第17届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2011年8月发表于:第17届ACM SIGKDD知识发现与数据挖掘国际会议论文集;2011年8月21-24日;圣地亚哥，加州p. 448-456 URL:https://doi.org/10.1145/2020408.2020480
易晓霞，李志强。主题模型在信息检索中的应用研究。见:ECIR 2009:信息检索的进展。纽约:施普林格;2009:29-41。
病人护理的信息检索。BMJ 1997 Mar 29;314(7085):950-950 [免费全文] [CrossRef］
Ebell MH, Barry HC。inforetrever:在手持计算机上快速获取基于证据的信息。计算机科学与技术，1998;15(5):289-297。［Medline］
Kandula S, Curtis D, Hill B，曾- treitler Q.使用主题建模推荐相关教育材料给糖尿病患者。AMIA年度诉讼程序2011;2011:674-682 [免费全文] [Medline］
Apache Tika。URL:https://tika.apache.org/[访问时间:2017-09-27][WebCite缓存］
tudiabetes.org。URL:http://www.tudiabetes.org/forum/[访问时间:2017-09-27][WebCite缓存］
Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 1;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline］
潘晓明，阮良，堀口齐，等。短稀疏文本的分类算法研究从大规模数据集合中隐藏主题的Web。在:第17届国际万维网会议论文集。2008年4月发表于:WWW 2008第七届国际万维网会议;2008年4月21日至25日;中国北京，p. 91-100https://doi.org/10.1145/1367497.1367510
李国强，李国强。潜狄利克雷分布。J Mach Learn Res 2003; 3:93 -1022。
R核心团队。R语言定义。奥地利维也纳:R统计计算基础;2000.
王俊杰，王俊杰，王俊杰，等。细胞景观:生物分子相互作用网络集成模型的软件环境。Genome Res 2003 11月;13(11):2498-2504 [免费全文] [CrossRef] [Medline］
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。J Mach Learn Res 2011; 12:25 -2830。
曾庆刚，高根，刘志刚，刘志刚。患者和临床医生的词汇:他们有什么不同?种马健康技术通报2001;84(Pt 1):399-403。［Medline］
Payne S, Large S, Jarrett N, Turner P.姑息治疗单位提供给患者和家属的书面信息:一项全国性调查。柳叶刀2000年5月20日;355(9217):1792 [免费全文] [CrossRef] [Medline］
张颖，陈敏，黄东，吴东，李艳。基于混合矩阵分解的个性化、专业化医疗推荐。Future generer Comp Sy 2017年1月;66:30-35 [免费全文] [CrossRef］

‎

拉达:成人潜伏的自身免疫性糖尿病

LDA:潜狄利克雷分配

uml:统一医学语言系统

特点:向量空间模型

G·艾森巴赫(G Eysenbach)编辑;提交24.03.17;E Da Silva, K Fitzner的同行评审;对作者15.06.17的评论;修订本收到于06.08.17;接受29.08.17;发表16.10.17

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

利用资讯检索方法推荐糖尿病教材