https://bioinform.www.mybigtv.com/issue/feed JMIR生物信息学和生物技术 2021 - 01 - 22 - t10:16:11凌晨 卡塔尔世界杯8强波胆分析 editor@www.mybigtv.com 开放期刊系统 除非另有说明,所有文章都是根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款开放获取的,该协议允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(“首次发表在医学互联网研究杂志上……”)被正确引用,并带有原始URL和书目引用信息。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。 用于大数据分析的方法、设备、基于网络的平台、开放数据和开放软件工具,理解生物/医学数据,以及生物学和医学中的信息检索。 https://bioinform.www.mybigtv.com/2022/1/e29404/ 通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估 2022 - 10 - 28 - t09:30:03内 曹国伟你们 Wenxing胡 布鲁诺的地方 背景:哺乳动物的免疫系统能够产生针对各种抗原的抗体,包括细菌、病毒和毒素。重排免疫球蛋白基因的超深度DNA测序在进一步了解免疫反应方面具有相当大的潜力,但由于缺乏高通量、基于序列的方法来预测给定免疫球蛋白识别的抗原,其局限性很大。作为仅从序列数据预测抗体-抗原结合的一步,我们的目标是比较一系列机器学习方法,这些方法应用于经过整理的抗体-抗原对数据集,以便从序列数据预测抗体-抗原结合。方法:从蛋白质数据库和冠状病毒抗体数据库中提取训练和测试数据,并使用分子对接协议生成额外的抗体-抗原对数据。该问题采用了加权最近邻法、BLOSUM62矩阵最近邻法和随机森林法等几种机器学习方法。结果:最终数据集包含1157个抗体和57个抗原,合并为5041个抗体-抗原对。使用BLOSUM62矩阵的最近邻方法获得了预测相互作用的最佳性能,在完整数据集上的准确率约为82%。这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架,以及协议和考虑因素。比较了几种机器学习方法从蛋白质序列中预测抗体-抗原相互作用。数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载。 2022 - 10 - 28 - t09:30:03内 https://bioinform.www.mybigtv.com/2022/1/e36660/ 多输入卷积神经网络用于COVID-19分类和胸部x线片关键区域筛选:模型开发和性能评估 2022 - 10 - 04 - t09:15:03内 Zhongqiang李 郑李 路加福音么 清陈 剑张 鑫李 广大冯 砚李 徐剑 背景:COVID-19大流行正在成为前所未有的最大健康危机之一,胸部x线摄影(CXR)在诊断COVID-19中发挥着至关重要的作用。然而,从cxr中提取和寻找有用的图像特征对放射科医生来说是一项繁重的工作。本研究的目的是设计一种新型的多输入卷积神经网络(CNN)用于COVID-19的分类和从cxr中提取关键区域。我们还研究了输入数量对新MI-CNN模型性能的影响。共有6205张CXR图像(包括3021张COVID-19 CXR和3184张正常CXR)用于测试我们的MI-CNN模型。cxr可以被平均分割为不同数量(2,4和16)的单个区域。每个区域都可以单独作为MI-CNN输入之一。这些MI-CNN输入的CNN特征将被融合用于COVID-19分类。更重要的是,每个CXR区域的贡献可以通过评估测试数据集中对应区域准确分类的图像数量来评估。在全图像和左、右肺感兴趣区(LR-ROI)数据集中,mi - cnn对COVID-19的分类都表现出良好的效率。 In particular, MI-CNNs with more inputs (2-, 4-, and 16-input MI-CNNs) had better efficiency in recognizing COVID-19 CXRs than the 1-input CNN. Compared to the whole-image data sets, the efficiency of LR-ROI data sets showed approximately 4% lower accuracy, sensitivity, specificity, and precision (over 91%). In considering the contributions of each region, one of the possible reasons for this reduced performance was that nonlung regions (eg, region 16) provided false-positive contributions to COVID-19 classification. The MI-CNN with the LR-ROI data set could provide a more accurate evaluation of the contribution of each region and COVID-19 classification. Additionally, the right-lung regions had higher contributions to the classification of COVID-19 CXRs, whereas the left-lung regions had higher contributions to identifying normal CXRs. Conclusions: Overall, MI-CNNs could achieve higher accuracy with an increasing number of inputs (eg, 16-input MI-CNN). This approach could assist radiologists in identifying COVID-19 CXRs and in screening the critical regions related to COVID-19 classifications. 2022 - 10 - 04 - t09:15:03内 https://bioinform.www.mybigtv.com/2022/1/e37951/ 使用排序模型预测糖尿病患者的治疗中止:机器学习模型开发 2022 - 09 - 23 - t09:30:02内 Hisashi Kurasawa 击倒Waki Akihiro千叶 Tomohisa塞其 Katsuyoshi Hayashi Akinori Fujino保持 Tsuneyuki混合 隆野口勇 Kazuhiko咸宁 背景:治疗中断(TD)是糖尿病治疗中的主要预后问题之一,已经提出了几种模型,通过使用二元分类模型来预测糖尿病患者错过的可能导致TD的预约,以早期发现TD并为患者提供干预支持。然而,由于二元分类模型输出的是在预先确定的时间段内发生错过预约的概率,因此它们在估计预约间隔不一致的患者TD风险程度方面的能力有限,因此很难优先考虑应该为哪些患者提供干预支持。本研究旨在开发一种机器学习预测模型,该模型可以输出TD风险评分,评分由TD发生的时间长短决定,并根据TD风险对患者进行优先干预。方法:该模型包括2012年9月3日至2014年5月17日在东京大学医院诊断编码为糖尿病的患者。从2014年5月18日到2016年1月29日,该模型在同一家医院的患者中进行了内部验证。本研究使用的数据包括7551名2004年1月1日后就诊的患者,他们的诊断代码表明患有糖尿病。特别是使用了2012年9月3日至2016年1月29日期间在电子病历中记录的数据。主要结果是患者的TD,其定义为错过了预定的临床预约,并且在患者就诊之间的平均天数的3倍内和60天内没有去医院就诊。TD风险评分是通过使用从机器学习排名模型中得出的参数来计算的。除使用校准图外,还使用带有患者排序性能c指数、受试者工作特征曲线下面积和区分精度-召回曲线下面积的测试数据来评估预测能力。 Results: The means (95% confidence limits) of the C-index, area under the receiver operating characteristic curve, and area under the precision-recall curve for the TD risk score were 0.749 (0.655, 0.823), 0.758 (0.649, 0.857), and 0.713 (0.554, 0.841), respectively. The observed and predicted probabilities were correlated with the calibration plots. Conclusions: A TD risk score was developed for patients with diabetes by combining a machine-learned method with electronic medical records. The score calculation can be integrated into medical records to identify patients at high risk of TD, which would be useful in supporting diabetes care and preventing TD. 2022 - 09 - 23 - t09:30:02内 https://bioinform.www.mybigtv.com/2022/1/e36860/ 基于印度第二波回顾性分析的预测未来COVID-19浪潮的生物信息学工具:模型开发研究 2022 - 09 - 22 - t09:15:03内 Ashutosh库马尔 阿迪尔Asghar Prakhar已经受理 Gopichand库马尔 拉维·K·纳拉扬 Rakesh K Jha 拉克什Parashar 奇萨尼 Sada N Pandey 背景:自COVID-19大流行开始以来,全球卫生政策制定者一直在试图预测即将到来的COVID-19浪潮。印度在2021年5月的第一周末经历了毁灭性的第二波COVID-19。我们回顾性分析了反映印度第二波新冠肺炎出现和传播的病毒基因组序列和流行病学数据,构建了预测模型。我们的目标是开发一种生物信息学工具,可以预测即将到来的COVID-19浪潮。方法:我们分析了SARS-CoV-2基因组序列数据的时间序列分布,并将其与第二波相应时期的新发病例和死亡病例的流行病学数据进行了关联。此外,我们还分析了在研究期间印度人群中流行的SARS-CoV-2变体的系统动力学。结果:我们的预测分析显示,第二波到来的第一个迹象可以在2021年1月底看到,比2021年5月的峰值提前了大约2个月。到2021年3月底,它变得明显起来。B.1.617谱系变体为该波提供了动力,最著名的是B.1.617.2 (Delta变体)。结论:基于本研究的观察,我们提出SARS-CoV-2变异的基因组监测,辅以流行病学数据,可能是预测即将到来的COVID-19浪潮的一个有前途的工具。 2022 - 09 - 22 - t09:15:03内 https://bioinform.www.mybigtv.com/2022/1/e37701/ 遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变异优先级的机器学习研究 2022 - 09 - 15 - t09:15:17内 Yu-Shan黄 清徐 Yu-Chang Chune I-Cheng廖 新王 Yi-Lin林 Wuh-Liang研究会会长 Ni-Chung李 Feipei赖 背景:近年来,得益于下一代测序(NGS)技术的快速发展,人类整个基因组可以在短时间内完成测序。因此,NGS技术正被广泛应用于临床诊断实践,特别是遗传性疾病的诊断。虽然使用这些方法可以生成单核苷酸变异(SNV)的外显子组数据,但处理患者的DNA序列数据需要多种工具和复杂的生物信息学管道。目的:本研究旨在帮助医生在短时间内自动解读NGS产生的遗传变异信息。目前,为了确定遗传疾病患者的真正因果变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。我们构建了一个机器学习模型,用于预测外显子组数据中的致病变异。我们从全外显子组测序(whole-exome sequencing, WES)和基因面板中收集测序数据作为训练集,然后整合多个基因数据库中的变体注释进行模型训练。建立的模型对snv进行排序,并输出最可能的致病候选。为了进行模型检验,我们收集了国立台湾大学医院108例罕见遗传性疾病患者的WES数据。我们将通过关键字提取工具从患者电子病历中自动提取的测序数据和表型信息应用到我们的机器学习模型中。 Results: We succeeded in locating 92.5% (124/134) of the causative variant in the top 10 ranking list among an average of 741 candidate variants per person after filtering. AI Variant Prioritizer was able to assign the target gene to the top rank for around 61.1% (66/108) of the patients, followed by Variant Prioritizer, which assigned it for 44.4% (48/108) of the patients. The cumulative rank result revealed that our AI Variant Prioritizer has the highest accuracy at ranks 1, 5, 10, and 20. It also shows that AI Variant Prioritizer presents better performance than other tools. After adopting the Human Phenotype Ontology (HPO) terms by looking up the databases, the top 10 ranking list can be increased to 93.5% (101/108). Conclusions: We successfully applied sequencing data from WES and free-text phenotypic information of patient’s disease automatically extracted by the keyword extraction tool for model training and testing. By interpreting our model, we identified which features of variants are important. Besides, we achieved a satisfactory result on finding the target variant in our testing data set. After adopting the HPO terms by looking up the databases, the top 10 ranking list can be increased to 93.5% (101/108). The performance of the model is similar to that of manual analysis, and it has been used to help National Taiwan University Hospital with a genetic diagnosis. 2022 - 09 - 15 - t09:15:17内 https://bioinform.www.mybigtv.com/2022/1/e38845/ 利用分诊时收集的生物标记物早期预测成人患者入院以减少急诊拥挤:回顾性队列研究 2022 - 09 - 13 - t09:15:02内 Ann Corneille Monahan 苏·S·费尔德曼 托尼·菲茨杰拉德 <强>背景:急诊科拥挤继续威胁患者安全并导致患者预后不良。先前设计用于预测入院率的模型存在偏差。成功估计患者入院概率的预测模型将有助于减少或防止急诊科“登机”和医院“出口阻塞”,并通过尽早开始住院和避免冗长的床位采购过程来减少急诊科拥挤。目的:开发一个模型,通过利用在分诊时常规收集并在医院电子病历中捕获的现有临床描述符(即患者生物标记物),在患者就诊的早期预测即将从急诊科住院的成年患者。生物标记物因其早期和常规的分类收集而有利于建模;瞬时可用性;标准化的定义、测量和解释;它们不受患者历史的限制(即,它们不受关于病史的不准确的患者报告、不可用的报告或延迟的报告检索的影响)。这项回顾性队列研究评估了在急诊科住院的成年患者中连续1年的数据事件,并开发了一种算法来预测哪些患者需要马上入院。评估了8个预测变量在患者急诊科就诊结果中的作用。 Logistic regression was used to model the study data. Results: The 8-predictor model included the following biomarkers: age, systolic blood pressure, diastolic blood pressure, heart rate, respiration rate, temperature, gender, and acuity level. The model used these biomarkers to identify emergency department patients who required hospital admission. Our model performed well, with good agreement between observed and predicted admissions, indicating a well-fitting and well-calibrated model that showed good ability to discriminate between patients who would and would not be admitted. Conclusions: This prediction model based on primary data identified emergency department patients with an increased risk of hospital admission. This actionable information can be used to improve patient care and hospital operations, especially by reducing emergency department crowding by looking ahead to predict which patients are likely to be admitted following triage, thereby providing needed information to initiate the complex admission and bed assignment processes much earlier in the care continuum. 2022 - 09 - 13 - t09:15:02内 https://bioinform.www.mybigtv.com/2022/1/e38976/ 桥本甲状腺炎的季节性:谷歌趋势数据的信息流行病学研究 2022 - 09 - 01 - t09:30:03内 罗伯特Marcec Stjepanovic强权统治下 罗伯特Likic 桥本甲状腺炎(HT)是一种自身免疫性甲状腺疾病,在碘摄入充足的地区是导致甲状腺功能减退的主要原因。甲状腺功能减退和HT对生活质量的影响和经济负担突出表明,需要进一步研究疾病的病因,以揭示潜在的可改变的危险因素。一旦确定了针对这些风险因素的措施,就有可能减轻财政负担,同时改善许多人的生活质量。因此,我们的目标是利用谷歌Trends数据来研究HT在欧洲的潜在季节性,探索谷歌搜索关于HT是否存在季节性特征,研究国家地理位置对潜在季节性的潜在影响,并确定潜在的可改变的HT风险因素,从而激发未来对该主题的研究。方法:每月谷歌检索搜索主题“桥本甲状腺炎”的数据,时间跨度为2004年1月至2020年12月,涵盖36个欧洲国家。余弦模型分析用于评估潜在的季节性。利用简单线性回归估计经纬度对模型输出的季节幅值和相位的潜在影响。在包括欧洲国家在内的36个国家中,有30个(83%)国家观察到明显的季节性。春季(14/30,46.7%)和冬季(8/30,26.7%)相峰最多。地理纬度对余弦模型幅值的影响有统计学意义(y = -3.23 + 0.13 x; R2=0.29; P=.002). Seasonal increases in HT search volume may therefore be a consequence of an increased incidence or higher disease activity. It is particularly interesting that in most countries, a seasonal peak occurred in spring and winter months; when viewed in the context of the statistically significant impact of geographical latitude on seasonality amplitude, this may indicate the potential role of vitamin D levels in the seasonality of HT. Conclusions: Significant seasonality of HT Google Trends search volume was observed in our study, with seasonal peaks in most countries occurring in spring and winter and with a significant impact of latitude on seasonality amplitude. Further studies on the topic of seasonality in HT and factors impacting it are required. 2022 - 09 - 01 - t09:30:03内 https://bioinform.www.mybigtv.com/2022/1/e38226/ 机器学习在预测重度股骨颈骨折患者死亡风险中的应用:预测模型开发研究 2022 - 08 - 19 - t09:15:30内 Lingxiao徐 刘骏 春夏之际汉 Zisheng人工智能 股骨颈骨折(FNF)约占全身骨折的3.58%,呈逐年上升趋势。根据一项调查,1990年,全球男性和女性髋部骨折的总人数分别约为33.8万和91.7万。在中国,FNFs占髋部骨折的48.22%。目前,已有许多关于FNF患者出院后死亡率和死亡风险的研究。然而,对于重症监护室收治的严重FNF患者的住院死亡率或其影响因素,目前尚无明确的研究。本文采用3种机器学习方法,构建了重症监护病房患者的医院死亡预测模型,以辅助临床医生进行早期临床决策。方法:使用来自重症监护医疗信息集市III的FNF患者信息进行回顾性分析。在使用合成少数派过采样技术算法平衡数据集后,将患者随机分为70%的训练集和30%的测试集,分别用于预测模型的开发和验证。以医院死亡为结果,构建随机森林、极端梯度增强和反向传播神经网络预测模型。使用受试者工作特征曲线下的面积、准确度、精密度、灵敏度和特异性来评估模型性能。 The predictive value of the models was verified in comparison to the traditional logistic model. Results: A total of 366 patients with FNFs were selected, including 48 cases (13.1%) of in-hospital death. Data from 636 patients were obtained by balancing the data set with the in-hospital death group to survival group as 1:1. The 3 machine learning models exhibited high predictive accuracy, and the area under the receiver operating characteristic curve of the random forest, extreme gradient boosting, and backpropagation neural network were 0.98, 0.97, and 0.95, respectively, all with higher predictive performance than the traditional logistic regression model. Ranking the importance of the feature variables, the top 10 feature variables that were meaningful for predicting the risk of in-hospital death of patients were the Simplified Acute Physiology Score II, lactate, creatinine, gender, vitamin D, calcium, creatine kinase, creatine kinase isoenzyme, white blood cell, and age. Conclusions: Death risk assessment models constructed using machine learning have positive significance for predicting the in-hospital mortality of patients with severe disease and provide a valid basis for reducing in-hospital mortality and improving patient prognosis. 2022 - 08 - 19 - t09:15:30内 https://bioinform.www.mybigtv.com/2022/1/e36877/ 探索使用自然语言处理支持全国静脉血栓栓塞监测的适用性:模型评估研究 2022 - 08 - 05 - t10:00:32内 亚伦Wendelboe 易卜拉欣军刀 贾斯汀·德沃夏克 阿里亚当斯基 娜塔莉Feland Nimia雷耶斯 卡隆安 托马斯Ortel 加里Raskob 背景:静脉血栓栓塞(VTE)是一种可预防的常见血管疾病,据估计每年影响多达90万人。它与近期手术、癌症和住院等危险因素有关。通过自然语言处理(NLP)可以改善VTE监测对患者的管理和安全。NLP工具能够访问电子医疗记录,识别符合静脉血栓栓塞病例定义的患者,随后将相关信息输入数据库以供医院审查。目的:我们旨在评估IDEAL-X VTE识别模型的性能(信息和数据提取使用自适应学习;埃默里大学(Emory University)的一种NLP工具,通过从2012年至2014年收集的诊断成像记录中“读取”非结构化文本,自动对VTE病例进行分类。在访问杜克大学和俄克拉何马大学健康科学中心(OUHSC)静脉血栓栓塞试点监测系统的成像记录后,我们使用IDEAL-X的静脉血栓栓塞识别模型对以前手工分类的静脉血栓栓塞病例进行分类。专家们审查了每条记录中技术人员的评论,以确定是否发生了静脉血栓栓塞事件。计算的性能指标(95% ci)包括准确性、敏感性、特异性以及阳性和阴性预测值。采用同质性卡方检验来评估各站点的性能测量差异,显著性水平为0.05。 Results: The VTE model of IDEAL-X “read” 1591 records from Duke University and 1487 records from the OUHSC, for a total of 3078 records. The combined performance measures were 93.7% accuracy (95% CI 93.7%-93.8%), 96.3% sensitivity (95% CI 96.2%-96.4%), 92% specificity (95% CI 91.9%-92%), an 89.1% positive predictive value (95% CI 89%-89.2%), and a 97.3% negative predictive value (95% CI 97.3%-97.4%). The sensitivity was higher at Duke University (97.9%, 95% CI 97.8%-98%) than at the OUHSC (93.3%, 95% CI 93.1%-93.4%; P<.001), but the specificity was higher at the OUHSC (95.9%, 95% CI 95.8%-96%) than at Duke University (86.5%, 95% CI 86.4%-86.7%; P<.001). Conclusions: The VTE model of IDEAL-X accurately classified cases of VTE from the pilot surveillance systems of two separate health systems in Durham, North Carolina, and Oklahoma City, Oklahoma. NLP is a promising tool for the design and implementation of an automated, cost-effective national surveillance system for VTE. Conducting public health surveillance at a national scale is important for measuring disease burden and the impact of prevention measures. We recommend additional studies to identify how integrating IDEAL-X in a medical record system could further automate the surveillance process. Trial Registration: 2022 - 08 - 05 - t10:00:32内 https://bioinform.www.mybigtv.com/2022/1/e38512/ 使用基于机器学习的大腿加速度计算法监测康复中的物理行为:开发和验证研究 2022 - 07 - 26 - t09:15:02内 弗雷德里克Skovbjerg 海琳欧诺瑞 荷兰国际集团(ing) Mechlenburg Matthijs。 Rikke盖德 艾哈德·特里林斯加德·n æss-施密特 背景:体育活动正在成为一种结果测量。加速度计已成为监测物理行为的重要工具,新的识别方法的分析方法增加了细节的程度。许多研究通过使用多个可穿戴传感器在物理行为分类方面取得了较高的性能;然而,多种可穿戴设备可能不切实际,且合规性较低。目的:本研究的目的是开发和验证一种算法,使用单个大腿安装的加速度计和监督机器学习方案对几种日常身体行为进行分类。我们通过将跑步、骑自行车、爬楼梯、轮椅行走和车辆驾驶等行为类别添加到现有的算法中,收集训练数据,其中包括坐、躺、站、走和转换等类别。在结合训练数据后,我们使用随机森林学习方案进行模型开发。我们通过一个模拟的自由生活过程来验证算法,使用胸前的摄像头来建立地面真相。此外,我们调整了我们的算法,并与现有的基于向量阈值的算法进行了性能比较。结果:我们开发了一种算法,将11种与康复相关的身体行为进行分类。 In the simulated free-living validation, the performance of the algorithm decreased to 57% as an average for the 11 classes (F-measure). After merging classes into sedentary behavior, standing, walking, running, and cycling, the result revealed high performance in comparison to both the ground truth and the existing algorithm. Conclusions: Using a single thigh-mounted accelerometer, we obtained high classification levels within specific behaviors. The behaviors classified with high levels of performance mostly occur in populations with higher levels of functioning. Further development should aim at describing behaviors within populations with lower levels of functioning. 2022 - 07 - 26 - t09:15:02内
Baidu
map