-
Notifications
You must be signed in to change notification settings - Fork 30
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
不同形式的基因排序方法会影响gsea富集分析结果 #4906
Comments
不同形式的基因排序方法会影响gsea富集分析结果 by 生信技能树写在笔记开始之前:好像大家不怎么知道我们生信技能树团队有一个生物信息学入门课,详见;生物信息学马拉松授课(买一得五)
这种方法不仅关注单个基因是否表达差异,而且关注一整组基因的表达模式,从而揭示背后的生物学过程或通路。它需要有下面的步骤:
其中第2个环节是需要对全部的基因需要排好序,最简单的基因排序当然了表达量高低了,这个甚至不需要多个样品分组后的差异分析。理论上单个样品它全部的基因就可以根据其基因表达量进行排序,这个就是单样本基因集富集分析(Single-Sample GSEA,简称ssGSEA)。 但是绝大部分情况下,其实应该是多个样品分组后的差异分析结果来对基因进行排序, 但是我们差异分析通常是会产生很多重要的指标。在基因表达数据的差异分析中,研究者通常使用一系列统计学指标来识别差异表达基因(Differentially Expressed Genes,DEGs)。以下是一些常用的统计学指标:
这些统计学指标可以单独使用,也可以组合使用,以提供更全面的基因表达差异分析。在实际应用中,研究者会根据数据的特性、实验设计和研究目标选择合适的统计方法和指标。 但是常规生物信息学数据分析往往是简单粗暴的选择了变化倍数来对基因进行排序后做gsea分析,下面是一个简单的案例:
其实不同形式的基因排序方法会影响gsea富集分析结果,有一个标题是《Ranking metrics in gene set enrichment analysis: do they matter?》,发表在《BMC Bioinformatics》期刊上的文章主要探讨了在基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)中,用于基因排名的不同度量标准(metrics)是否会显著影响最终的分析结果。 最后的结论是一个关键的参数是用于基因排名的度量标准,这个选择可能会影响最终的分析结果:
作者并没有明确指出单一的“最推荐”的算法,因为不同的排名度量标准(metrics)在不同的数据集和条件下表现各有优势。然而,文章中确实强调了几个表现较好的排名度量标准,并讨论了它们的稳定性。 四个表现最佳的排名度量标准文章中提到的四个表现最佳的排名度量标准是:
在稳定性方面,文章指出:
文章测评的全部的16种GSEA排名度量标准(ranking metrics)分为两组: 第一组:标准GSEA Java应用中可用的度量标准
第二组:来自特征选择领域的度量标准,常用于高通量生物实验中发现差异表达基因
这些度量标准在统计学基础上有所不同,包括基于参数的统计、非参数统计和数据挖掘方法。研究者根据他们的数据特性和分析目标选择合适的度量标准是非常重要的。例如,如果数据不符合正态分布或者存在异常值,非参数统计方法可能更为合适。而当数据集的特征与这些度量标准的设计假设相匹配时,基于参数的统计方法可能会提供更高的统计功效。 文末友情宣传强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
|
https://mp.weixin.qq.com/s/-J0bnoTfY1j5cPrMFDmQmA
The text was updated successfully, but these errors were encountered: