参考网址: http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html
GSEA 的图如何理解?
1. 图中下面灰色图的含义: http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results
图中的横坐标表示你输入的 gene 列表.
1)纵坐标含义: 纵坐标表示 "Ranked list metric",GSEA 官网对此的解释是 ranking metric, 即 signal-to-noise ratio.
2)计算方法:
3)ranking metric 的含义: 它表示基因与表型 (phenotype) 的关系. 即: 这个基因与 treat 相关, 还是与 control 相关, 相关的度量值是多少. 即 ranking metric 的含义.
positive raning metric 表示与 phenotype1 相关, negative ranking metric 表示与 phenotype2 相关.
表型是什么? 比如, 我们对给药组 (treat) 和正常组 (control) 做 RNA-seq, 得到每个基因在给药组和正常组中的表达值. 在 GSEA 中, treat 和 control 就是表型.
使用:
准备输入文件:
1. Expression dataset: 是 RNA-seq(或 chipsiq)得到的数据.
通常有这么几列:
例 1:NAME DESCRIPTION AML1 AML2 AML3 ALL1ALL2 ALL3
TP53 na 681.3 638.0 665.0 240.0 587.0 737.0
例 2:
- NAME DESCRIPTION G C
- TP53 na 681.3 638.0
注意:
1)必须用 tab 分隔;
2)第一行的名称必须是 NAME 和 DESCRIPTION;
3)文件前两行必须是:
#1.2
53796(gene 个数, 即行数) 2(sample 个数, 不是 phenotype 数. 如例 1 中 phenotype 数是 2,sample 数是 6) 参考网址: http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
2. Phenotype labels 文件: 共三行.
2 2 1 分别为: sample 数, phenotype 数, 1
# G C phenotype 的名称
G C phenotype 的名称
术语说明:
GSEA 文档中的 Phenotype,sample,gene sets 等的含义.
- Phenotype:
- sample:
- gene sets:
问题:
1.error:"Read timed out!"
这个错误, gsea 官网没有说明. 自己查的解决方法, 费劲....
原因: Gene sets database 中, 我选的是 website 的 dataset, 比如: ftp/.... 这样, 程序运行时, 去 GSEA 的 ftp 服务器寻找并使用该文件. 我怀疑可能网络不好, 导致读取超时.
解决: 下载 gene set 到本地. 其实, 就是把 MSigDB 的数据文件 (.gmt 文件) 下载到本地. 下载地址: http://software.broadinstitute.org/gsea/downloads.jsp.
注意: load 本地的 gene set 文件时, 只能通过 "Load Data" 功能执行. 我在 gene set database 打开的界面找了好久都没找到 load 文件的图标, 最后, 灵机一动, 才想到如何 load. 浪费时间 %>_<%
2. error:After pruning, none of the gene sets passed size thresholds.
这个错误, gsea 官网有说明.
原因: 下载的 c5.all.v7.0.symbols.gmt 文件中的 gene symbol 全是大写, 而我提供的 expression 文件中的基因名是小写.
解决: 将 expression 文件的基因名改为大写即可.
具体解决方法: awk '{print toupper($3)}', 使用 shell 脚本的 toupper 函数即可.
3. 运行时间:
我输入两个 sample, 两种 phenotype, 共 53000 + 个 gene 的数据, permutation 选择默认值 1000, 选择一个 bp.gmtwenjian, 运行时间长, 大约十几分钟.
来源: http://www.bubuko.com/infodetail-3273811.html