1)背景
伴随着大规模的基因分型及测序工程的产生 (例如 1000 Genomes Project), 之前的信息贮存格式例如 gff 文件它记录了每一个基因的详细信息, 其中许多基因信息在基因组之间是共享的, 而我们需要记录的仅仅是不同基因组之间变异的地方, 因此这些格式会显得格外冗余. 这就迫切需要一种新的格式来记录高效的记录这些变异信息. VCF(Variant Call Format) 就是这样一种用来贮存基因序列变异信息的文本文件(通常是压缩格式).
2)VCF 格式简介
VCF 格式文件包含有 3 部分: 元信息(meta-information), 以'##'为前缀, 通常包含 fileformat,fileDate,reference 等信息; 头行信息( header line ), 以'#'为前缀; 数据行(data lines), 该部分为主题部分, 记录了每个样品每个位点处的基因分型信息.
主题部分每列的含义:
1)CHROM - chromosome: 参考基因组标识.
2)POS - position: 变异位点相对于参考基因组所在的位置(1-based). 在每个染色体内, 按照数字位置升序排列.
3)ID - identi?er: 如果是 dbSNP variant 则需要给出相应的 rs 号, 若不是, 则默认使用'.'
4)REF - reference base(s): 参考序列碱基, 必须是 A,C,G,T,N 其中的一种.
5) ALT - alternate base(s): 表示 variant 的 Allele, 若有多个, 则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量, 对于 SNP 来说是单个碱基类型的编号, 而对于 Indel 来说是指碱基个数的添加或缺失, 以及碱基类型的变化
6)QUAL - quality: 表示 Phred 质量值, 用来表示 ALT 的可靠性
7)FILTER - ?lter status: 表示是否通过过滤. PASS 表示该位点通过过滤, 否则表示没有通过. 例如, q10 表示质量值低于 10
8)INFO - additional information: 表示的是变异描述信息. 包括 18 种, 都是以 < key>=[,data]格式, 并使用分号分隔的形式, 其中很多的注释信息在 VCF 文件的头部注释中给出.
- AA :ancestral allele
- AC :allele count in genotypes, for each ALT allele, in the same order as listed
- AF :allele frequency for each ALT allele in the same order as listed: use this when estimated from primary data, not called genotypes
- AN :total number of alleles in called genotypes
- BQ :RMS base quality at this position
- CIGAR :cigar string describing how to align an alternate allele to the reference allele
- DB :dbSNP membership
- DP :combined depth across samples, e.g. DP=154
- END :end position of the variant described in this record
- H2 :membership in hapmap2
- H3 :membership in hapmap3
- MQ :RMS mapping quality, e.g. MQ=52
- MQ0 :Number of MAPQ == 0 reads covering this record
- NS :Number of samples with data
- SB :strand bias at this position
- SOMATIC :indicates that the record is a somatic mutation, for cancer genomics
- VALIDATED :validated by follow-up experiment
- 1000G :membership in 1000 Genomes
9)FORMAT: 可选的扩展, 例如 GT:AD:DP:GQ:PL. 该部分是主体部分, 表示基因型信息的多个标签, 这些标签之间以冒号分割, 其对应的值位于第 10 列, 同样以冒号分割, 表示第一个样品的基因型结果
10)SAMPLES: 表示样本信息, 各个 Sample 的值, 由 BAM 文件中的 @RG 下的 SM 标签所决定, 这些值对应着第 9 列的各个格式, 不同格式的值用冒号分开, 每一个 sample 对应着 1 列; 多个 samples 则对应着多列, 这种情况下列的数多余 10 列.
3)vcftools
3)习题
4)参考资源
- The Variant Call Format Speci?cation,VCFv4.3 and BCFv2.2
- https://en.wikipedia.org/wiki/Variant_Call_Format
- http://www.cnblogs.com/emanlee/p/4562064.html
- https://gatkforums.broadinstitute.org/gatk/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk
来源: http://www.bubuko.com/infodetail-2734899.html